Importación de Datos desde Google Cloud Platform BigQuery para Aprendizaje Automático sin Código con Amazon SageMaker Canvas

Elena Digital López

En el mundo empresarial actual, donde el uso de la nube es omnipresente, los datos suelen estar dispersos a través de múltiples plataformas en la nube y sistemas locales. Esta dispersión plantea un desafío considerable para las organizaciones que buscan consolidar y analizar sus datos con fines de aprendizaje automático. Sin embargo, una nueva estrategia arquitectónica promete revolucionar este proceso, permitiendo extraer datos de entornos variados en la nube, como Google Cloud Platform BigQuery, sin tener que trasladarlos físicamente. Esto reduce notablemente la complejidad y los costos asociados con la transferencia de datos entre diferentes plataformas.

La clave de esta solución radica en la utilización de Amazon Athena Federated Query para la extracción de datos de GCP BigQuery. Junto a esto, Amazon SageMaker Data Wrangler se encarga de preparar los datos para que posteriormente puedan ser utilizados en Amazon SageMaker Canvas, una herramienta de aprendizaje automático sin necesidad de programación. SageMaker Canvas ofrece la posibilidad a los analistas de negocio de importar datos de más de 50 fuentes distintas, preparar estos datos con un lenguaje natural gracias a más de 300 transformaciones integradas, construir modelos de aprendizaje automático de alta precisión, y generar predicciones y desplegar modelos sin requerir conocimientos avanzados de programación o experiencia en ML.

El enfoque técnico de esta solución abarca dos pasos principales. Primero, se configura Amazon Athena para realizar consultas federadas a GCP BigQuery, permitiendo ejecutar consultas directamente desde Athena sobre BigQuery. Luego, se importan los datos a SageMaker Canvas utilizando Athena como intermediario.

Una vez importados a SageMaker Canvas, los datos se pueden usar para construir modelos de aprendizaje automático y generar predicciones, todo mediante su interfaz sin código. Esto permite una preparación inicial de datos y predicciones precisas sin escribir una sola línea de código. Además, para aquellos con necesidades más avanzadas de ML, existe la posibilidad de pasar de un entorno sin código a uno basado en código, gracias a la integración entre SageMaker Canvas y Amazon SageMaker Studio, lo que facilita la implementación a gran escala.

Este enfoque arquitectónico muestra cómo los servicios de AWS permiten acceder de manera eficiente a datos almacenados en GCP BigQuery, integrándolos en SageMaker Canvas para construcción y despliegue de modelos de aprendizaje automático. El proceso cubre desde la elaboración de consultas SQL en SageMaker Canvas para BigQuery, pasando por Athena como intermediario, hasta la utilización de Amazon Secrets Manager para el acceso seguro a credenciales, garantizando una integración robusta y escalable capaz de manejar grandes volúmenes de datos a través de funciones Lambda sin servidor.

Los beneficios de esta solución son notables: una integración simplificada que elimina la necesidad de trasladar datos, acceso seguro mediante Amazon Secrets Manager, y escalabilidad asegurada con funciones Lambda y la capacidad de Athena para manejar eficientemente vastos conjuntos de datos. Adicionalmente, democratiza el acceso al aprendizaje automático, permitiendo que organizaciones de cualquier tamaño aprovechen el análisis avanzado y la innovación, todo sin necesidad de formación técnica especializada. Esta democratización del ML impulsa significativamente la capacidad de las organizaciones para innovar y competir en un entorno empresarial cada vez más digitalizado y basado en datos.