AWS ha presentado la versión 0.4 de GraphStorm, su marco de aprendizaje automático diseñado para manejar gráficos a gran escala, prometiendo una mejora significativa en la eficiencia del procesamiento de datos en empresas. Esta actualización destaca por su integración con DGL-GraphBolt, una herramienta orientada al almacenamiento y muestreo de gráficos, que busca optimizar el entrenamiento e inferencia de redes neuronales gráficas (GNN). Los resultados obtenidos con esta nueva versión indican que GraphStorm puede acelerar la inferencia hasta en un 360% y el entrenamiento por época en un 140%, lo que representa un avance considerable en el rendimiento de las tareas de aprendizaje automático relacionadas con gráficos.
GraphStorm es una plataforma de bajo código, que facilita a los profesionales del aprendizaje automático la construcción, entrenamiento y despliegue de soluciones sobre enormes conjuntos de datos de gráficos. En esta nueva versión, se han abordado algunas de las limitaciones más críticas que enfrentan los modelos de aprendizaje en gráficos, como las restricciones de memoria y la necesidad de métodos de muestreo eficientes. Uno de los aspectos más destacados de GraphStorm v0.4 es su capacidad para ofrecer un almacenamiento distribuido y compacto de estructuras gráficas que pueden llegar a afectar varios terabytes, lo que permite manejar datos masivos de manera eficaz.
La incorporación de GraphBolt a GraphStorm introduce una representación gráfica más compacta y un muestreo por tuberías, lo que no solo reduce los requerimientos de memoria, sino que también acelera los procesos de entrenamiento e inferencia. En pruebas realizadas, se evidenció que el tiempo de entrenamiento fue notablemente reducido en un conjunto de datos de gran tamaño, permitiendo a investigadores y desarrolladores obtener resultados con mayor rapidez y eficiencia.
Además, GraphStorm se integra de manera óptima con Amazon SageMaker, facilitando la transición de pruebas locales a entrenamientos a gran escala. Los usuarios pueden desarrollar modelos en instancias de EC2 y posteriormente transferir cargas de trabajo al entorno distribuido de SageMaker, lo que optimiza sus flujos de trabajo y reduce costos operativos.
AWS alienta a los profesionales del aprendizaje automático a explorar las nuevas características de GraphStorm, enfatizando que esta plataforma simplifica el proceso de modelado, permitiendo a los usuarios concentrarse más en la investigación que en las cuestiones de infraestructura.