Un reciente informe de McKinsey & Company ha revelado que la inteligencia artificial generativa podría aportar entre 2.6 y 4.4 billones de dólares a la economía global. Este inmenso potencial económico se destaca especialmente en áreas como las operaciones con clientes, el marketing, las ventas, la ingeniería de software y la investigación y desarrollo. Este atractivo ha llevado a miles de empresas a desarrollar aplicaciones de inteligencia artificial generativa utilizando Amazon Web Services (AWS).
Sin embargo, muchos líderes en gestión de productos y arquitectos empresariales están interesados en comprender mejor los costos asociados y las estrategias para optimizarlos. Un enfoque clave en este análisis es la Generación Aumentada por Recuperación (RAG), que permite a los modelos de lenguaje responder a preguntas específicas utilizando datos corporativos, incluso si no fueron entrenados con esa información.
Entre los aspectos a considerar para la optimización de costos y rendimiento se encuentran la selección, elección y personalización de modelos, el uso eficiente de tokens, los planes de precios de inferencia y otros factores relevantes. La selección del modelo adecuado es fundamental, considerando sus necesidades específicas, así como la validación con conjuntos de datos de alta calidad. La elección del modelo debe hacerse teniendo en cuenta sus características de precios y rendimiento, mientras que la personalización se refiere a la modificación de modelos existentes con datos de entrenamiento para maximizar su eficiencia.
El uso de tokens es otro aspecto crucial, dado que el costo de operar un modelo de IA generativa está directamente relacionado con el número de tokens procesados. Implementar estrategias de almacenamiento en caché y establecer límites en el número de tokens puede contribuir a la reducción de costos.
En cuanto a los planes de precios de inferencia, AWS ofrece opciones como la modalidad bajo demanda, que es ideal para la mayoría de los modelos, y el rendimiento provisionado, que asegura un nivel específico de rendimiento a un costo generalmente más alto. Otros factores a tener en cuenta incluyen medidas de seguridad, como filtros de contenido, el coste asociado con el uso de bases de datos vectoriales y las estrategias de fragmentación de datos, que pueden influir tanto en la precisión como en los costos generales.
Por ejemplo, los gastos pueden diferir significativamente según el volumen de preguntas que una aplicación de asistente virtual reciba. Se han presentado ejemplos que ilustran cómo varían estos costos anuales en escenarios pequeños, medianos y grandes, indicando que la implementación de un modelo de lenguaje como Claude 3 de Anthropic podría significar costos anuales que van de 12,577 a 134,252 dólares.
En última instancia, se discuten las implicaciones de utilizar servicios como Amazon Bedrock para acceder a modelos de alto rendimiento, así como la importancia de establecer guardrails que controlen el contenido y mejoren la seguridad de las aplicaciones, un aspecto esencial cuando un asistente virtual interactúa con usuarios sobre una variedad de temas.
Con el avance continuo de la inteligencia artificial generativa, es fundamental que las organizaciones estén al tanto de las fluctuaciones de costos y de las estrategias para optimizarlos, asegurando así la maximización de su valor en el futuro. En próximas entregas se abordarán otros aspectos relacionados con la estimación del valor comercial y los factores que la influyen.