Optimización de la Seguridad Videográfica en la Gestión de Acceso Privilegiado con IA Generativa y Amazon Bedrock

Elena Digital López

Las empresas del sector financiero, así como aquellas en industrias altamente reguladas, se enfrentan a desafíos significativos en la gestión de la seguridad y el cumplimiento normativo. Una de las herramientas más fundamentales en la protección de la infraestructura tecnológica crítica es el sistema de Gestión de Accesos Privilegiados (PAM, por sus siglas en inglés). Estos sistemas son esenciales para asegurar, gestionar y monitorear el uso de accesos privilegiados por administradores de sistemas, lo cual resulta clave para cumplir con las exigencias de auditoría establecidas por las regulaciones de seguridad.

Entre las funcionalidades más destacadas de los sistemas PAM se encuentran el registro de pulsaciones de teclas y las grabaciones de vídeo de las sesiones de consola de los servidores. Sin embargo, la captura de pulsaciones no siempre es viable, especialmente en sistemas operativos como Windows, donde la mayoría de las interacciones se realizan a través de interfaces gráficas. Esto limita a los equipos de seguridad a analizar las actividades únicamente a través de grabaciones de vídeo, un proceso que puede tornarse inmanejable, dado que una organización financiera típica puede generar más de 100,000 horas de grabaciones mensualmente.

Si se considera que solo el 30% de estas grabaciones proviene de servidores Windows, esto implicaría la necesidad de alrededor de 1,000 empleados trabajando a tiempo completo solo para revisar el material, lo que plantea un importante obstáculo para la detección de anomalías de seguridad o actividades maliciosas. Esta realidad ha obligado a los equipos de seguridad a realizar controles aleatorios, lo que compromete su capacidad de identificar infracciones de seguridad en tiempo real.

La irrupción de servicios de inteligencia artificial (IA) ha transformado el panorama, revolucionando la manera en que se procesan, analizan y obtienen insights de los contenidos de vídeo. Mediante técnicas avanzadas de aprendizaje automático y visión por computadora, se puede incorporar la detección de objetos, el reconocimiento de actividades y el análisis de texto y audio. En este marco, el uso de modelos de lenguaje de gran tamaño, como Claude 3 de Anthropic, ha permitido a los equipos de seguridad convertir grabaciones en transcripciones que pueden ser examinadas para detectar anomalías.

La solución presentada consiste en un flujo de trabajo en dos etapas: la transcripción de los vídeos y el análisis de ciberseguridad de esas transcripciones. En la primera fase, se extraen imágenes estáticas de cada segundo de grabación, dado que los modelos actuales enfrentan dificultades para procesar datos visuales secuenciales de forma eficiente. Posteriormente, las transcripciones obtenidas se utilizan en la segunda etapa para llevar a cabo análisis de seguridad, verificando el cumplimiento de solicitudes de cambio y detectando posibles riesgos de acceso a datos sensibles o elevación de privilegios.

La implementación de este enfoque, que usa tecnologías como Amazon Bedrock y Claude 3, optimiza la gestión de grabaciones y permite a los equipos de seguridad mejorar su protección general contra amenazas. Con un sistema que facilita el análisis eficiente de grandes volúmenes de datos visuales, las organizaciones pueden responder de manera más ágil a incidentes de seguridad y garantizar el cumplimiento normativo en sus operaciones.

Este innovador enfoque tiene el potencial de servir como modelo para que otros sectores adapten estrategias similares, incorporando la tecnología a sus necesidades específicas y optimizando sus procesos de seguridad.