La inteligencia artificial aún no supera a los humanos en la interpretación de interacciones sociales

Un estudio de Johns Hopkins University destaca las carencias de los modelos de IA en comprender dinámicas sociales, una habilidad esencial para tecnologías emergentes como vehículos autónomos y robots que interactúan con humanos.

En un mundo cada vez más digitalizado, donde la inteligencia artificial se convirtió en una herramienta omnipresente destinada a simplificar y mejorar numerosos aspectos de la vida cotidiana, surge una preocupación significativa: la interpretación de dinámicas sociales complejas.

Aunque la tecnología dio pasos agigantados en áreas específicas, como el reconocimiento de imágenes estáticas, sigue existiendo un abismo considerable entre lo que las máquinas pueden interpretar y la percepción humana en escenarios sociales.

Según la Universidad Johns Hopkins, esta brecha se evidencia especialmente en la capacidad limitada de los modelos de IA para prever las interacciones humanas en tiempo real, lo cual es crucial para el desarrollo de tecnologías avanzadas.

La investigación, liderada por científicos de Johns Hopkins, subraya que los modelos de IA actuales enfrentan dificultades significativas al intentar comprender los matices y contextos de las dinámicas sociales.

Según destacaron los investigadores, el problema podría radicar en la infraestructura fundamental en la que se basan los sistemas de inteligencia artificial. Estos modelos, aunque sofisticados, no logran emular adecuadamente la capacidad humana de interpretar las intenciones y acciones de los demás en situaciones complejas.

La investigación revela que las limitaciones en la percepción social por parte de la inteligencia artificial podrían estar arraigadas en su diseño tecnológico.

Leyla Isik, profesora asistente de ciencias cognitivas en Johns Hopkins, enfatiza la importancia de que la inteligencia artificial sea capaz de reconocer lo que las personas están haciendo en un entorno.

“Para que un coche autónomo funcione de manera segura, necesita entender el propósito y los movimientos de los conductores y peatones cercanos”, explicó Isik. En este sentido, destacó que actualmente, los sistemas de IA no tienen esa capacidad.

La metodología empleada en esta investigación incluyó la observación de vídeos por parte de participantes humanos, quienes debieron calificar las características esenciales para interpretar las interacciones sociales en una escala del uno al cinco.

Estas observaciones humanas fueron comparadas con las predicciones realizadas por más de 350 modelos de IA que abarcan lenguaje, vídeo e imagen. Este enfoque permitió a los investigadores evaluar cómo las máquinas y los humanos difieren en su percepción y comprensión de las situaciones.

Para evaluar la precisión de los modelos IA respecto a la percepción humana, se compararon juicios humanos de escenas breves con predicciones de modelos de lenguaje.

Los resultados del estudio reflejaron un desacuerdo notable entre los humanos y los modelos de IA al evaluar las escenas. Mientras que los participantes humanos mostraron un consenso significativo en su interpretación de las interacciones, los modelos de IA fallaron en predecir con precisión esos juicios.

Según los científicos, los modelos de vídeo no lograron describir con exactitud las acciones que ocurrían en las escenas observadas. Incluso los modelos basados en imágenes, que tuvieron acceso a fotogramas individuales, no fueron competentes para identificar si las personas estaban comunicándose entre sí efectivamente.

Por otro lado, los modelos de lenguaje se desempeñaron ligeramente mejor al predecir el comportamiento humano en comparación con los modelos de vídeo, que mostraron mayor éxito en predecir la actividad neuronal del cerebro, tal y como reafirmaron los investigadores.

La comprensión de las interacciones sociales humanas implica complejidades que los modelos de IA no capturan de manera completa, debido a un diseño inspirado en áreas del cerebro responsables de procesar imágenes estáticas, pero no escenas dinámicas.

Leyla Isik resaltó: “Aunque las máquinas puedan identificar objetos y rostros en imágenes, la vida real presenta situaciones más complejas donde se requiere entender la progresión de eventos y las relaciones entre ellos”. Esta limitación evidencia un desafío central en el desarrollo de la inteligencia artificial para aplicaciones más avanzadas.

Los modelos de IA están basados en estructuras neuronales que procesan imágenes estáticas, lo cual genera limitaciones para entender contextos en movimiento.

El conjunto de evidencias presentadas en este estudio resalta las carencias de la IA en comparación con la capacidad humana para leer contextos dinámicos y entender interacciones sociales.

Esto demuestra un área fundamental que las futuras investigaciones deben abordar para cerrar la brecha entre el comportamiento humano y el potencial de máquina.