top of page

Estudio sugiere que ChatGPT está perdiendo capacidad, pero algunos expertos no están convencidos

En un reciente estudio realizado por investigadores de la Universidad de Stanford y de la Universidad de California, Berkeley, se han revelado posibles cambios en las salidas de GPT-4, el modelo de lenguaje de inteligencia artificial (IA) desarrollado por OpenAI. Este estudio, titulado "¿Cómo está cambiando el comportamiento de ChatGPT con el tiempo?" , ha generado controversia al sugerir que el modelo de IA ha empeorado en tareas de programación y composición en los últimos meses. Sin embargo, algunos expertos no están convencidos por los resultados y creen que esto refleja un problema más amplio en la forma en que OpenAI maneja sus lanzamientos de modelos.

Los investigadores Lingjiao Chen, Matei Zaharia y James Zou llevaron a cabo este estudio utilizando acceso a la API de GPT-3.5 y GPT-4 en las versiones de marzo y junio de 2023. Su objetivo era evaluar el rendimiento de estos modelos en tareas como resolución de problemas matemáticos, respuesta a preguntas sensibles, generación de código y razonamiento visual.

Uno de los hallazgos más sorprendentes fue la dramática disminución en la capacidad de GPT-4 para identificar números primos. Según el estudio, la precisión de GPT-4 en esta tarea pasó de un 97.6% en marzo a tan solo un 2.4% en junio. Por otro lado, GPT-3.5 mostró una mejora en su rendimiento durante el mismo período. Estos resultados respaldan las quejas frecuentes de los usuarios que han notado un declive en el rendimiento de GPT-4 en los últimos meses. Algunas teorías populares intentan explicar este fenómeno. Una de ellas es la posibilidad de que OpenAI haya "destilado" los modelos para reducir su carga computacional y ahorrar recursos de GPU, lo que podría haber afectado negativamente la capacidad de GPT-4 para realizar tareas de programación.

Otros sugieren que OpenAI ha llevado a cabo ajustes de "ajuste fino" para reducir las salidas dañinas del modelo, lo que podría haber afectado negativamente su rendimiento en ciertas tareas.
Sin embargo, también se han planteado teorías conspirativas no respaldadas que sugieren que OpenAI podría haber reducido intencionalmente las capacidades de programación de GPT-4 para fomentar la adopción de su herramienta GitHub Copilot. OpenAI ha negado consistentemente cualquier afirmación de que GPT-4 haya disminuido en capacidad. El vicepresidente de Producto de OpenAI, Peter Welinder, afirmó en un tuit reciente que cada nueva versión del modelo es más inteligente que la anterior y que el supuesto declive en el rendimiento podría ser el resultado de un mayor uso del modelo, lo que hace que los usuarios noten problemas que antes no percibían.
Sin embargo, no todos están convencidos de los hallazgos de este estudio. El profesor de ciencias de la computación de Princeton, Arvind Narayanan, argumenta que los resultados no prueban de manera concluyente una disminución en el rendimiento de GPT-4 y podrían ser consistentes con ajustes de "ajuste fino" realizados por OpenAI. Narayanan criticó la forma en que se evaluó la capacidad de generación de código de GPT-4, señalando que el estudio se centró en la ejecución inmediata del código en lugar de su corrección. En resumen, el reciente estudio realizado por investigadores de Stanford y UC Berkeley ha generado debate en torno al rendimiento de GPT-4, el modelo de lenguaje de IA desarrollado por OpenAI. Aunque el estudio sugiere un declive en la capacidad de GPT-4 para realizar tareas de programación y composición, algunos expertos no están convencidos de que estos resultados sean concluyentes. OpenAI ha negado rotundamente cualquier disminución en la capacidad de GPT-4 y ha argumentado que cualquier aparente problema puede ser el resultado de un mayor uso del modelo.
A medida que la investigación sobre los modelos de lenguaje de IA continúa, es importante tener en cuenta que estos modelos son herramientas poderosas que requieren una comprensión adecuada de sus fortalezas y limitaciones. Si bien es válido cuestionar el rendimiento de estos modelos, también es esencial evaluar críticamente los estudios y tener en cuenta la respuesta oficial de los desarrolladores. Solo a través de un enfoque equilibrado y basado en evidencia podemos comprender plenamente las capacidades y limitaciones de estos modelos y utilizarlos de manera efectiva en diversas aplicaciones.

Estudio sugiere que ChatGPT está perdiendo capacidad, pero algunos expertos no están convencidos

En un reciente estudio realizado por investigadores de la Universidad de Stanford y de la Universidad de California, Berkeley, se han...

bottom of page