OpenAI da un paso al frente con su nueva modalidad para el ChatGPT

Kimberly Torres Leonett
25 sept 2023
3 Min. de lectura

En un anuncio reciente, OpenAI reveló que ChatGPT, su popular modelo de IA, ahora puede analizar imágenes y reaccionar a ellas en el contexto de una conversación de texto. Esta actualización, que se implementará en los próximos dos semanas para sus suscriptores Enterprise y Plus. Además, la aplicación móvil de ChatGPT también incluirá opciones de síntesis de voz, lo que permitirá conversaciones completamente verbales con el asistente de IA.

La nueva función de reconocimiento de imágenes en ChatGPT permite a los usuarios cargar una o varias imágenes para analizar y discutir con el modelo de IA. Esta capacidad proporciona una interfaz más intuitiva y facilita la comunicación entre humanos y máquinas. Por ejemplo, los usuarios pueden tomar fotografías de su refrigerador y despensa para obtener sugerencias sobre qué cocinar o solucionar problemas técnicos al capturar imágenes de dispositivos defectuosos.

Además, los usuarios pueden utilizar la función de pantalla táctil de sus dispositivos para resaltar áreas específicas de las imágenes, indicando a ChatGPT qué aspectos se deben tener en cuenta o analizar más detenidamente. Esta interacción visual mejora la precisión y relevancia de las respuestas de la IA, brindando una experiencia más personalizada.

La otra gran mejora en ChatGPT es la incorporación de la síntesis de voz. Con esta función, los usuarios pueden mantener conversaciones habladas con el asistente de IA, lo que añade un nuevo nivel de interacción y naturalidad. OpenAI ha desarrollado un nuevo modelo de texto a voz que ofrece cinco voces sintéticas diferentes, cada una con su propio estilo y personalidad. Estas voces han sido diseñadas en colaboración con actores de voz profesionales para garantizar una experiencia auditiva agradable y realista.

Para aprovechar la síntesis de voz, los usuarios deben habilitar la opción en la configuración de la aplicación y luego seleccionar la voz sintética de su preferencia. La transcripción del habla del usuario se realiza a través del sistema de reconocimiento de voz de OpenAI llamado Whisper, que ha demostrado ser altamente preciso y eficiente.

Si bien la empresa no ha proporcionado detalles técnicos específicos sobre cómo funcionan los modelos GPT-3.5 y GPT-4 en relación con la capacidad multimodal, es posible guiarse de investigaciones previas para inferir el enfoque utilizado. Los modelos de IA multimodales suelen transformar el texto y las imágenes en un espacio de codificación compartido, lo que les permite procesar diferentes tipos de datos a través de una red neuronal única.

OpenAI podría utilizar su tecnología CLIP para establecer una conexión entre los datos visuales y textuales, alineando las representaciones de imágenes y texto en un espacio latente. Este enfoque permitiría a ChatGPT hacer deducciones contextuales entre texto e imágenes, mejorando su comprensión y capacidad de respuesta. Si bien estas son especulaciones, las investigaciones previas en el campo de la IA multimodal respaldan la viabilidad de este enfoque.

La actualización de ChatGPT con capacidades multimodales abre un amplio abanico de aplicaciones prácticas. Desde ayudar en la resolución de problemas técnicos hasta proporcionar recomendaciones culinarias, la IA multimodal puede ser una herramienta útil en diversas situaciones cotidianas.

Si alguien por ejemplo necesita ajustar el asiento de su bicicleta. Gracias a esta nueva función de reconocimiento de imágenes, el usuario puede tomar una foto del asiento y compartirla con ChatGPT. La IA analizará la imagen y proporcionará instrucciones claras y precisas sobre cómo realizar el ajuste correctamente.

Otra posible aplicación es la solución de problemas en la cocina. Al tomar fotos del refrigerador y la despensa, los usuarios pueden recibir sugerencias de recetas basadas en los ingredientes disponibles. Esto facilita la planificación de comidas y reduce el desperdicio de alimentos.

En general, la capacidad de ChatGPT de ver, escuchar y hablar brinda una experiencia más inmersiva y natural en la interacción con la IA. Esto puede ser especialmente beneficioso para personas con discapacidades visuales o dificultades para leer, ya que pueden comunicarse de manera más efectiva a través de la voz y la imagen.