ChatGPT se vuelve multisensorial: Ahora puede ver, escuchar y hablar
En un movimiento inesperado, OpenAI ha anunciado que ChatGPT ahora soportará tanto instrucciones de voz de los usuarios como carga de imágenes.
De este modo, los usuarios podrán mantener conversaciones con ChatGPT — de forma similar a como hablan con Alexa de Amazon, Siri de Apple o Google Assistant — y pedir al bot que analice y reaccione ante cualquier imagen que suban.
Los diálogos por voz solo estarán disponibles en las aplicaciones móviles ChatGPT de OpenAI para Android e iOS. La entrada de imágenes estará disponible en todas las aplicaciones móviles y de escritorio.
OpenAI afirma que las funciones han sido desarrolladas por sus propios modelos de reconocimiento de voz, síntesis y visión, y estarán disponibles para las personas suscritas a ChatGPT Plus y Enterprise en las próximas dos semanas. Otros grupos de usuarios, incluidos los desarrolladores, dispondrán de estas funciones poco después, según la empresa.
Así funcionará el nuevo ChatGPT
La empresa ofrece estas capacidades con modelos de voz a texto y de texto a voz que funcionan casi en tiempo real, convirtiendo la voz de entrada en texto, introduciendo ese texto en el GPT-4, el gran modelo de lenguaje (LLM) subyacente de OpenAI, para ofrecer una respuesta y, por último, volviendo a convertir ese texto en la voz seleccionada por el usuario.
Mientras que la voz añade capacidades conversacionales a ChatGPT, el soporte de imágenes le confiere el poder de Google Lens, permitiendo simplemente hacer clic en una foto y añadirla al chat con una pregunta potencial.
ChatGPT analizará la imagen en el contexto del texto que la acompaña y producirá una respuesta. Incluso puede entablar una conversación de ida y vuelta en torno a ese tema.
Evitando el uso indebido
Para evitar el uso indebido de sus capacidades de síntesis de voz, de las que se puede abusar para cometer fraudes, la empresa ha restringido su uso al chat de voz y a determinadas asociaciones aprobadas. Por ejemplo, con Spotify, la plataforma musical está ayudando a sus podcasters a transcribir sus contenidos a diferentes idiomas conservando su propia voz.
Del mismo modo, para evitar problemas de privacidad y precisión derivados del reconocimiento de imágenes, la empresa también ha restringido la capacidad del bot para analizar y hacer declaraciones directas sobre personas si están presentes en una imagen de entrada.
Se espera que las nuevas funciones lleguen también a los usuarios que no paguen, pero la empresa aún no ha comunicado el calendario exacto.