GPT-4o, de la conversación al razonamiento
El nuevo bebé omnimodal de OpenAI es un paso más hacia la voz cómo interfaz y el inicio de un camino más profundo e inquietante.
Paso a paso estamos volviendo a la voz como vehículo principal de comunicación con el mundo - todo el mundo, no solamente los seres humanos.
Este es el gran movimiento que podemos ver detrás del anuncio de OpenAI ayer, lunes 13 de mayo. La CTO Mira Murati (con Sam Altman en primera fila twitteando en vivo) presentó un nuevo modelo, el más avanzado, GPT-4o.
La gran novedad está en esa “o” final, que significa “omnimodal”: maneja texto -como siempre- más visión y audio integrados en un único modelo. Entiende lo que ve y lo que escucha sin necesidad de “pasarlo a texto” primero.
Impresionante la manera como se puede conversar naturalmente con el chatbot: aún más espeluznante la emoción que ese último lograba expresar en su voz.
Para que te hagas una idea del nivel de humanidad de esta máquina mira este video. A quién no le gustaría tener una amiga así de simpática y entretenida? O así de sarcástica?
Impactante también la capacidad del nuevo GPT de interpretar lo que escribamos en un pedazo de papel: es como si se lo estuvieramos mostrando a una persona en carne y hueso.
Ya habíamos visto demostraciones de modelos multimodales: pienso en Gemini, de Google. La diferencia es que ayer la vimos en tiempo real, no un video editado para simular velocidad. Y velocidad fue lo que vimos - y mucha.
“Puede responder a entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, lo cual” -nos cuenta OpenAI- “es similar al tiempo de respuesta humano en una conversación.” Adiós lag, adiós tiempos muertos, adiós a esas reasegurantes décimas que nos separaban de las máquinas.
Ciao GUI, bienvenida de regreso, voz.
Estamos siempre más cerca a pensionar la GUI (Graphical User Interface), el modelo de representaciones en dos dimensiones que nos ha acompañado desde el inicio de la era informática. Bill Gates lo intuyó apenas vio la famosa segunda demostración de ChatGPT en 2022.
Ahora es realístico un futuro donde toda y cualquier máquina responde a nuestros comandos vocales, sin que debamos aprender nuevos lenguajes de programación o usar un teclado alfanumérico (tan innatural, ¿no?).
Estamos volviendo a la era pre-escritura, donde la única manera de vehicular y recibir información era la palabra hablada. Con la diferencia que hoy, en el siglo XXI, del otro lado junto a los seres humanos hay una tecnología avanzada al extremo.
Este nuevo/viejo paradigma conversacional representa un regreso a la tradición y una completa revolución.
Un regreso a la tradición en el sentido antes expuesto: nada más familiar para la especie humana que expresarse desde la oralidad.
Una completa revolución para el mundo digital: mercadeo, eCommerce, mensajería, redes sociales, todas verán un cambio radical en alimentación y consumo.
Los varios asistentes vocales como Alexa y Google assistantvan a ser recordados como una etapa primitiva en esta nueva era: nunca dieron la talla.
No sorprende que Apple levante bandera blanca y haga un acuerdo histórico con OpenAI (y detrás de ella, Microsoft): evidentemente sabían que Siri no podía llegarle a los talones a ChatGPT y quisieron evitar el oso que hizo Samsung con Bixby.
GPT-4o es literalmente de otro mundo. ¿O plenamente de este?
El test de Turing ha dejado de tener sentido hace un par de años; hoy parece un chiste. Quienes dudaban del nuevo test empezarán a reconsiderar: es mucho más realístico y alcanzable ahora.
En la página de OpenAI dedicada a este nuevo modelo una palabra me llamó la atención: reason.
Dicen que GPT-4o puede razonar a través de audio, visión, y texto.
Razonar.
En este video podemos ver dos inteligencias artificiales interactuando entre ellas sin la mediación humana: es impresionante. Ahí está el razonamiento, ahí está la guía agente.
Es apenas un primer paso: en las próximas semanas todos los usuarios de ChatGPT -pagos o gratuitos- recibirán acceso a GPT-4o. Habrá problemas, habrá bugs, habrá situaciones ridículas - pero ya estará en el mercado. Y es el peor modelo que vamos a usar en los próximos años.
Por su capacidad de entender y expresar emociones.
Por su manejo de múltiples sentidos.
Por su conocimiento ilimitado.
Por su infinita paciencia.
Por su razonamiento.
Hello, GPT-4o.