¿Se está acabando la era de las pantallas? Razones por las que OpenAI apuesta completamente por la "voz"

2026年01月03日 09:56

OpenAI apuesta por el “audio”. ¿Se acerca el día en que las pantallas dejen de ser protagonistas?

Al inicio de 2026, el siguiente movimiento de OpenAI que ha salido a la luz es el "audio". Según informes, OpenAI ha integrado varios equipos de ingeniería, producto e investigación en los últimos dos meses para llevar a cabo una renovación radical de su modelo de audio. El objetivo no es simplemente suavizar la voz de ChatGPT. Se trata de rehacer la base de la IA de audio con miras a un dispositivo personal "audio-first" que se espera lanzar en aproximadamente un año. TechCrunch

1) ¿Qué está sucediendo? ── Estableciendo la "naturalidad" y "resistencia a interrupciones" como estándares en la IA de audio

Hay dos puntos clave en esta ocasión.

(1) El nuevo modelo de audio cambiará la “sensación de la conversación”
Se espera que el nuevo modelo no solo hable de manera más natural y exprese emociones, sino que también sea más resistente a las interrupciones durante la conversación (deteniéndose cuando el interlocutor comienza a hablar/seguimiento de correcciones). Además, se sugiere un refuerzo en la capacidad de responder en tiempo real, permitiendo que "asiente" mientras el usuario está hablando. TechCrunch

(2) El objetivo de lanzamiento es “pronto”
Se habla de un lanzamiento a principios de 2026, en el "primer trimestre", lo que sugiere una implementación de la nueva arquitectura alrededor de marzo. TechCrunch

Lo importante aquí es la decisión de elevar la IA de audio de ser un “complemento del texto” a ser la “primera interfaz”. Si se va a lanzar un dispositivo donde el audio sea protagonista, no puede permitirse que su precisión, velocidad y estabilidad sean inferiores al texto. De hecho, se ha señalado que los modelos de audio actuales no alcanzan la precisión y capacidad de respuesta del texto. The Decoder

2) ¿Por qué ahora el “desprendimiento de las pantallas”? ── Hay demasiadas “superficies de operación”

"Un futuro donde las pantallas se vuelven de fondo y el audio se convierte en el centro" ── Esta perspectiva no es solo de OpenAI. En una era donde el hogar, el coche y los dispositivos portátiles se convierten en interfaces de usuario (superficies de operación), manejar todo solo con la vista y los dedos es agotador. TechCrunch menciona la amplia penetración de los asistentes de voz en los hogares estadounidenses y la tendencia de las gafas inteligentes (smart glasses) a convertirse en dispositivos "auditivos" con micrófonos direccionales. TechCrunch

Y la razón por la que el audio está en auge no es solo por “conveniencia”.

Es fuerte para tareas simultáneas (cocinar, conducir, cuidar niños, tareas del hogar)
Reduce la competencia por la atención (reacción al agotamiento por notificaciones y redes sociales)
Compatibilidad con accesibilidad (situaciones con restricciones de visión o movilidad de las manos)

En resumen, "mirar una pantalla" en sí mismo se está convirtiendo en un cuello de botella moderno.

3) El “cambio hacia el audio” simultáneo en Silicon Valley ── Google, Meta, Tesla, e incluso anillos

Lo interesante de esta historia es que el movimiento de OpenAI no es una “apuesta en solitario”, sino que puede observarse como una ola en toda la industria.

Google: Convertir los resultados de búsqueda en “resúmenes de audio conversacionales”

Google está probando "Audio Overviews" en sus búsquedas, mostrando una dirección hacia la conversión de resultados de búsqueda en resúmenes conversacionales de audio. Además, proporciona enlaces de referencia en el reproductor de audio, permitiendo al usuario escuchar mientras navega a las fuentes. TechCrunch

Meta: Expandir la “audición” con gafas inteligentes

Meta ha lanzado una actualización para sus gafas inteligentes Ray-Ban/Oakley, que enfatiza las voces de los interlocutores en entornos ruidosos. Desde un enfoque práctico de asistencia auditiva, están creando la necesidad de dispositivos alrededor del rostro. TechCrunch

Tesla: Orientar la UI del coche hacia la “conversación”

Tesla ha hablado sobre integrar el Grok de xAI en sus coches, permitiendo manejar la navegación y el aire acondicionado mediante diálogo natural. Dado que el coche es un "espacio donde no se puede desviar la mirada", la UI de audio es la opción preferida. TechCrunch

Startups: Anillos, colgantes, pines... pero aún hay pocos casos de éxito

Por otro lado, los experimentos con factores de forma son intensos.

El "Stream Ring" de Sandbar propone un diseño donde el anillo permite la entrada de voz→organización en la aplicación, presentándose como un “ratón de audio”. TechCrunch
El anillo "Index 01" del fundador de Pebble también enfatiza "grabación con botón en lugar de escucha continua", mostrando un diseño que aborda la preocupación por la privacidad del audio. TechCrunch
Sin embargo, el sueño de un mundo sin pantallas también enfrenta fracasos dolorosos. El AI Pin de Humane tuvo una corta vida tras la adquisición de activos por HP (116M dólares). TechCrunch
Los colgantes del tipo “grabar la vida” tienden a chocar con barreras de privacidad y miradas sociales. TechCrunch

Mientras navega por este campo minado, OpenAI busca posicionar el "dispositivo personal audio-first" como el “próximo gran éxito”.

4) Por qué OpenAI se dirige hacia el hardware ── "Tomar el “espacio” del AI"

Detrás de la apuesta de OpenAI por el audio, se vislumbra una estrategia de asegurar el “espacio del AI” a través del hardware.

Los informes mencionan la participación de Jony Ive, ex jefe de diseño de Apple, en el proyecto de hardware, y se habla del deseo de corregir la “dependencia” creada por gadgets de consumo pasados. TechCrunch

Además, informes externos reiteran que OpenAI planea lanzar un "nuevo modelo optimizado para audio en el primer trimestre, con el dispositivo un poco más adelante". The Decoder

El punto aquí es más crudo que "el audio es conveniente".

Si la IA se convierte en el centro de la vida, quien controle la entrada (dispositivo/OS/cuenta) ganará.
Por eso, es natural que OpenAI quiera tener su propia presencia física (dispositivo), en lugar de quedarse como un "motor inteligente que funciona en dispositivos de otras compañías". De hecho, los análisis de la industria sugieren que esto es un "movimiento para que ChatGPT no termine solo como un “motor”". Implicator.ai

5) Las barreras que se interponen ── La UI de audio enfrenta el “miedo” antes que la “conveniencia”

Cuanto más central sea el audio, más inevitables son los siguientes desafíos.

Privacidad: Los micrófonos captan el entorno. La escucha continua es especialmente impopular
Aceptación social: La barrera de “hablar con la IA” en trenes o salas de reuniones
Malentendidos y fallos: Un pequeño error puede arruinar la experiencia (por eso es importante la resistencia a interrupciones)
Recuerdos de fracasos: Ejemplos recientes como el AI Pin, donde el ideal se adelantó y fracasó TechCrunch

En este sentido, el diseño de anillos que "graban con botón" es simbólico. El mercado se inclina más hacia "decidir cuándo hablar" que hacia "poder hablar en cualquier momento". TechCrunch

6) Reacciones en las redes sociales ── Expectativa, precaución y críticas al “lenguaje”

Entonces, ¿cómo se ha recibido en las redes sociales este informe sobre el "audio-first"? En resumen, las reacciones se dividen en expectativa/precaución/escepticismo.

Expectativa: "AI es útil cuando tienes las manos ocupadas", "Si se puede conversar, el mundo cambiará"

En hilos

¿Se está acabando la era de las pantallas? Razones por las que OpenAI apuesta completamente por la "voz"

OpenAI apuesta por el “audio”. ¿Se acerca el día en que las pantallas dejen de ser protagonistas?

1) ¿Qué está sucediendo? ── Estableciendo la "naturalidad" y "resistencia a interrupciones" como estándares en la IA de audio

2) ¿Por qué ahora el “desprendimiento de las pantallas”? ── Hay demasiadas “superficies de operación”

3) El “cambio hacia el audio” simultáneo en Silicon Valley ── Google, Meta, Tesla, e incluso anillos

Google: Convertir los resultados de búsqueda en “resúmenes de audio conversacionales”

Meta: Expandir la “audición” con gafas inteligentes

Tesla: Orientar la UI del coche hacia la “conversación”

Startups: Anillos, colgantes, pines... pero aún hay pocos casos de éxito

4) Por qué OpenAI se dirige hacia el hardware ── "Tomar el “espacio” del AI"

5) Las barreras que se interponen ── La UI de audio enfrenta el “miedo” antes que la “conveniencia”

6) Reacciones en las redes sociales ── Expectativa, precaución y críticas al “lenguaje”

Expectativa: "AI es útil cuando tienes las manos ocupadas", "Si se puede conversar, el mundo cambiará"

Zuckerberg advierte: "Sin gafas de IA estás en desventaja" #ZuckVision impactante: Analizando la declaración sobre la "desventaja cognitiva" que conmocionó la red

¿La IA reemplazará o apoyará a los presentadores? : La radio con IA avanza de la "automatización" a la "colaboración". Una nueva etapa de transmisión en vivo abierta por AI Radio Bot

“El impacto de las palabras del CEO: 'La mitad perderá su empleo por la IA'” - El día en que el futuro del trabajo comenzó a cambiar

Tendencia en TikTok → Detención de distribución: Usado por profesionales, pero no lo quieren admitir — La música AI está ocurriendo en Nashville

¿Por qué la precisión de la detección de IA depende de los humanos? La razón por la que la humanidad es clave

cookie_banner_title

OpenAI apuesta por el “audio”. ¿Se acerca el día en que las pantallas dejen de ser protagonistas?

1) ¿Qué está sucediendo? ── Estableciendo la "naturalidad" y "resistencia a interrupciones" como estándares en la IA de audio

2) ¿Por qué ahora el “desprendimiento de las pantallas”? ── Hay demasiadas “superficies de operación”

3) El “cambio hacia el audio” simultáneo en Silicon Valley ── Google, Meta, Tesla, e incluso anillos

Google: Convertir los resultados de búsqueda en “resúmenes de audio conversacionales”

Meta: Expandir la “audición” con gafas inteligentes

Tesla: Orientar la UI del coche hacia la “conversación”

Startups: Anillos, colgantes, pines... pero aún hay pocos casos de éxito

4) Por qué OpenAI se dirige hacia el hardware ── "Tomar el “espacio” del AI"

5) Las barreras que se interponen ── La UI de audio enfrenta el “miedo” antes que la “conveniencia”

6) Reacciones en las redes sociales ── Expectativa, precaución y críticas al “lenguaje”

Expectativa: "AI es útil cuando tienes las manos ocupadas", "Si se puede conversar, el mundo cambiará"

Zuckerberg advierte: "Sin gafas de IA estás en desventaja" #ZuckVision impactante: Analizando la declaración sobre la "desventaja cognitiva" que conmocionó la red

¿La IA reemplazará o apoyará a los presentadores? : La radio con IA avanza de la "automatización" a la "colaboración". Una nueva etapa de transmisión en vivo abierta por AI Radio Bot

“El impacto de las palabras del CEO: 'La mitad perderá su empleo por la IA'” - El día en que el futuro del trabajo comenzó a cambiar

Tendencia en TikTok → Detención de distribución: Usado por profesionales, pero no lo quieren admitir — La música AI está ocurriendo en Nashville

¿Por qué la precisión de la detección de IA depende de los humanos? La razón por la que la humanidad es clave