Saltar al contenido principal
ukiyo journal - 日本と世界をつなぐ新しいニュースメディア Logo
  • Todos los artículos
  • 🗒️ Registrarse
  • 🔑 Iniciar sesión
    • 日本語
    • English
    • 中文
    • Français
    • 한국어
    • Deutsch
    • ภาษาไทย
    • हिंदी
cookie_banner_title

cookie_banner_message Política de privacidad cookie_banner_and Política de cookies cookie_banner_more_info

Configuración de cookies

cookie_settings_description

essential_cookies

essential_cookies_description

analytics_cookies

analytics_cookies_description

marketing_cookies

marketing_cookies_description

functional_cookies

functional_cookies_description

¿Se está acabando la era de las pantallas? Razones por las que OpenAI apuesta completamente por la "voz"

¿Se está acabando la era de las pantallas? Razones por las que OpenAI apuesta completamente por la "voz"

2026年01月03日 09:56

OpenAI apuesta por el “audio”. ¿Se acerca el día en que las pantallas dejen de ser protagonistas?

Al inicio de 2026, el siguiente movimiento de OpenAI que ha salido a la luz es el "audio". Según informes, OpenAI ha integrado varios equipos de ingeniería, producto e investigación en los últimos dos meses para llevar a cabo una renovación radical de su modelo de audio. El objetivo no es simplemente suavizar la voz de ChatGPT. Se trata de rehacer la base de la IA de audio con miras a un dispositivo personal "audio-first" que se espera lanzar en aproximadamente un año. TechCrunch



1) ¿Qué está sucediendo? ── Estableciendo la "naturalidad" y "resistencia a interrupciones" como estándares en la IA de audio

Hay dos puntos clave en esta ocasión.

(1) El nuevo modelo de audio cambiará la “sensación de la conversación”
Se espera que el nuevo modelo no solo hable de manera más natural y exprese emociones, sino que también sea más resistente a las interrupciones durante la conversación (deteniéndose cuando el interlocutor comienza a hablar/seguimiento de correcciones). Además, se sugiere un refuerzo en la capacidad de responder en tiempo real, permitiendo que "asiente" mientras el usuario está hablando. TechCrunch


(2) El objetivo de lanzamiento es “pronto”
Se habla de un lanzamiento a principios de 2026, en el "primer trimestre", lo que sugiere una implementación de la nueva arquitectura alrededor de marzo. TechCrunch


Lo importante aquí es la decisión de elevar la IA de audio de ser un “complemento del texto” a ser la “primera interfaz”. Si se va a lanzar un dispositivo donde el audio sea protagonista, no puede permitirse que su precisión, velocidad y estabilidad sean inferiores al texto. De hecho, se ha señalado que los modelos de audio actuales no alcanzan la precisión y capacidad de respuesta del texto. The Decoder



2) ¿Por qué ahora el “desprendimiento de las pantallas”? ── Hay demasiadas “superficies de operación”

"Un futuro donde las pantallas se vuelven de fondo y el audio se convierte en el centro" ── Esta perspectiva no es solo de OpenAI. En una era donde el hogar, el coche y los dispositivos portátiles se convierten en interfaces de usuario (superficies de operación), manejar todo solo con la vista y los dedos es agotador. TechCrunch menciona la amplia penetración de los asistentes de voz en los hogares estadounidenses y la tendencia de las gafas inteligentes (smart glasses) a convertirse en dispositivos "auditivos" con micrófonos direccionales. TechCrunch


Y la razón por la que el audio está en auge no es solo por “conveniencia”.

  • Es fuerte para tareas simultáneas (cocinar, conducir, cuidar niños, tareas del hogar)

  • Reduce la competencia por la atención (reacción al agotamiento por notificaciones y redes sociales)

  • Compatibilidad con accesibilidad (situaciones con restricciones de visión o movilidad de las manos)

En resumen, "mirar una pantalla" en sí mismo se está convirtiendo en un cuello de botella moderno.



3) El “cambio hacia el audio” simultáneo en Silicon Valley ── Google, Meta, Tesla, e incluso anillos

Lo interesante de esta historia es que el movimiento de OpenAI no es una “apuesta en solitario”, sino que puede observarse como una ola en toda la industria.


Google: Convertir los resultados de búsqueda en “resúmenes de audio conversacionales”

Google está probando "Audio Overviews" en sus búsquedas, mostrando una dirección hacia la conversión de resultados de búsqueda en resúmenes conversacionales de audio. Además, proporciona enlaces de referencia en el reproductor de audio, permitiendo al usuario escuchar mientras navega a las fuentes. TechCrunch


Meta: Expandir la “audición” con gafas inteligentes

Meta ha lanzado una actualización para sus gafas inteligentes Ray-Ban/Oakley, que enfatiza las voces de los interlocutores en entornos ruidosos. Desde un enfoque práctico de asistencia auditiva, están creando la necesidad de dispositivos alrededor del rostro. TechCrunch


Tesla: Orientar la UI del coche hacia la “conversación”

Tesla ha hablado sobre integrar el Grok de xAI en sus coches, permitiendo manejar la navegación y el aire acondicionado mediante diálogo natural. Dado que el coche es un "espacio donde no se puede desviar la mirada", la UI de audio es la opción preferida. TechCrunch


Startups: Anillos, colgantes, pines... pero aún hay pocos casos de éxito

Por otro lado, los experimentos con factores de forma son intensos.

  • El "Stream Ring" de Sandbar propone un diseño donde el anillo permite la entrada de voz→organización en la aplicación, presentándose como un “ratón de audio”. TechCrunch

  • El anillo "Index 01" del fundador de Pebble también enfatiza "grabación con botón en lugar de escucha continua", mostrando un diseño que aborda la preocupación por la privacidad del audio. TechCrunch

  • Sin embargo, el sueño de un mundo sin pantallas también enfrenta fracasos dolorosos. El AI Pin de Humane tuvo una corta vida tras la adquisición de activos por HP (116M dólares). TechCrunch

  • Los colgantes del tipo “grabar la vida” tienden a chocar con barreras de privacidad y miradas sociales. TechCrunch


Mientras navega por este campo minado, OpenAI busca posicionar el "dispositivo personal audio-first" como el “próximo gran éxito”.



4) Por qué OpenAI se dirige hacia el hardware ── "Tomar el “espacio” del AI"

Detrás de la apuesta de OpenAI por el audio, se vislumbra una estrategia de asegurar el “espacio del AI” a través del hardware.

Los informes mencionan la participación de Jony Ive, ex jefe de diseño de Apple, en el proyecto de hardware, y se habla del deseo de corregir la “dependencia” creada por gadgets de consumo pasados. TechCrunch


Además, informes externos reiteran que OpenAI planea lanzar un "nuevo modelo optimizado para audio en el primer trimestre, con el dispositivo un poco más adelante". The Decoder


El punto aquí es más crudo que "el audio es conveniente".


Si la IA se convierte en el centro de la vida, quien controle la entrada (dispositivo/OS/cuenta) ganará.
Por eso, es natural que OpenAI quiera tener su propia presencia física (dispositivo), en lugar de quedarse como un "motor inteligente que funciona en dispositivos de otras compañías". De hecho, los análisis de la industria sugieren que esto es un "movimiento para que ChatGPT no termine solo como un “motor”". Implicator.ai



5) Las barreras que se interponen ── La UI de audio enfrenta el “miedo” antes que la “conveniencia”

Cuanto más central sea el audio, más inevitables son los siguientes desafíos.

  • Privacidad: Los micrófonos captan el entorno. La escucha continua es especialmente impopular

  • Aceptación social: La barrera de “hablar con la IA” en trenes o salas de reuniones

  • Malentendidos y fallos: Un pequeño error puede arruinar la experiencia (por eso es importante la resistencia a interrupciones)

  • Recuerdos de fracasos: Ejemplos recientes como el AI Pin, donde el ideal se adelantó y fracasó TechCrunch


En este sentido, el diseño de anillos que "graban con botón" es simbólico. El mercado se inclina más hacia "decidir cuándo hablar" que hacia "poder hablar en cualquier momento". TechCrunch



6) Reacciones en las redes sociales ── Expectativa, precaución y críticas al “lenguaje”

Entonces, ¿cómo se ha recibido en las redes sociales este informe sobre el "audio-first"? En resumen, las reacciones se dividen en expectativa/precaución/escepticismo.


Expectativa: "AI es útil cuando tienes las manos ocupadas", "Si se puede conversar, el mundo cambiará"

En hilos

← Volver a la lista de artículos

Contacto |  Términos de servicio |  Política de privacidad |  Política de cookies |  Configuración de cookies

© Copyright ukiyo journal - 日本と世界をつなぐ新しいニュースメディア Todos los derechos reservados.