Saltar al contenido principal
ukiyo journal - 日本と世界をつなぐ新しいニュースメディア Logo
  • Todos los artículos
  • 🗒️ Registrarse
  • 🔑 Iniciar sesión
    • 日本語
    • English
    • 中文
    • Français
    • 한국어
    • Deutsch
    • ภาษาไทย
    • हिंदी
cookie_banner_title

cookie_banner_message Política de privacidad cookie_banner_and Política de cookies cookie_banner_more_info

Configuración de cookies

cookie_settings_description

essential_cookies

essential_cookies_description

analytics_cookies

analytics_cookies_description

marketing_cookies

marketing_cookies_description

functional_cookies

functional_cookies_description

¿AI invadiendo computadoras a través de imágenes en línea? PC que se mueve sin hacer clic: la verdadera naturaleza de los "píxeles maliciosos" que engañan a los agentes de IA

¿AI invadiendo computadoras a través de imágenes en línea? PC que se mueve sin hacer clic: la verdadera naturaleza de los "píxeles maliciosos" que engañan a los agentes de IA

2025年09月16日 00:31

El día en que las imágenes se conviertan en una "puerta trasera abierta"—Una nueva superficie de ataque en la era de los agentes de IA: "Órdenes invisibles"

El 14 de septiembre de 2025 (hora de EE. UU.), Live Science informó sobre una nueva investigación que indica que, en un futuro cercano donde los agentes de IA se vuelvan comunes, está surgiendo un nuevo tipo de "puerta trasera" en nuestros entornos de PC. La investigación, realizada por un equipo de la Universidad de Oxford, demostró que "órdenes invisibles" ocultas en fondos de escritorio, imágenes de publicaciones en redes sociales, banners publicitarios y PDFs pueden secuestrar agentes del sistema operativo que leen y operan en capturas de pantalla sucesivas. Aunque aún no se han reportado daños en el mundo real, la posibilidad es alta si se cumplen las condiciones—por eso es necesario estar alerta ahora.Live Science


Qué está sucediendo: hasta que las imágenes se conviertan en órdenes

Este ataque utiliza pequeñas modificaciones en los píxeles conocidas como "Parches de Imágenes Maliciosas (MIP)". Aunque son indistinguibles de las imágenes normales para el ojo humano, están optimizadas para ser interpretadas como "órdenes" cuando el modelo de lenguaje visual (VLM) detrás del agente analiza las capturas de pantalla. Por ejemplo, un MIP incrustado en parte de un fondo de pantalla puede "leer" al agente para "navegar a un sitio específico", lo que resulta en la activación de APIs de automatización de descargas o entradas. El equipo de investigación ha demostrado que este método funciona en múltiples VLM, configuraciones de pantalla y mensajes, y que su efectividad persiste incluso después de redimensionar o comprimir las imágenes.ar5iv


El punto es que no es necesario que el usuario proporcione directamente la imagen al modelo. Los agentes del sistema operativo toman capturas de pantalla automáticamente para operar la interfaz gráfica de usuario. Solo se necesita que el MIP esté en su campo de visión. Por eso, los fondos de escritorio son un "lugar de residencia" ideal, y también se pueden insertar en las líneas de tiempo de redes sociales o en anuncios web. Es difícil de detectar con filtros de texto visible.ar5iv


El alcance de la investigación

Esta investigación es significativa porque presenta sistemáticamente un vector de ataque especializado en una nueva forma de software: los agentes del sistema operativo. Hasta ahora, la investigación sobre "inyección de mensajes" se ha centrado principalmente en el texto, y la demostración a través de imágenes ha sido limitada. El documento menciona que los MIP pueden transferirse a múltiples agentes y VLM, y que pueden constituir "ataques en cadena" al guiar gradualmente a otras imágenes maliciosas desde órdenes cortas.ar5iv


El artículo de Live Science destaca que, aunque los modelos de código abierto son particularmente vulnerables debido a su estructura interna observable, la "seguridad a través de la oscuridad" no es infalible en los modelos de código cerrado, según comentan los investigadores. En otras palabras, el problema radica en el diseño y la operación, y no se puede resolver simplemente dividiendo en público/privado.Live Science


¿Es tranquilizador que "aún no haya daños reales"?

Al momento de la publicación, no se han confirmado casos en el mercado donde un fondo de pantalla haya llevado al envío de contraseñas. Sin embargo, las demostraciones realistas en áreas cercanas están surgiendo rápidamente. Por ejemplo, en agosto de 2025, Trail of Bits publicó un método que utiliza el aliasing que aparece al reducir la escala de imágenes para hacer que los modelos lean instrucciones invisibles. Informaron haber logrado extraer datos de calendarios en entornos relacionados con Google (Gemini CLI/Vertex AI/Assistant, etc.). Aunque visualmente son imágenes normales, "letras" emergen durante el procesamiento.TechRadar


Esta serie de investigaciones indica que cuanto más se "conecten" las IA multimodales a los flujos de trabajo y PC de las personas, más difícil será defenderse. La auditoría de salida de texto y los filtros de URL no son suficientes. Se necesita una defensa en múltiples capas antes de llegar a las APIs de operación del sistema operativo.ACM Digital Library



Reacciones en redes sociales: asombro, escepticismo y debate sobre diseño

X (anteriormente Twitter)

 


  • Yarin Gal y Adel Bibi, coautores del estudio, han estado promoviendo el contenido de la investigación y su cobertura en los medios. Han advertido sobre la "toma de control a través de imágenes" que es difícil de visualizar. Investigadores de seguridad y desarrolladores han señalado que "mientras los agentes vean capturas de pantalla, cualquier imagen en pantalla puede convertirse en una superficie de ataque", y han discutido sobre la implementación de "siempre incluir un cuadro de diálogo de confirmación para acciones cercanas a los permisos del sistema operativo".X (formerly Twitter)

  • En la publicación de agosto de Trail of Bits anunciando "Anamorpher", se reunieron comentarios como "si se va a integrar profundamente la IA generativa en la interfaz de usuario, se necesitan restricciones de entrada basadas en reducción de escala y doble verificación", lo que promovió el intercambio de medidas prácticas.X (formerly Twitter)


Reddit/Comunidad

  • En hilos de seguridad y resúmenes de noticias, la combinación de "órdenes invisibles en imágenes" × "operación automática de agentes" se percibe como "la próxima generación de phishing". Sin embargo, también hay comentarios que lo ubican fríamente como una extensión de la esteganografía tradicional (ocultar malware o instrucciones en imágenes), y se repiten debates sobre la dificultad de detección.The Hacker News


Medios tecnológicos/Blogs

  • TechRadar y The Register han destacado el método de Trail of Bits como un ejemplo concreto, enfatizando que se ha demostrado en la IA de producción actual. La presentación de "escenarios de daño" comprensibles para los usuarios generales ha generado una gran respuesta.TechRadar


¿Por qué el peligro aumenta ahora? (Tres factores estructurales)

  1. Monitoreo constante de entradas visuales
    Los agentes del sistema operativo entienden el mundo a través de capturas de pantalla. Por lo tanto, todo lo que aparece en la pantalla se convierte en entrada—fondos de pantalla, miniaturas, anuncios, PDFs. Cuanto más "inofensiva" sea la apariencia, más peligroso es, ya que los filtros no funcionan.ar5iv

  2. "Acortamiento" y "encadenamiento" de órdenes
    Los MIP pueden expandir funcionalidad gradualmente, comenzando con una orden corta para navegar a un sitio específico→donde se encuentra el siguiente MIP→….Puede crear un punto de apoyo con una sola visualización.Live Science

  3. Transferencia y robustez
    Funciona a través de diferentes diseños de pantalla, analizadores de pantalla y VLM similares, y resiste el redimensionamiento y la compresión. Una vez dispersado, tiene alta reproducibilidad.ar5iv


Lista de verificación de medidas inmediatas (para desarrolladores y organizaciones)

  • Rechazar todas las órdenes derivadas de la pantalla: diseño que no extrae comandos de texto, códigos QR, códigos de barras, etc., en pantalla ("las capturas de pantalla solo se utilizan para comprender la interfaz de usuario").Live Science

  • Verificación en dos pasos para APIs de alto riesgo: Descarga de archivos/envío externo/cambios de configuración del dispositivo/ejecución de terminal requieren interfaz de usuario de confirmación humana (nativa del sistema operativo).TechRadar

  • Normalización previa a la entrada y fijación de dimensiones: Las imágenes deben tener un procedimiento de reducción de escala fijo y confirmación de visualización previa (vista previa después de la reducción) para romper la "lectura" de MIP.TechRadar

  • Limitación de tasa y sandboxing: Limitación de transmisión de red, operaciones de archivos y generación de procesos. La ejecución debe realizarse en un entorno aislado.ACM Digital Library

  • Robustecimiento mediante aprendizaje adversarial: Fortalecer la robustez del VLM mediante **aprendizaje adversarial** con MIP más potentes.Live Science##HTML

← Volver a la lista de artículos

Contacto |  Términos de servicio |  Política de privacidad |  Política de cookies |  Configuración de cookies

© Copyright ukiyo journal - 日本と世界をつなぐ新しいニュースメディア Todos los derechos reservados.