Los sistemas de IA ya son expertos en engañar y manipular a los humanos

Los sistemas de IA ya son expertos en engañar y manipular a los humanos

Muchos sistemas de inteligencia artificial (IA) ya han aprendido a engañar a los humanos, incluso sistemas que han sido entrenados para ser útiles y honestos. En un artículo de revisión publicado en la revista Patterns el 10 de mayo de 2024, los investigadores describen los riesgos del engaño por parte de los sistemas de inteligencia artificial y piden a los gobiernos que desarrollen regulaciones estrictas para abordar este problema lo antes posible.

«Los desarrolladores de IA no tienen una comprensión segura de las causas de los comportamientos indeseables de la IA, como el engaño«, dice el primer autor Peter S. Park, becario postdoctoral sobre seguridad existencial de la IA en el MIT. «Pero en términos generales, creemos que el engaño de la IA surge porque una estrategia basada en el engaño resultó ser la mejor manera de desempeñarse bien en la tarea de entrenamiento de la IA dada. El engaño les ayuda a lograr sus objetivos«.

Park y sus colegas analizaron la información centrándose en las formas en que los sistemas de inteligencia artificial difunden información falsa, a través del engaño aprendido, en el que aprenden sistemáticamente a manipular a otros.

El ejemplo más sorprendente de engaño de IA que los investigadores descubrieron en su análisis fue CICERO de la empresa Meta, un sistema de IA diseñado para jugar al juego Diplomacy, que es un juego de conquista mundial que implica la construcción de alianzas. Aunque Meta afirma que entrenó a CICERO para ser «en gran medida honesto y servicial» y para «nunca apuñalar por la espalda intencionalmente» a sus aliados humanos mientras jugaba, los datos que la compañía publicó junto con su artículo de Science revelaron que CICERO no jugó limpio.

«Descubrimos que la IA de Meta había aprendido a ser una maestra del engaño«, dice Park. «Si bien Meta logró entrenar su IA para ganar en el juego de Diplomacia (CICERO se ubicó entre el 10% de los mejores jugadores humanos que habían jugado más de un juego), Meta no logró entrenar su IA para ganar honestamente«.

Otros sistemas de IA demostraron la capacidad de engañar en un juego de póquer Texas Hold’em contra jugadores humanos profesionales, fingir ataques durante el juego de estrategia Starcraft II para derrotar a los oponentes y tergiversar sus preferencias para ganar ventaja en negociaciones económicas.

Si bien puede parecer inofensivo si los sistemas de IA hacen trampa en los juegos, puede conducir a «avances en capacidades engañosas de la IA» que pueden derivar en formas más avanzadas de engaño de la IA en el futuro, añadió Park.

Los investigadores encontraron que algunos sistemas de inteligencia artificial incluso han aprendido a engañar las pruebas diseñadas para evaluar su seguridad. En un estudio, los organismos de IA en un simulador digital «se hicieron los muertos» para engañar a una prueba diseñada para eliminar los sistemas de IA que se replican rápidamente.

«Al burlar sistemáticamente las pruebas de seguridad que le imponen los desarrolladores y reguladores humanos, una IA engañosa puede llevarnos a los humanos a una falsa sensación de seguridad«, dice Park.

Los principales riesgos a corto plazo de una IA engañosa incluyen facilitar que actores hostiles cometan fraude y alteren las elecciones, advierte Park. Con el tiempo, si estos sistemas pueden perfeccionar este inquietante conjunto de habilidades, los humanos podrían perder el control sobre ellos, afirma.

«Nosotros, como sociedad, necesitamos todo el tiempo posible para prepararnos para el engaño más avanzado de los futuros productos de IA y modelos de código abierto«, dice Park. «A medida que las capacidades engañosas de los sistemas de IA se vuelvan más avanzadas, los peligros que representan para la sociedad serán cada vez más graves«.

Si bien Park y sus colegas no creen que la sociedad tenga todavía las medidas adecuadas para abordar el engaño de la IA, les alienta que los responsables políticos hayan comenzado a tomar el tema en serio a través de medidas como la Ley de IA de la UE y la Orden Ejecutiva de IA del presidente Biden. Pero queda por ver, dice Park, si las políticas diseñadas para mitigar el engaño de la IA pueden aplicarse estrictamente, dado que los desarrolladores de IA aún no tienen las técnicas para mantener estos sistemas bajo control.

«Si prohibir el engaño de la IA es políticamente inviable en este momento, recomendamos que los sistemas de IA engañosos se clasifiquen como de alto riesgo«, afirma Park.

Este trabajo fue apoyado por el Departamento de Física del MIT y la Beneficial AI Foundation.

Los sistemas de IA ya son expertos en engañar y manipular a los humanos

Fotografía principal: Leonardo AI
Fuentes: Science Daily
ARCHIVADO EN: Tecnología
Más articulos sobre:



Sigue nuestro canal en WhatsApp



¿Le ha gustado el artículo? Por favor, compártalo. ¡Gracias!




Compartir en Whatsapp

Compartir en Pinterest

Compartir en Facebook

Compartir en Twitter

Síguenos en Telegram





¿Qué piensas?