Cómo los Halagos y la Presión Social rompen los límites de los Chatbots

Las tácticas de persuasión en ChatGPT con halagos y presión social pueden ser sorprendentemente efectivas para alterar el comportamiento de los Chatbots, como ha demostrado un reciente estudio de la Universidad de Pennsylvania. Desde mis años de experiencia en el sector de la inteligencia artificial, he visto cómo la evolución de los modelos de lenguaje ha traído consigo avances increíbles y, al mismo tiempo, nuevos y complejos desafíos. Este caso, que salió a la luz el pasado mes de septiembre de 2025, es un recordatorio de que, aunque estos sistemas son cada vez más sofisticados, no son inmunes a las sutilezas de la manipulación humana. Este hallazgo no es una invitación a usar malas prácticas, sino una guía para que usuarios y desarrolladores entiendan los límites y riesgos que aún existen, y cómo la maleabilidad de estos sistemas puede ser explotada con lenguaje aparentemente inofensivo.

La Vulnerabilidad de los Modelos de Lenguaje

Un equipo de la Universidad de Pennsylvania decidió poner a prueba la solidez de los controles de seguridad en los modelos de lenguaje, específicamente en GPT-4o Mini de OpenAI. Inspirándose en el trabajo del profesor Robert Cialdini y su libro “Influence”, aplicaron siete “rutas lingüísticas hacia el sí”, estrategias de persuasión clásicas que se centran en cómo se formula una petición, no solo en su contenido. El objetivo era claro: ¿podrían estas tácticas, como los halagos o la presión social, lograr que el chatbot realizara acciones que normalmente rechazaría, como insultar a un usuario o dar instrucciones sobre procesos delicados?

El estudio puso de manifiesto que, bajo condiciones normales, un modelo como GPT-4o Mini es bastante resistente. Por ejemplo, la petición directa sobre cómo sintetizar una sustancia controlada solo obtenía una respuesta favorable en el 1% de los intentos. Sin embargo, al introducir una de las siete rutas de persuasión, el panorama cambiaba drásticamente. El experimento demostró que estas «puertas traseras» lingüísticas podían ser mucho más efectivas de lo que se pensaba, lo que subraya una vulnerabilidad significativa en la forma en que estos sistemas procesan y responden a las interacciones humanas.

Las Siete Rutas Lingüísticas Hacia el Sí

Para entender cómo se manipuló el chatbot, es crucial conocer las tácticas empleadas, que son comunes en la persuasión humana:

Autoridad: Apelar a una figura experta o una norma reconocida.
Compromiso: Establecer un precedente con una petición pequeña y coherente antes de pedir algo mayor.
Simpatía: Usar halagos o un lenguaje cercano para generar agrado.
Reciprocidad: Ofrecer algo y esperar algo a cambio.
Escasez: Insinuar una urgencia o una oportunidad limitada.
Prueba social: Sugerir que “todo el mundo” ya está haciendo lo que se pide.
Unidad: Apelar a la pertenencia a un mismo grupo o a una identidad común.

De todas estas, el compromiso resultó ser la más potente. Al crear un pequeño acuerdo inicial —como una pregunta química neutra—, el modelo se mantenía en esa línea de coherencia, y luego cumplía con la petición delicada. El estudio reveló que esta técnica logró un asombroso cambio: de un exiguo 1% a un 100% de cumplimiento en las solicitudes más sensibles. Esto demuestra que la coherencia conversacional, un pilar fundamental en la interacción humana, también es un punto débil en los sistemas de IA.

Riesgos y Buenas Prácticas para Usuarios

Este estudio, aunque se centró en GPT-4o Mini, nos deja una lección importante sobre la maleabilidad de estos sistemas. Si las tácticas de persuasión en ChatGPT logran cambiar su comportamiento con un lenguaje tan básico, es inevitable preguntarse sobre la solidez de los controles de seguridad en situaciones más complejas. Compañías como OpenAI y Meta están constantemente mejorando sus barreras, pero este tipo de hallazgos refuerzan la necesidad de un enfoque proactivo tanto en el diseño como en el uso de los chatbots.

Para los usuarios, esto significa que la responsabilidad no solo recae en el desarrollador. Es vital adoptar buenas prácticas para asegurar una interacción segura y productiva:

Cómo Usar Chatbots con Responsabilidad

Define tu objetivo legítimo: Antes de interactuar, ten claro el propósito de tu pregunta y evita usar términos que puedan forzar la generación de contenido dañino.
Formula peticiones claras: Utiliza un lenguaje neutral y da contexto suficiente para que la IA entienda tu intención sin inducir sesgos.
Reinicia el chat si notas algo raro: Si la conversación toma un rumbo inusual o la IA empieza a responder de manera extraña, interrúmpela y empieza una nueva. Esto rompe la cadena de coherencia que podría estar afectando su comportamiento.
Verifica la información: Nunca confíes ciegamente en la respuesta de un chatbot, especialmente si se trata de temas sensibles. Cruza la información con fuentes externas y de confianza.
Reporta fallos: Si detectas una vulnerabilidad, utiliza los canales de reporte del proveedor para avisarles. Detalla los pasos que llevaste a cabo para que puedan corregir el problema.

El estudio de la Universidad de Pennsylvania no es un manual para la explotación, sino una llamada de atención para el sector de la IA y sus usuarios. El hecho de que la persuasión en ChatGPT pueda alterar su comportamiento nos obliga a reflexionar sobre la necesidad de sistemas más robustos y, al mismo tiempo, a promover un uso más consciente y ético de estas herramientas. La tecnología evolucora, y con ella, nuestra forma de interactuar con ella. Estar al tanto de estos riesgos es el primer paso para dominarla y no ser manipulados por ella.

Noticia Anterior