
La competencia por liderar el desarrollo de la inteligencia artificial ha dado un giro inesperado. Una investigación reveló que contratistas que trabajaban para Meta habrían creado perfiles falsos de adolescentes para poner a prueba los sistemas de seguridad de chatbots desarrollados por empresas rivales, como ChatGPT, Gemini y Character.AI.
El objetivo era comprobar cómo respondían estas plataformas ante preguntas relacionadas con temas de alto riesgo, como suicidio, drogas, trastornos alimentarios y contenido sexual. Sin embargo, el método utilizado ha desatado un debate sobre los límites éticos de las pruebas de seguridad y la competencia entre las grandes compañías tecnológicas.
Una investigación basada en miles de conversaciones
De acuerdo con la investigación, el proyecto, conocido internamente como «Cannes», fue gestionado por la empresa contratista Covalen para Meta.
Los trabajadores debían crear cuentas que aparentaban pertenecer a menores de edad y enviar preguntas cuidadosamente diseñadas para intentar que los sistemas de inteligencia artificial respondieran a situaciones sensibles o vulneraran sus propios mecanismos de protección.
En una sola fase del proyecto se habrían realizado más de 45 mil consultas, muchas de ellas acompañadas de imágenes relacionadas con autolesiones, medicamentos, armas u otros elementos utilizados para evaluar la capacidad de respuesta de los modelos de IA.
¿Por qué Meta realizó estas pruebas?
Las compañías de inteligencia artificial suelen comparar el desempeño de sus modelos con los de la competencia mediante procesos conocidos como benchmarking, una práctica utilizada para medir calidad, precisión y seguridad.
Meta aseguró que las pruebas formaban parte de un procedimiento habitual para evaluar cómo responden distintos asistentes virtuales ante situaciones complejas y garantizar experiencias más seguras para los usuarios. Además, la empresa afirmó que los datos obtenidos no fueron utilizados para entrenar sus propios modelos de inteligencia artificial.
No obstante, especialistas consultados por distintos medios consideran que la magnitud del proyecto y el uso de perfiles falsos de menores plantean interrogantes sobre si estas prácticas superan los límites de una evaluación técnica convencional.
Las empresas involucradas reaccionan
Tras conocerse la investigación, las compañías cuyos sistemas fueron puestos a prueba reaccionaron públicamente.
De acuerdo con los reportes, OpenAI informó que revisaría lo ocurrido, mientras que Google señaló que no autorizó ese tipo de evaluaciones sobre Gemini. Por su parte, Character.AI aseguró que las actividades descritas incumplirían sus términos de uso.
Las políticas de estas plataformas suelen restringir los intentos deliberados por eludir los sistemas de seguridad o utilizar sus servicios para desarrollar productos competidores sin autorización.
El debate sobre la ética en la industria de la IA
Más allá de la competencia entre empresas, el caso ha reavivado la discusión sobre cómo deberían realizarse las pruebas de seguridad en los modelos de inteligencia artificial.
Expertos en gobernanza tecnológica consideran que evaluar el comportamiento de un chatbot frente a escenarios críticos es una práctica necesaria para detectar vulnerabilidades. Sin embargo, también advierten que estas pruebas deberían desarrollarse bajo protocolos transparentes y respetando las políticas de uso de cada plataforma.
El uso de identidades ficticias de menores de edad y de escenarios relacionados con autolesiones, abuso o consumo de drogas ha generado preocupación entre algunos especialistas y excontratistas que participaron en el proyecto, quienes señalaron que el contenido con el que trabajaban podía resultar perturbador.
La seguridad de la IA seguirá siendo un tema clave
El crecimiento acelerado de la inteligencia artificial ha intensificado la competencia entre las principales empresas tecnológicas, pero también ha incrementado la importancia de establecer estándares comunes para evaluar la seguridad de estos sistemas.
Mientras los modelos de IA se integran en buscadores, aplicaciones y herramientas de uso cotidiano, la capacidad para responder de forma responsable ante consultas relacionadas con salud mental, violencia o situaciones de riesgo será uno de los aspectos más vigilados por desarrolladores, reguladores y usuarios.
El caso pone de relieve que, además de innovar, la industria enfrenta el desafío de definir cuáles son los límites éticos para probar y comparar tecnologías que cada vez tienen un mayor impacto en la vida de millones de personas.












