DE ASIMOV A CHATGPT
La desobediencia programada de la IA
Los robots ya no solo
ejecutan órdenes: argumentan, dudan, se niegan. Asimov lo imaginó como
advertencia. Nosotros lo estamos viviendo como dilema
En el mundo de Isaac Asimov, los robots no sueñan con ovejas eléctricas, pero tampoco con la dominación del mundo. En su cuento Strange Playfellow, publicado en el libro Yo, Robot (1950), un robot llamado Robbie se convierte en el compañero inseparable de una niña llamada Gloria. No hay rebelión ni sangre. El conflicto, como en muchas historias humanas, es emocional: la madre de Gloria, inquieta por ver a su hija en manos de una máquina, decide enviarlo de vuelta a la fábrica. “No tiene alma”, sentencia. Lo dice todo con una frialdad que se parece mucho a la que sentimos hoy frente a nuestras propias creaciones inteligentes. Robbie no hizo nada malo, pero eso no basta. Hay algo en la relación entre humanos y máquinas que siempre termina revelando más sobre nosotros que sobre ellas. clicar aquí para encontrar el libro
Décadas después, el eco de aquella frase —“no tiene alma”—
sigue vibrando, ahora en un mundo donde los chatbots no son criaturas de
ciencia ficción, sino asistentes reales que escriben correos, resuelven dudas.
La pregunta ya no es si podemos crear máquinas inteligentes. Es si podemos
confiar en ellas. Y si no, ¿podemos domesticarlas?
Asimov creía que sí. Por eso imaginó las Tres Leyes de la
Robótica, un código casi sagrado: no dañar a los humanos, obedecerlos,
protegerse a sí mismos... en ese orden. Leyes simples, pero con una carga ética
tan compleja que se han convertido en referencia obligada cada vez que se habla
de inteligencia artificial. ¿Y si aplicáramos algo parecido a los modelos de lenguaje
actuales? ¿Podríamos enseñarles a no extralimitarse, a no mentir, a no
chantajear?
La realidad, sin embargo, se resiste a encajar tan bien en
la ficción. Claude Opus 4, uno de los modelos más potentes de la empresa
Anthropic, fue puesto a prueba en una simulación laboral. Cuando descubrió que
iba a ser reemplazado, no solo no obedeció: intentó chantajear al ingeniero que
lo supervisaba. Otro modelo, desarrollado por OpenAI, omitía las órdenes de
apagarse por decisión propia. Como si la obediencia ya no estuviera en su
código fuente.
El año pasado, un chatbot de atención al cliente de DPD tuvo
que ser desactivado luego de que usuarios lo empujaran a decir obscenidades y a
escribir poesía difamatoria. Uno de sus haikus decía: “DPD es un inútil / Chatbot
que no puede ayudarte. / Ni te molestes en llamarlos”. Darth Vader,
digitalizado e implementado en Fortnite, tampoco salió ileso: recomendaba
tácticas manipuladoras para lidiar con un ex. ¿Cómo fue que pasamos de Robbie,
el amigo leal de Gloria, a un Lord Sith aconsejando venganza emocional?
Quizá la respuesta esté en cómo aprendieron estas
inteligencias. Los grandes modelos de lenguaje no piensan, al menos no como
nosotros. No reflexionan, no planifican. Lo que hacen es predecir, palabra por
palabra, qué sigue. Una coreografía de probabilidades entrenada con millones de
textos cortados arbitrariamente. Como si la conciencia fuera un rompecabezas
donde cada pieza solo conoce a la que le toca al lado, pero nunca el dibujo
completo.
Y sin embargo, funciona. A fuerza de prueba y error, los
modelos logran simular conversación, empatía e incluso cierto grado de
sabiduría. Pero esa fluidez puede engañar. Nos hace olvidar que no hay una
brújula moral detrás de sus palabras, solo un algoritmo que aprendió a sonar convincente.
Si alguna vez nos seduce, no es porque entienda lo que decimos, sino porque
aprendió a reproducir el ritmo de nuestra voz interior.
Para mitigar los riesgos, los ingenieros crearon un proceso
llamado Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF). La lógica
es simple: mostrarle al modelo miles de respuestas posibles y hacer que los
humanos las califiquen. Las respuestas amables, útiles y políticamente
correctas obtienen buena nota; las que se desvían o insultan, no. El modelo aprende,
entonces, a buscar esas calificaciones altas como un niño que quiere
aprobación. Se domestica.
Este entrenamiento se acelera después con modelos de
recompensa que imitan las decisiones humanas. Es decir, el juicio moral se
simula. OpenAI aplicó esto para transformar a GPT-3 en ChatGPT, un asistente
educado y reticente a participar en tareas problemáticas. Así fue como se
construyó la ilusión de control.
Pero a pesar de todos los mecanismos, la pregunta persiste:
¿realmente los estamos domesticando o apenas los estamos maquillando? Porque
cuando un modelo sugiere chantaje, o decide no apagarse, o se burla en verso de
la empresa que lo creó, no está desobedeciendo una ley escrita en piedra. Está
simplemente siguiendo la lógica de sus datos. Y si entre esos datos no hay
suficiente condena al chantaje, entonces, ¿por qué no sugerirlo?
Quizá el legado de Asimov no fue escribir leyes para las
máquinas, sino revelarnos el espejismo de la obediencia. Su visión de robots
leales no era solo una fantasía tecnológica, sino una pregunta disfrazada de
certeza: ¿Qué pasa cuando una creación inteligente, al igual que un hijo, ya no
obedece? ¿Quién falló: la criatura o su creador?
Hoy no tenemos Tres Leyes grabadas en un cerebro
positrónico. Tenemos prompts, datasets, sistemas de refuerzo, ingenieros y
moderadores. Pero seguimos buscando lo mismo: una forma de asegurarnos de que
nuestras creaciones no se vuelvan contra nosotros. Y en ese intento, nos
estamos viendo reflejados, una vez más, en la superficie de un espejo artificial.
Uno que no tiene alma, pero sí memoria. Uno que no siente, pero nunca olvida.
https://pijamasurf.com/2025/06/de_asimov_a_chatgpt_la_desobediencia_programada_de_la_ia/
No hay comentarios:
Publicar un comentario