En cuestión de días, tres episodios destaparon ante la opinión pública un problema que parecía imposible en el corazón mismo de la justicia y la información: robots inventando datos que terminan en prensa, despachos judiciales y documentos oficiales.
El pasado miércoles, El Espectador reconoció que durante meses publicó notas basadas en fuentes que nunca existieron. El diario retiró todo ese contenido y su director apareció en un video explicando la situación.
También a inicios de semana, se conoció que un tribunal en Sincelejo citó dos sentencias inexistentes para justificar un fallo. La Corte Suprema tuvo que revisar el expediente y tumbó la decisión. Y al otro lado del mundo, en Pakistán, un periódico imprimió por error un párrafo entero de instrucciones de ChatGPT dentro de una nota económica, como si fuera parte del artículo. Todo en una misma semana.
Le puede interesar: Dos escritoras perdieron una fortuna por usar la IA en las portadas de sus libros
Este fenómeno son las llamadas alucinaciones. Errores en la programación de los chatbots impulsados por IA, plataformas que hoy todos conocemos, como ChatGPT, Gemini, Copilot, Claude, Perplexity... Lo grave es que estos errores ya entraron de lleno en espacios donde una equivocación no es una falla menor sino una distorsión estructural. Los modelos completan frases cuando no tienen la información y los usuarios, confiados en su solidez gramatical, no dudan.
“La naturaleza de estos sistemas es inventar. Es software que se equivoca, pero además está diseñado para introducir aleatoriedad en sus respuestas”, comenta a EL COLOMBIANO José Betancur, director de Nodo Eafit.
Esa mezcla de error técnico y “creatividad” explica por qué las IA pueden producir argumentos brillantes basados en hechos inexistentes. Lo que parece inexplicable es que, aún con supervisión humana, ocurran estas cosas.
Un error cada vez más común
Las primeras señales de que el problema de las alucinaciones se está saliendo de las manos no vinieron de centros académicos sino de errores cotidianos. En mayo de este año, en Estados Unidos se hizo popular una “lista de lecturas recomendadas para el verano” que publicaron medios de comunicación como el Chicago Sunday Times, pero ese top de libros resultó ser un catálogo de ficción: de quince títulos, diez no existían. El error se replicó en el Philadelphia Inquirer, donde también apareció la lista producida con un chatbot de IA. Ambos periódicos debieron pedir disculpas públicas a su audiencia.
El ejemplo de esta semana en Pakistán, con el diario DAWN, es peor. Un periodista incluyó por accidente un párrafo completo de su conversación con ChatGPT. Se trataba de una frase al final del artículo en que la IA le preguntaba al periodista si quería una versión “más vistosa, tipo primera página” de ese texto, y terminó impresa en miles de ejemplares que se hicoeron virales en redes sociales, principalmente Reddit. Las críticas por la falta de verificación no faltaron y el editor general tuvo que salir a explicar la situación.
Puede leer: Deseo programado: así funciona una IA creada para enamorar
El episodio de El Espectador es más complejo que un simple error humano, pues publicaron artículos basados en fuentes inexistentes, inventadas por un periodista practicante mediante el uso de un chatbot.
En un ejercicio de transparencia, su director, Fidel Cano, publicó un video en que afirmó: “Publicamos una cantidad de informaciones inventadas... fallamos en nuestra promesa de rigor y de apego a la verdad”. Finalmente, retiraron todo el contenido producido por esa persona y anunciaron “medidas internas” para evitar que les vuelva a pasar algo así.
Para la firma de monitoreo Mass Medios, este problema no es algo anecdótico. En una columna difundida tras el escándalo de El Espectador, voceros de la empresa señalaron que “la desinformación ya no es una anomalía del sistema, sino una falla estructural del ecosistema informativo”. Advierten que en internet abundan los contenidos sintéticos falsos, elaborados con IA, que son casi indistinguibles de los reales. Y la presión en el ecosistema de medios por publicar rápido aumenta el margen de error: “La velocidad se volvió un enemigo silencioso: cuando el análisis se acorta, el error crece”.
Ese diagnóstico se conecta con el análisis técnico: mientras más grande y más creativo es un modelo de lenguaje, “más probable es que rellene vacíos con información que no existe”, explica Betancur.
La explicación técnica
Las llamadas alucinaciones no son un capricho del sistema sino una consecuencia directa del diseño estadístico que les da vida. Los modelos generativos no consultan bases de datos verificadas, sino patrones de probabilidad en lenguaje natural. En este apartado tiene mucho que ver la matemática y la lingüística.
Le puede interesar: El 6% de las empresas en Colombia desincentiva activamente el uso de la inteligencia artificial
Cuando el sistema no tiene la información, predice la frase que “completa” mejor la estructura. Si la pregunta exige un dato muy específico, como tomar una postura o dictar una sentencia judicial, el modelo puede inventarlo con una seguridad lingüística idéntica a la de la respuesta verdadera que cualquier persona con conocimiento podría dar. El especialista resume que “estos sistemas son como ese amigo muy inteligente que, cuando no sabe algo, se lo inventa. Su naturaleza es generar contenido”.
En modelos más recientes, como GPT-5.1, la capacidad de razonamiento es más avanzada que la capacidad de restricción, lo que incrementa el riesgo para los usuarios. “Recién salió GPT-5, se dispararon las alucinaciones. Si GPT-4 ya lo tenía controlado, ¿por qué el modelo más inteligente alucina más? Simplemente, porque es más creativo”, comenta el académico.
La creatividad estadística, ese componente que hace que los chatbots no respondan siempre lo mismo como un disco rayado, es la misma que produce los errores.
Así está documentado en un estudio reciente de la Unión Europea de Radiodifusión y la BBC, que analizó 3.000 respuestas en 14 idiomas, encontrando que el 45 % de las respuestas presentaba errores importantes y el 81 % tenía algún problema de precisión o contexto. Gemini, de Google, fue el modelo con más fallas de atribución (72 % de sus respuestas con problemas), mientras que Perplexity y Copilot (Microsoft) mostraron tasas menores.
En paralelo, el Knight Center, centro de estudios en periodismo de la Universidad de Texas en Austin, explica que las alucinaciones pueden surgir cuando los modelos perciben “patrones que no existen” o cuando intentan llenar vacíos con información irrelevante para cumplir la orden recibida por el usuario, y esa es la trampa: los modelos se diseñan para sonar convincentes, no para admitir un error.
Alucinaciones en la justicia
Pero, de lejos, el caso más grave de información falsa entregada por una IA es el que ocurrió en el Tribunal Superior de Sincelejo, donde citaron dos supuestas sentencias de la Corte Suprema (las STC13560-2023 y STC4734-2025) para sustentar una decisión. Cuando la Corte Suprema de Justicia revisó el expediente, descubrió que esas frases no existían en ninguna sentencia real y anuló la decisión.
Es decir, para dictar un fallo, un juez basó su argumento en sentencias inexistentes que una IA se inventó. El alto tribunal fue categórico: es inadmisible incluir en una providencia textos generados sin verificación. Además, el uso irresponsable de esa tecnología vulneró el derecho al debido proceso.
Puede leer: El fallo hecho con IA que citó frases que no existen
En la sentencia STC17832-2025, la magistrada ponente, Adriana Consuelo López, explica que los funcionarios judiciales, entre varias tareas, “deben prestar especial atención en utilizar los fundamentos normativos y jurisprudenciales adecuados, y verificar su autenticidad y contenido”.
Betancur indica que “una IA puede acelerar procesos, pero también cometer errores o producir alucinaciones. La responsabilidad final recae en el humano que firma, revisa y valida”. Pero este tipo de fallo judicial no es un hecho aislado. En Brasil y Estados Unidos se han documentado casos similares.
Casos críticos en empresas
Por otro lado, también se han visto alucinaciones en empresas de varios sectores, algo que de momento no produce escándalos públicos, pero sí impactos financieros. Según un análisis del portal ImpactoTIC y la firma de software RedHat, estas mentiras de la IA están afectando sistemas internos como tableros ejecutivos, automatizaciones, modelos predictivos y chatbots corporativos. Las apps pueden inventar datos que alteren indicadores clave de rendimiento o generar recomendaciones basadas en información inexistente.
“Esto es especialmente grave en sectores como finanzas, salud o recursos humanos, donde el riesgo no es solo técnico sino también legal”, dice Alejandro Raffaele, director Senior de Ventas Enterprise para Latinoamérica de Red Hat.
Al respecto, un reporte del Instituto Nacional de Estándares y Tecnología de EE.UU. (NIST) publicado en 2024 advierte que las alucinaciones son un riesgo emergente para todo ciclo de decisiones automatizadas.
Valentina Defelipe, de ImpactoTIC, señala que la difusión de información falsa generada por IA puede “exponer a empresas a demandas por fraude, difamación o incumplimiento normativo”.
Falta alfabetización
El punto final, según el director de Nodo Eafit, es pedagógico: “Hay que formar a la población para que entienda que esto es un software que no es perfecto”. La percepción de que la IA “piensa o razona es parte del problema”.
Desde Mass Medios se plantea que no basta con corregir errores visibles en los flujos de trabajo, al menos en el sector de medios de comunicación. También es necesario fortalecer la educación en tecnología y los filtros editoriales, las verificaciones internas y la comprensión social de los límites de estas tecnologías.
Yo mismo le consulté a varios chatbots sobre este fenómeno. ChatGPT respondió que a veces asume escenarios comunes y describe hechos que no han ocurrido: “Al resumir o ampliar textos, el modelo incluye detalles adicionales que suenan coherentes pero no están en el original. Esto pasa porque el modelo solo intenta entregar una respuesta más completa”. Gemini fue más concreto y me explicó que su objetivo no es la verdad sino la coherencia.
“Si me pides un precedente legal que no existe o una cita de una fuente que nunca habló, es probable que la invente, no porque quiera mentir sino porque matemáticamente esa frase completa el patrón. Mi trampa es la confianza: te diré una mentira con la misma seguridad gramatical y el mismo tono profesional con el que te diría una verdad absoluta”.
La guerra de Detectores vs. “humanizadores”
En aulas de colegios y universidades, al igual que en salas de redacción de medios de todo el mundo, agencias de publicidad y un largo etcétera, cada vez es más común el uso de inteligencia artificial como complemento o ayuda al 100 % para escribir textos, y con este auge surgió un nuevo problema: ¿Cómo sabe un profesor, un editor o jefe de área si lo que está leyendo lo hizo una persona o una máquina? Para ello, varias compañías tecnológicas han creado supuestos detectores encargados de identificar contenido generado por IA, que desde hace un par de meses compiten con su contraparte, herramientas diseñadas por otras empresas que buscan “humanizar” textos, ocultar el rastro de los modelos generativos.
Puede leer: ¿Estamos viviendo una nueva burbuja? Fiebre por la IA alteró las cuentas de empresas y bolsas de valores
Por un lado, los detectores automáticos, como los que se popularizaron en universidades y redacciones desde 2023, miden patrones estadísticos y rasgos lingüísticos, por eso fallan con facilidad. En un reporte del año pasado, el Instituto Nacional de Estándares y Tecnología de EE.UU. (NIST) advierte que estos sistemas generan falsos positivos incluso con textos humanos, especialmente los antiguos, académicos o muy técnicos, además de marcar falsos negativos frente a textos sintéticos muy pulidos. En un ejercicio sencillo, subí a la herramienta Plagium un ensayo que escribí durante mis estudios de maestría en el 2017, años antes de que existiera ChatGPT y demás chatbots. La página lo marcó con un 90 % de probabilidad de haber sido creado con IA.
El Knight Center documenta que estos detectores analizan estilo, no hechos, es decir que solo miran cómo están dispuestas las palabras, no lo que dicen. A esa limitación se suma un fenómeno nuevo: las plataformas de “humanización” de IA. Una de las más usadas en aulas es HumanizeAI.pro, que de forma gratuita toma un texto producido por ChatGPT, Gemini, Claude, Perplexity o cualquier otro modelo para reescribirlo con “lenguaje natural” y convertirlo en un contenido “indistinguible de la escritura humana”. La propia plataforma promete que sus resultados son “100 % originales, libres de plagio y capaces de evadir todos los detectores de IA disponibles”.
En la práctica, esto significa que un texto artificial puede pasar por humano sin mayor esfuerzo, incluso ante sistemas diseñados para reconocerlo. En la página de HumanizeAI.pro, sus creadores describen el proceso como una reformulación profunda: conserva significado y contexto, pero elimina los rasgos sintéticos, modifica la cadencia del lenguaje, ajusta vocabulario y suaviza la estructura para simular una voz humana.
Para el director de Nodo Eafit, esta combinación de detectores ineficaces y apps que disfrazan textos plantea un problema complejo: “No puedes confiar siempre en la IA, menos en una única IA. Lo que yo hago es cambiar de herramienta, ir a otra, contrastar todo. Si me quedo con un solo sistema, refuerzo la mentira y eso aplica igual para escribir que para detectar”.
A esto se suma un riesgo adicional señalado por el NIST y especialistas en desinformación: incluso cuando un detector acierta, su resultado no explica dónde está el error ni qué parte del texto podría ser falsa. La clasificación en esas herramientas se limita a una probabilidad estadística.
Pero cuando un texto inventado es indistinguible del real, dice el especialista, la carga regresa al mismo lugar: el criterio humano, la verificación manual y la comprensión clara de los límites de estas herramientas.