El 17 de octubre de 2023, una canción de reguetón se coló entre las más escuchadas en plataformas de streaming y se adueñó de las redes sociales. Parecía ser un episodio más del éxito innegable del género urbano y el auge de Bad Bunny, Daddy Yankee y Justin Bieber, cuyas voces emocionaron a sus fans de todo el mundo en cuanto escucharon el nuevo sencillo.
Pero ese día no se dio el lanzamiento de una inesperada e insólita colaboración musical, pues ni siquiera los artistas sabían que existía esa canción; sin saberlo, como humanidad fuimos testigos de un hecho que cambiaría para siempre la percepción de la tecnología y su influencia en la cultura popular, y cómo la Inteligencia Artificial es capaz de borrar los límites entre realidad y ficción.
Con el título de NostalgIA, el tema musical parecía juntar a tres de los más influyentes artistas de la industria musical, pero lo que se supo días después, tras un revuelo protagonizado por el propio Bad Bunny, es que las voces que se escuchaban no eran reales. Su creador fue FlowGPT, un usuario de redes sociales cuya obra se cimenta en una tecnología que sus propios creadores miran ahora con cautela.
Es lo que en el mundo de la ingeniería se conoce como síntesis de voz basada en identidad, o clonación de voces, la cual toma modelos de inteligencia artificial de aprendizaje profundo para impulsar software capaz de crear o imitar voces de manera realista.
“El principio básico es tomar las principales frecuencias sonoras de lo que son los componentes principales de la señal de audio y replicarlos para generar palabras y tonos que sean muy similares a la voz que los genera”, explica Óscar Martínez Bernal, director de la especialización en Inteligencia Artificial de la Universidad Javeriana.
La creación del tema musical NostalgIA es solo uno de los ejemplos de uso dentro del abanico de posibilidades de herramientas diseñadas para generar estos audios de manera artificial. En su momento, la canción generó sorpresa a nivel mundial, pero hoy la clonación de voces está cerca de ser una realidad disponible al alcance de cualquiera con el inminente lanzamiento de una plataforma conocida como Voice Engine, creada por OpenAI, los padres de ChatGPT.
Se trata de un modelo de inteligencia artificial de texto a audio que solo necesita una grabación de 15 segundos para “generar una muestra con sonido natural que se parece mucho al hablante original con un ritmo emotivo y realista”, anunció la compañía.
Esta permite a cualquier usuario ingresar texto y obtener un resultado de voz generado por IA en solo un par de segundos. Sin embargo, la empresa ha decidido posponer el lanzamiento público de esta tecnología debido a preocupaciones éticas.
Miedo a su creación
Inicialmente, OpenAI planeaba lanzar un programa piloto para que los desarrolladores pudieran probar la API de Voice Engine a principios de abril. Sin embargo, tras un análisis más profundo de las implicaciones que conlleva la clonación de voces, la empresa ha decidido reducir sus ambiciones por ahora, pues temen que la tecnología se utilice para suplantar la identidad de las personas, generar información falsa o incluso crear contenido dañino.
“OpenAI reconoce que estas son cuestiones serias que deben abordarse antes de que la tecnología Voice Engine se lance al público. Enfrentamos desafíos importantes al integrar estas tecnologías en el panorama de la ciberseguridad. El uso de IA generativa para crear deepfakes y otros modelos de datos sintéticos plantea riesgos significativos para la seguridad personal y organizativa”, comenta Juan Mario Posada, líder de Servicios de Ciberseguridad de la firma especializada Accenture Colombia.
En información compartida a medios de comunicación, la compañía liderada por Sam Altman inició el desarrollo de Voice Engine a finales de 2022 y lo han usado “para potenciar las voces preestablecidas disponibles en nuestra API de conversión de texto a voz, así como en ChatGPT Voice y Read Aloud”, plataformas que habría usado FlowGPT para crear sus canciones clonando voces de artistas reconocidos, según se especula en foros especializados.
Desde OpenAI cuentan que, debido a los exitosos resultados de su nuevo adelanto tecnológico, adoptaron “un enfoque cauteloso” de cara a la futura publicación de esta plataforma “dado el potencial de uso indebido de las voces sintéticas”.
Ejemplos de uso
Aunque la clonación de voz en general no sea una iniciativa particularmente nueva, lo novedoso es que una empresa que lidera el mercado de IA generativa a nivel mundial, como OpenAI, esté avanzando poco a poco hacia un producto al alcance del público masivo. Estamos a pocos pasos de que cualquier persona, sin conocimiento en programación o ingeniería computacional, pueda usar tecnología compleja para la creación de voces sintéticas, “y eso es fascinante y aterrador también”, señala el experto Óscar Martínez.
“En este caso, lo que es un hito en esta herramienta es que necesita una muestra muy pequeña. En general, cuando estamos entrenando este tipo de tecnología, necesitamos muestras grandes para tener un amplio margen en la escala del rango de frecuencias de lo que es una voz particular. Sin embargo, OpenAI ya con una muestra muy pequeña puede generar voces sintéticas”, agrega.
Para comprender mejor los potenciales usos de esta tecnología, a fines de 2023 la empresa inició pruebas de forma privada con un pequeño grupo de lo que llaman “socios confiables”, iniciativas privadas, empresas y organizaciones que potenciaron su trabajo gracias a Voice Engine en campos como la educación, medicina y la traducción.
Le puede interesar: ¿Están Meta, Google y OpenAI entrenando a la Inteligencia Artificial de manera ilegal?
Por ejemplo, Age of Learning, una de las empresas de tecnología educativa más innovadoras del mundo, usa la plataforma en conjunto con GPT-4 para crear respuestas personalizadas en tiempo real que interactúan con sus estudiantes.
Diana Hughes, vicepresidenta de Innovación de Age of Learning, explicó a EL COLOMBIANO que, “con esta tecnología, se ha podido crear más contenido para una audiencia de estudiantes más amplia. Nuestra filosofía central es que la IA debe ser una mejora y una herramienta para aprovechar nuestra experiencia de manera más efectiva, no un reemplazo de los educadores humanos, que son esenciales para experiencias de aprendizaje de calidad”.
En esencia, lo que hacen con Voice Engine es brindar asistencia de lectura a niños y a estudiantes no lectores a través de voces emotivas que suenan naturales y que representan una gama amplia de hablantes en diferentes idiomas y acentos.
“El objetivo de Age of Learning al incorporar la IA no es reinventar la rueda, sino amplificar y escalar aún más los enfoques de instrucción que sabemos que funcionan tan bien. Al entrenar modelos de IA con datos y experiencia detrás de nuestras soluciones de aprendizaje personalizado, podemos llevar la personalización a nuevas alturas, realizando ajustes en tiempo real que optimicen la experiencia de cada estudiante de manera individual”, añade la vocera de la compañía con sede en Glendale, California.
Otro de los aliados de OpenAI en busca de usos benéficos de su tecnología es el Norman Prince Neurosciences Institute del hospital de Rhode Island, en la ciudad de Providence, donde profesionales de la salud exploran los usos de la IA en contextos clínicos.
Allí, los doctores Fatima Mirza, Rohaid Ali y Konstantina Svokos “han puesto a prueba un programa que ofrece Voice Engine a personas con enfermedades oncológicas o neurológicas que les genera discapacidad del habla”.
Desde esa organización, que sirve también como principal afiliado docente para la Facultad de Medicina de la Universidad de Brown, comparten la historia de una paciente que perdió su fluidez en el habla debido a un tumor cerebral vascular. “Dado que Voice Engine requiere una muestra de audio tan corta, (para clonar la voz de la paciente) se utilizó el audio de un vídeo grabado años atrás en un proyecto de escuela”.
El resultado es sorprendente. En un audio de referencia compartido por OpenAI se escucha la voz de la joven con limitaciones al hablar. Un segundo audio permite oír cómo era su voz hace años y finalmente publican el resultado de su voz clonada con Voice Engine, como si la joven estuviera totalmente recuperada de su afección.
Otro de los ejemplos de buen uso de comparte OpenAI es el de Dimagi, una empresa con sede en Cambridge, Massachusetts, que ofrece tecnología de software de código abierto para entornos de bajos recursos y comunidades desatendidas.
En concreto, gracias a Voice Engine, han creado herramientas para apoyar el trabajo de organizaciones sin ánimo de lucro en Kenia, África. “Para ayudar a estos trabajadores, utilizan Voice Engine y GPT-4 para brindar retroalimentación interactiva en el idioma nativo de cada persona, incluido el suajili o idiomas más informales como el sheng, un idioma de código mixto popular en ese país”.
¿El mundo está listo?
Pese a los posibles beneficios de su nueva tecnología, persisten temores de lo que una herramienta con este potencial pueda hacer en las manos equivocadas.
“A nivel de ciberseguridad, indudablemente las compañías de seguridad y diferentes actores bancarios, financieros y sobre todo políticos, deben unirse precisamente para combatir este flagelo porque el ciudadano del común no tiene el conocimiento ni las herramientas para reaccionar y protegerse de posibles suplantaciones que se hagan con Voice Engine”, dice Felipe Lizcano, especialista en tecnología y cofundador de Red Design Systems y Techcetera.
Desde la industria de la ciberseguridad se ve con cautela que una herramienta así esté al alcance de cualquiera. Juan Mario Posada, de Accenture, cree que “enfrentamos desafíos importantes al integrar estas tecnologías en el panorama de la ciberseguridad. El uso de IA generativa para crear deepfakes y otros modelos de datos sintéticos plantea riesgos significativos para la seguridad personal y organizativa”.
Por eso, considera que “para abordar estos desafíos de manera efectiva, es crucial involucrar a una variedad de actores, desde desarrolladores de IA hasta expertos en ciberseguridad y reguladores; la colaboración entre estos grupos es fundamental para garantizar que se desarrollen y desplieguen soluciones de seguridad cibernética éticas y efectivas. Además, se requiere un equilibrio adecuado entre la automatización y la supervisión humana para asegurar que estas tecnologías se utilicen de manera responsable y se minimicen los riesgos asociados”.
Como primera medida para evitar el mal uso de su tecnología, OpenAI afirma que sus colaboradores han acordado adherirse a directrices específicas de uso que establecen la prohibición de emplear la generación de voz para suplantar a individuos o entidades sin su consentimiento.
Asimismo, cada organización debe tener el consentimiento explícito e informado del emisor original de cada voz para poder usarla, evitando la creación de herramientas que permitan a usuarios generar sus propias voces, y deben informar a los receptores que las voces son producto de la Inteligencia Artificial.
Para rastrear su origen, en varios fragmentos de audio implementaron marcas de agua, que son “pequeñas firmas digitales prácticamente imperceptibles para un humano, pero que con algoritmos de desencriptación se pueden reconocer. Esas marcas de agua también existen en ChatGPT y así es como se reconoce a veces que un texto está generado por una herramienta de inteligencia artificial”, explica el docente Óscar Martínez.
Por el momento, OpenAI anunció su compromiso de perfeccionar Voice Engine en colaboración con sus socios, mientras ofrece recomendaciones clave para fortalecer la ciberseguridad ante la eventual expansión de esta tecnología.
Entre las sugerencias planteadas para el futuro inmediato incluyen la propuesta de eliminar progresivamente la autenticación basada en voz en el acceso a cuentas bancarias y datos confidenciales.
Además, OpenAI insta a explorar políticas que salvaguarden el uso de voces individuales en la inteligencia artificial, a fomentar la educación pública sobre las capacidades y limitaciones de las tecnologías de IA, incluida la amenaza de contenido engañoso, y a acelerar el desarrollo y la implementación de técnicas para rastrear el origen del contenido audiovisual, asegurando así la transparencia en las interacciones entre humanos y sistemas de IA.
La empresa cree que “es importante que personas de todo el mundo entiendan hacia dónde va esta tecnología”, ya sea que finalmente la implementen ampliamente ellos mismos, alguno de sus competidores o, por qué no, organizaciones criminales.