Sesgos IA en audio. Desde melodías o transcripción de voz hasta asistencia para personas con discapacidad visual. La inteligencia artificial (IA) generativa de sonido ha avanzado a pasos agigantados hasta el punto de que ya es capaz de crear audio de alta calidad. Pese a esto, los datos que se utilizan para entrenar a la IA han pasado por alto los sesgos, el lenguaje ofensivo y el uso de contenido con derechos de autor, asegura un estudio. Un equipo de investigadores ha realizado una exhaustiva revisión a 175 conjuntos de datos de habla, música y sonido, y en un trabajo preliminar advierten de que existe material sesgado, similar a lo que se ha encontrado en las bases de datos de texto e imagen.
Durante un año, los científicos liderados por William Agnew, de la Universidad Carnegie Mellon (EE.UU.), estudiaron 680.000 horas de audio de siete plataformas y 600 investigaciones en total para analizar su contenido, sesgos y procedencia. Así, los científicos obtuvieron desde la transcripción discursos hasta letras de canciones, y la mayoría estaban en inglés. Los archivos incluían grabaciones de voz —frases leídas por personas— y piezas musicales de plataformas como AudioSet y Free Music Archive, además de dos millones de videos de YouTube de 10 segundos de duración.
El análisis detectó, por ejemplo, que la palabra hombre se relacionó con conceptos como guerra o historia, mientras que los términos ligados a la palabra mujer incluyeron tienda o mamá, asociados con los cuidados y la familia, pero en otros casos, detectaron insultos como perra. En particular, Free Music Archive y LibriVox, contenían miles de términos racistas (como negrata) y discriminatorios con la diversidad sexual. “Las voces queer son ignoradas por los investigadores y eso se debe en parte cómo se construyeron estos conjuntos de datos”, plantea Robin Netzorg, investigadora del habla en la Universidad de California y coautora del estudio.
Los investigadores creen que si los estereotipos no se abordan adecuadamente, los conjuntos de datos de audio pueden generar modelos que “perpetúen o incluso aceleren” los prejuicios y concepciones distorsionadas de la realidad. Julia Barnett, doctora en ciencias de la computación de la Universidad Northwestern (EE.UU.) y colaboradora del estudio, asegura que las personas no son conscientes de los sesgos. “Como consecuencia, al considerar un conjunto de datos como un reflejo de la humanidad sin entender su verdadera composición, se generarán numerosos efectos negativos más adelante”, dice.
Para Andrés Masegosa, experto en inteligencia artificial y profesor asociado en la Universidad de Aalborg, en Dinamarca, no hay nada sorprendente en los sesgos: “Esta tecnología consigue extraer patrones de un conjunto de datos y simplemente intenta replicar lo que ya existe”. La IA funciona muy parecida al aprendizaje humano, sugiere. “Si tú expones a un niño a un comportamiento machista, él va a reproducir ese sesgo de forma simplemente inconsciente”, sostiene el académico, que no participó de la investigación.
“Hay muchos intentos para evitar los sesgos y lo que está claro es que los modelos pierden capacidad. Hay un debate en el campo de la IA que está reflejado en las diferentes visiones que cada sociedad tiene”, agrega Masegosa. El experto reconoce que el estudio realizado es una gran auditoría, y opina que examinar los conjuntos de datos es un trabajo bastante costoso.
A diferencia de los datos de texto, los de audio requieren un mayor almacenamiento, plantea Sauvik Das, académico del Instituto de Interacción Humano-Computadora de la Universidad Carnegie Mellon, que sí participó en la investigación. Esto implica que necesitan una potencia de procesamiento mucho más alta para ser auditados. “Necesitamos más datos para tener modelos de mayor calidad”, argumenta.
La voz es un dato biométrico
El daño potencial de las tecnologías de audio generativo aún no se conoce. Los científicos plantean que este tipo de contenido tendrá implicaciones sociales y legales que abarcan desde el derecho de publicidad de las personas, la desinformación y la propiedad intelectual, especialmente cuando estos sistemas están entrenados con datos utilizados sin autorización. El estudio señala que al menos el 35% de los audios analizados presentaban contenido protegido por copyright o derechos de autor.
La voz se relaciona con el derecho a la propia imagen, pues forma parte de las características físicas de una persona. Borja Adsuara, abogado experto en derecho digital, señala que la voz tiene los mismos problemas que el texto e imagen generados con IA, en relación con protección de datos y la propiedad intelectual. “La voz es un dato biométrico y está especialmente protegido como la huella dactilar o el iris del ojo. Puede ser vulnerada si no está consentido su uso”, explica este especialista.
Adsuara recuerda la conocida controversia que protagonizó la actriz Scarlett Johansson, cuando en mayo de 2024 el chatbot Sky, de OpenAI, tenía un tono parecido a su voz. La IA también ha utilizado las voces de músicos para simular que cantan melodías que nunca han interpretado, como le ocurrió al puertorriqueño Bad Bunny y la artista española Bad Gyal. “No solo infringe los derechos de imagen a la propia voz, sino también los derechos de propiedad intelectual a la interpretación. Los problemas son los mismos y lo que hace la inteligencia artificial generativa es que sea mucho más fácil cometer delito o cometer una intromisión”, explica.