

El periodista Alex Reisner de The Atlantic descubrió y publicó cuatro conjuntos de datos musicales utilizados para entrenar modelos de inteligencia artificial, totalizando más de 21 millones de canciones que ahora son completamente accesibles al público a través de una base de datos consultable. Los conjuntos incluyen obras de artistas como Lady Gaga, Radiohead, Bruce Springsteen y Wu-Tang Clan, muchas de las cuales están siendo utilizadas sin licencias comerciales apropiadas, según reveló el medio estadounidense.
El reportero Alex Reisner de The Atlantic descubrió recientemente cuatro conjuntos de datos musicales que están siendo utilizados para entrenar modelos de inteligencia artificial y los convirtió en una base de datos completamente consultable para el público, según informó The Verge.
Dos de los conjuntos son de dimensiones masivas, conteniendo 12 millones y 9 millones de pistas respectivamente, según Reisner. Los otros dos son considerablemente más pequeños, pero aún representan una cantidad significativa de datos de entrenamiento con más de 100.000 canciones cada uno.
Según Reisner, estos conjuntos han sido descargados miles de veces y, aunque es imposible saber exactamente quién los ha utilizado, tanto Google como Stability han confirmado su uso en documentos de investigación, según reportó The Verge.
Algunas de las fuentes, como el conjunto de datos del Archivo de Música Gratuita (Free Music Archive), están disponibles para transmisión gratuita para uso personal pero requieren licencias para aplicaciones comerciales, según explicó Reisner.
Aunque los conjuntos de datos están teóricamente disponibles de forma gratuita en internet, utilizarlos como datos de entrenamiento no es tan simple como descargar un archivo y alimentar un modelo de inteligencia artificial con él, según aclaró Reisner. "Tres de los conjuntos de datos que encontré se distribuyen como una lista de enlaces a canciones en YouTube o Spotify. Los desarrolladores de inteligencia artificial descargan el audio real utilizando herramientas que automatizan el trabajo, algunas de las cuales permiten a los desarrolladores eludir inicios de sesión, anuncios y mecanismos que podrían generar dinero o suscriptores para los creadores. Tales herramientas violan los términos de servicio de estas plataformas", dijo Reisner según citó The Verge.
Los nombres que aparecen en el conjunto de datos abarcan desde estrellas del pop como Lady Gaga y Fred Again, hasta Radiohead, Aphex Twin, Wu-Tang Clan, Bruce Springsteen y el compositor experimental Hainbach, según la información publicada.
El público puede acceder al sitio AI Watchdog de The Atlantic y buscar entre las canciones, libros y otros medios que están siendo utilizados para entrenar los modelos de inteligencia artificial del mundo, según indicó The Verge.
La revelación plantea interrogantes sobre los derechos de autor y el uso comercial de material protegido en el entrenamiento de sistemas de inteligencia artificial. La práctica de utilizar herramientas que evitan los mecanismos de monetización de plataformas como YouTube y Spotify representa una violación directa de los términos de servicio de estas compañías, lo que podría tener implicaciones legales para los desarrolladores de inteligencia artificial que emplean estos métodos.
La disponibilidad pública de esta base de datos permite por primera vez que artistas, sellos discográficos y el público general puedan verificar si obras específicas están siendo utilizadas para entrenar modelos de inteligencia artificial, potencialmente sin el consentimiento o compensación adecuada a los titulares de derechos.