OpenAI entrenó a ChatGPT con millones de horas de vídeos de YouTube sin permiso
Las compañías de inteligencia artificial estaban encontrando obstáculos para reunir datos de entrenamiento de alta calidad.
Ahora, The New York Times ha detallado algunas de las formas en que las empresas han abordado este problema. Para sorpresa de nadie, esto implica hacer cosas que están en la zona gris de la ley de derechos de autor en el ámbito de la IA.
OpenAI, desesperada por conseguir datos de entrenamiento, desarrolló un modelo de transcripción de audio para transcribir más de un millón de horas de videos de YouTube, que usó para entrenar GPT-4. Según The New York Times, la empresa sabía que esto era legalmente cuestionable pero creía que era uso justo.
El presidente de OpenAI, Greg Brockman, estuvo personalmente involucrado en la recopilación de videos que se utilizaron.
La portavoz de OpenAI, Lindsay Held, dijo que la empresa utiliza «numerosas fuentes, incluidos datos de dominio público y asociaciones para datos no públicos», y que está investigando la generación de sus propios datos sintéticos.
Al parecer, la empresa agotó los suministros de datos útiles en 2021, y discutió la transcripción de videos de YouTube, podcasts y audiolibros después de agotar otros recursos. Para entonces, había entrenado sus modelos con datos que incluían código informático de Github, bases de datos de movimientos de ajedrez y contenido de trabajo escolar de Quizlet.
Google también recopiló transcripciones de YouTube, según fuentes del Times. Bryant dijo que la compañía ha entrenado sus modelos «en parte del contenido de YouTube, de acuerdo con nuestros acuerdos con los creadores de YouTube».
Meta también se topó con los límites de la disponibilidad de buenos datos de entrenamiento, y en grabaciones que escuchó el Times, su equipo de IA discutió el uso no autorizado de obras con derechos de autor mientras intentaba ponerse al día con OpenAI.