Meta, Google y OpenAI utilizaron datos protegidos para entrenar LLMs, informe

El investigador líder en inteligencia artificial Gary Marcus está cada vez más horrorizado por lo que está viendo. Fundó al menos dos startups de inteligencia artificial, una de las cuales fue vendida a Uber, y ha estado investigando el tema durante más de dos décadas. Justo el fin de semana pasado, el Financial Times lo llamó “Quizás el cuestionador más ruidoso de la IA” y reportó que Marcus asumió que fue blanco de una publicación crítica de Sam Altman en X: “Denme la confianza de un escéptico mediocre del aprendizaje profundo”.

Marcus redobló sus críticas al día siguiente de su aparición en el FT, escribiendo en su Substack sobre “IA generativa como tragedia shakespeariana”. El tema fue un informe explosivo del New York Times que revelaba que OpenAI violó los términos de servicio de YouTube al raspar más de un millón de horas de contenido generado por usuarios. Lo peor es que la necesidad de Google de datos para entrenar su propio modelo de IA era tan insaciable que hizo lo mismo, potencialmente violando los derechos de autor de los creadores de contenido cuyos videos utilizó sin su consentimiento.

Tal como señaló Marcus en 2018, ha expresado dudas sobre el enfoque “devorador de datos” para el entrenamiento que buscaba alimentar a los modelos de IA con la mayor cantidad de contenido posible. De hecho, enumeró ocho de sus advertencias, que datan de su diagnóstico de alucinaciones en 2001, todas convirtiéndose en realidad como una maldición en MacBeth o Hamlet que se manifiesta en el quinto acto. “Lo trágico de todo esto es que muchos de nosotros hemos intentado tanto advertir al campo que terminaríamos aquí,” escribió Marcus.

Aunque Marcus declinó hacer comentarios a Fortune, la tragedia va mucho más allá de que no se haya escuchado a críticos como él y Ed Zitron, otro escéptico prominente citado por el FT. Según el Times, que cita numerosas fuentes cercanas, tanto Google como OpenAI sabían que lo que estaban haciendo era legalmente dudoso, apostando a que los derechos de autor en la era de la IA aún no habían sido litigados, pero sintieron que no tenían otra opción que seguir bombeando datos en sus grandes modelos de lenguaje para mantenerse por delante de su competencia. Y en el caso de Google, potencialmente sufrió daño como resultado de los masivos esfuerzos de raspado de OpenAI, pero su propia infracción de las reglas para raspar los mismos datos lo dejó en una situación comprometida.

LEAR Apple lanza visionOS 1.0.3 con opción de reinicio para código de acceso olvidado

¿Usó OpenAI videos de YouTube?

Los empleados de Google se dieron cuenta de que OpenAI estaba tomando contenido de YouTube para entrenar sus modelos, lo que infringiría tanto sus propios términos de servicio como posiblemente las protecciones de derechos de autor de los creadores a quienes pertenecían los videos. Atrapado en este dilema, Google decidió no denunciar públicamente a OpenAI porque temía llamar la atención sobre su propio uso de videos de YouTube para entrenar modelos de IA, informó el Times.

Un portavoz de Google le dijo a Fortune que la empresa había “visto informes no confirmados” de que OpenAI había utilizado videos de YouTube. Añadieron que los términos de servicio de YouTube “prohíben el raspado o descarga no autorizada” de videos, y que la empresa tiene una “larga historia de emplear medidas técnicas y legales para prevenirlo.”

Marcus afirma que el comportamiento de estas grandes empresas tecnológicas era predecible porque los datos eran el ingrediente clave necesario para construir las herramientas de IA que estas grandes empresas tecnológicas estaban en una carrera para desarrollar. Sin datos de calidad, como novelas bien escritas, podcasts de presentadores expertos o películas producidas expertamente, los chatbots y generadores de imágenes corren el riesgo de generar contenido mediocre. Esa idea se puede resumir en el adagio de ciencia de datos “basura entra, basura sale”. En un artículo de opinión para Fortune, Jim Stratton, director de tecnología de la empresa de software de recursos humanos Workday, dijo que “los datos son la sangre de la IA”, lo que hace que la “necesidad de datos de calidad y oportunos sea más importante que nunca”.

Hacia 2021, OpenAI se encontró con una escasez de datos. Necesitando desesperadamente más instancias de habla humana para seguir mejorando su herramienta ChatGPT, que aún estaba a aproximadamente un año de ser lanzada, OpenAI decidió obtenerlo de YouTube. Los empleados discutieron el hecho de que copiar videos de YouTube podría no ser permitido. Eventualmente, un grupo, incluido el presidente de OpenAI, Greg Brockman, siguió adelante con el plan.

LEAR Francia refuerza la seguridad para Nochevieja, con 90,000 policías movilizados.

El hecho de que una figura de alto nivel como Brockman estuviera involucrada en el esquema fue evidencia de lo esencial que eran esos métodos de recopilación de datos para el desarrollo de la IA, según Marcus. Brockman lo hizo, “muy probablemente sabiendo que estaba ingresando en un área legal gris, pero desesperado por alimentar al monstruo,” escribió Marcus. “Si todo se derrumba, ya sea por razones legales o técnicas, esa imagen puede persistir.”

Cuando se le pidió un comentario, un portavoz de OpenAI no respondió preguntas específicas sobre su uso de videos de YouTube para entrenar sus modelos. “Cada uno de nuestros modelos tiene un conjunto de datos único que curamos para ayudar a su comprensión del mundo y seguir siendo competitivos a nivel mundial en investigación,” escribieron en un correo electrónico. “Utilizamos numerosas fuentes, incluidos datos públicamente disponibles y asociaciones para datos no públicos, y estamos explorando la generación de datos sintéticos,” dijeron, refiriéndose a la práctica de utilizar contenido generado por IA para entrenar los modelos de IA.

A Mira Murati, directora de tecnología de OpenAI, se le preguntó en una entrevista con el Wall Street Journal si la nueva herramienta de generación de imágenes de video Sora de la empresa había sido entrenada utilizando videos de YouTube; ella respondió: “En realidad no estoy segura de eso.” La semana pasada, el CEO de YouTube, Neal Mohan, respondió diciendo que aunque no sabía si OpenAI había utilizado realmente datos de YouTube para entrenar a Sora u otras herramientas, si lo había hecho, eso violaría las reglas de las plataformas. Mohan mencionó que Google utiliza cierto contenido de YouTube para entrenar sus herramientas de IA basado en algunos contratos que tiene con creadores individuales. Una declaración que un portavoz de Google reiteró a Fortune en un correo electrónico.

Meta decide que el acuerdo de licencia llevaría demasiado tiempo

OpenAI no fue la única que se enfrentó a la falta de datos adecuados. Meta también estaba lidiando con el problema. Cuando Meta se dio cuenta de que sus productos de IA no estaban tan avanzados como los de OpenAI, celebró numerosas reuniones con altos ejecutivos para encontrar formas de asegurar más datos para entrenar sus sistemas. Los ejecutivos consideraron opciones como pagar una tarifa de licencia de $10 por libro para nuevos lanzamientos y comprar directamente la editorial Simon & Schuster. Durante estas reuniones, los ejecutivos reconocieron que ya habían utilizado material con derechos de autor sin el permiso de sus autores. Finalmente, decidieron seguir adelante incluso si eso significaba posibles demandas en el futuro, según el New York Times.

LEAR Impulso sólido y hojas de balance sólidas

Meta no respondió a una solicitud de comentario.

Los abogados de Meta creían que si las cosas terminaban en litigio estarían cubiertos por un caso de 2015 que Google ganó contra un consorcio de autores. En ese momento, un juez dictaminó que Google estaba autorizado a utilizar los libros de los autores sin tener que pagar una tarifa de licencia porque estaba utilizando su trabajo para construir un motor de búsqueda, lo que era suficientemente transformador para considerarse uso justo.

OpenAI plantea algo similar en un caso en su contra presentado por el New York Times en diciembre. El Times alega que OpenAI utilizó su material con derechos de autor sin compensar por ello. Mientras que OpenAI sostiene que su uso de los materiales está cubierto por el uso justo porque fueron recopilados para entrenar un modelo de lenguaje amplio y no porque sea una organización de noticias competidora.

Para Marcus, el ansia de más datos fue evidencia de que toda la propuesta de la IA estaba construida sobre bases inestables. Para que la IA esté a la altura de la expectativa con la que se la ha anunciado, simplemente necesita más datos de los que están disponibles. “Todo esto surgió al darse cuenta de que sus sistemas simplemente no pueden tener éxito sin incluso más datos que los datos a escala de Internet en los que ya se han entrenado,” escribió Marcus en Substack.

OpenAI pareció conceder que era el caso en un testimonio escrito ante la Cámara de los Lores del Reino Unido en diciembre. “Sería imposible entrenar los modelos de IA líderes de hoy en día sin utilizar materiales con derechos de autor,” escribió la empresa.

Suscríbete al boletín Eye on AI para mantenerte al tanto de cómo la IA está dando forma al futuro de los negocios. Regístrate gratis.