Grandes bibliotecas abren sus estanterías para el consumo de IA

Casi un millón de libros publicados ya en el siglo XV (y en 254 idiomas) forman parte de una colección de la Universidad de Harvard que se está poniendo a disposición de investigadores de IA.

Próximamente también se pondrán a disposición grandes cantidades de periódicos antiguos y documentos gubernamentales que posee la biblioteca pública de Boston.

Abrir las bóvedas de tomos centenarios podría ser una bonanza de datos para las empresas tecnológicas que luchan contra demandas de novelistas vivos, artistas visuales y otras personas cuyas obras creativas han sido extraídas sin su consentimiento para entrenar a chatbots de inteligencia artificial.

"Es una decisión prudente comenzar con datos de dominio público, porque actualmente son menos controvertidos que el contenido que aún está bajo derechos de autor", dijo Burton Davis, asesor general adjunto de Microsoft.

Davis afirmó que las bibliotecas también albergan "cantidades significativas de datos culturales, históricos y lingüísticos interesantes" que faltan en las últimas décadas de comentarios en línea, de los que los chatbots de IA han aprendido principalmente. El temor a quedarse sin datos también ha llevado a los desarrolladores de IA a recurrir a datos "sintéticos", generados por los propios chatbots y de menor calidad.

Con el apoyo de “donaciones sin restricciones” de Microsoft y OpenAI, creador de ChatGPT, la Iniciativa de Datos Institucionales con sede en Harvard está trabajando con bibliotecas y museos de todo el mundo sobre cómo hacer que sus colecciones históricas estén preparadas para la IA de un modo que también beneficie a las comunidades a las que sirven.

“Estamos intentando transferir parte del poder de la IA actual a estas instituciones”, afirmó Aristana Scourtas, directora de investigación del Laboratorio de Innovación Bibliotecaria de la Facultad de Derecho de Harvard. “Los bibliotecarios siempre han sido los guardianes de los datos y de la información”.

El conjunto de datos recientemente publicado por Harvard, Institutional Books 1.0, contiene más de 394 millones de páginas escaneadas. Una de las primeras obras data del siglo XV: reflexiones manuscritas de un pintor coreano sobre el cultivo de flores y árboles. La mayor concentración de obras data del siglo XIX y trata temas como literatura, filosofía, derecho y agricultura, todas ellas meticulosamente preservadas y organizadas por generaciones de bibliotecarios.

Promete ser una bendición para los desarrolladores de IA que intentan mejorar la precisión y confiabilidad de sus sistemas.

“Muchos de los datos utilizados en el entrenamiento de IA no provienen de fuentes originales”, afirmó Greg Leppert, director ejecutivo de la iniciativa de datos y director de tecnología del Centro Berkman Klein para Internet y Sociedad de Harvard. Esta colección de libros se remonta a la copia física escaneada por las instituciones que recopilaron esos artículos, añadió.

Antes de que ChatGPT desatara el furor comercial de la IA, la mayoría de los investigadores de IA no prestaban mucha atención a la procedencia de los fragmentos de texto que extraían de Wikipedia, de foros de redes sociales como Reddit y, a veces, de grandes repositorios de libros pirateados. Solo necesitaban una gran cantidad de lo que los informáticos llaman tokens: unidades de datos, cada una de las cuales puede representar un fragmento de una palabra.

La nueva colección de entrenamiento de IA de Harvard cuenta con un estimado de 242 mil millones de tokens, una cantidad difícil de comprender para los humanos, pero que aún representa solo una pequeña parte de lo que se está incorporando a los sistemas de IA más avanzados. Meta, la empresa matriz de Facebook, por ejemplo, ha afirmado que la última versión de su modelo de lenguaje extenso de IA se entrenó con más de 30 billones de tokens extraídos de texto, imágenes y vídeos.

Meta también está luchando contra una demanda de la comediante Sarah Silverman y otros autores publicados que acusan a la compañía de robar sus libros de “bibliotecas fantasma” de obras pirateadas.

Ahora, con algunas reservas, las verdaderas bibliotecas se están poniendo de pie.

OpenAI, que también está luchando contra una serie de demandas por derechos de autor, donó 50 millones de dólares este año a un grupo de instituciones de investigación, incluida la Biblioteca Bodleian de 400 años de antigüedad de la Universidad de Oxford, que está digitalizando textos raros y utilizando IA para ayudar a transcribirlos.

Cuando la empresa contactó por primera vez a la Biblioteca Pública de Boston, una de las más grandes de Estados Unidos, la biblioteca dejó en claro que cualquier información que digitalizara sería para todos, dijo Jessica Chapel, su jefa de servicios digitales y en línea.

OpenAI tenía interés en cantidades masivas de datos de entrenamiento. Nosotros tenemos interés en cantidades masivas de objetos digitales. Así que esto es simplemente un ejemplo de cómo las cosas se están alineando, dijo Chapel.

La digitalización es costosa. Por ejemplo, para la biblioteca de Boston ha sido un trabajo minucioso escanear y seleccionar docenas de periódicos en francés de Nueva Inglaterra, ampliamente leídos a finales del siglo XIX y principios del XX por las comunidades de inmigrantes canadienses de Quebec. Ahora que este texto se utiliza como datos de entrenamiento, ayuda a financiar proyectos que los bibliotecarios quieren llevar a cabo de todos modos.

La colección de Harvard ya había sido digitalizada en 2006 para otro gigante tecnológico, Google, en su controvertido proyecto de crear una biblioteca en línea con capacidad de búsqueda de más de 20 millones de libros.

Google pasó años defendiendo las demandas de los autores contra su biblioteca de libros en línea, que incluía muchas obras nuevas y protegidas por derechos de autor. El asunto se resolvió finalmente en 2016, cuando la Corte Suprema de Estados Unidos mantuvo firmes las sentencias de tribunales inferiores que desestimaron las demandas por infracción de derechos de autor.

Ahora, por primera vez, Google ha colaborado con Harvard para recuperar volúmenes de dominio público de Google Libros y facilitar su publicación a los desarrolladores de IA. La protección de los derechos de autor en EE. UU. suele durar 95 años, e incluso más para las grabaciones de sonido.

El nuevo esfuerzo fue aplaudido el jueves por el mismo grupo de autores que demandó a Google por su proyecto de libro y, más recientemente, llevó a las empresas de IA a los tribunales.

“Muchos de estos títulos solo existen en los anaqueles de las principales bibliotecas, y la creación y el uso de este conjunto de datos ampliarán el acceso a estos volúmenes y al conocimiento que contienen”, declaró Mary Rasenberger, directora ejecutiva del Gremio de Autores, en un comunicado el jueves. “Es importante destacar que la creación de un amplio conjunto de datos de entrenamiento legal democratizará la creación de nuevos modelos de IA”.