El desarrollo de modelos de inteligencia artificial de gran escala ha dependido, en buena parte, del acceso a enormes volúmenes de información disponible en internet. Sin embargo, gran parte de esos datos han sido utilizados sin autorización de sus creadores. Esto ha abierto la puerta a una creciente ola de demandas judiciales por parte de editores y autores que ven vulnerados sus derechos de autor. El caso más visible hasta ahora ha sido el acuerdo de 1.500 millones de dólares que Anthropic alcanzó para resolver una de estas disputas, pero se calcula que hay al menos 40 procesos similares en marcha, incluso uno contra Midjourney por generar imágenes del personaje Superman.

Este panorama legal ha generado preocupación en la industria. Si no se establece un marco claro para el uso de datos en el entrenamiento de IA, las consecuencias podrían frenar el desarrollo de nuevos modelos, elevando los riesgos legales y los costos de operación.

Qué propone Real Simple Licensing (RSL)

Frente a este contexto, un grupo de tecnólogos y editores web ha lanzado una iniciativa denominada Real Simple Licensing (RSL). Su objetivo es proporcionar una infraestructura técnica y legal que permita licenciar datos a gran escala para entrenar modelos de IA, de forma ordenada, transparente y justa para los creadores de contenido.

Uno de sus impulsores es Eckart Walther, conocido por ser co-creador del estándar RSS. Junto a él, otros actores clave como Doug Leeds, exCEO de IAC Publishing, han trabajado en diseñar un sistema que pueda integrarse fácilmente en los mecanismos actuales de publicación en la web.

El funcionamiento técnico del protocolo

Desde el punto de vista técnico, RSL utiliza un enfoque basado en el conocido archivo robots.txt, que indica a los bots qué pueden y no pueden indexar. Este archivo incluiría ahora una sección con cláusulas de licenciamiento en un formato preestablecido y legible por máquinas. Esto permite que las empresas de IA puedan conocer de antemano qué contenidos están disponibles bajo qué condiciones, y si deben pagar por usarlos o no.

Por ejemplo, un medio puede establecer que su contenido solo esté disponible para entrenamiento si se respeta una licencia Creative Commons, o bien exigir una licencia personalizada con compensación económica. El objetivo es dotar de claridad y trazabilidad al uso de los datos, algo que hasta ahora ha sido extremadamente opaco.

Un modelo de gestión colectiva para simplificar pagos

En paralelo al protocolo técnico, se ha creado la organización RSL Collective, que funcionará como una entidad de gestión colectiva, similar a lo que hacen ASCAP en la industria musical o la MPLC en el ámbito cinematográfico. Esta entidad negociará los términos con las empresas de IA y gestionará la recaudación y distribución de los pagos de licencias a los editores y creadores.

Esto supone una solución especialmente útil para los medios pequeños o independientes, que no tienen capacidad de negociar contratos individuales con grandes laboratorios de IA. Aquellos que sí puedan hacerlo, como Reddit (que ya tiene un acuerdo de 60 millones anuales con Google), seguirán teniendo la libertad de establecer contratos individuales, pero también podrán beneficiarse de las ventajas del sistema colectivo.

Los retos para identificar el uso de datos en modelos de IA

Uno de los puntos más delicados del sistema es cómo determinar con precisión cuándo y cuánto contenido ha sido utilizado en el entrenamiento de una IA. En productos como los resúmenes de búsqueda de Google, que se generan en tiempo real y atribuyen cada hecho, esta trazabilidad es más sencilla. Pero cuando se trata de modelos que han sido entrenados con grandes volúmenes de datos sin registro de cada documento utilizado, la identificación se vuelve mucho más compleja.

Esto se agrava si los editores optan por licencias que exigen pagos por inferencia (es decir, por cada vez que el modelo utiliza un fragmento de contenido), en lugar de pagos globales por acceso al dataset. Aun así, desde RSL se muestran optimistas: ya existen acuerdos donde las empresas de IA deben reportar el uso de datos, por lo que no sería una barrera insalvable. Como dice Doug Leeds, «no tiene que ser perfecto, solo lo suficientemente bueno como para que la gente cobre».

¿Aceptarán las empresas de IA esta propuesta?

El mayor desafío ahora es lograr que los laboratorios de IA adopten este sistema de forma voluntaria. Aunque empresas como ScaleAI o Mercor ya han mostrado disposición a pagar por datos estructurados, muchos laboratorios han tratado la web como una fuente de datos gratuita y sin restricciones. Sitios como Common Crawl han sido utilizados masivamente, y convencer a las empresas de que deben pagar por algo que siempre han tomado sin coste puede resultar difícil.

Casos recientes, como la controversia entre Cloudflare y Perplexity, muestran lo difícil que es trazar una línea clara entre el scraping tradicional y el uso automatizado con fines de entrenamiento. Esta ambigüedad puede ser una excusa para evitar adoptar el nuevo protocolo.

Sin embargo, hay señales positivas. El propio Sundar Pichai, CEO de Alphabet, mencionó en el Dealbook Summit de 2024 la necesidad de un sistema como el que propone RSL. El equipo detrás del protocolo pretende aprovechar esas declaraciones para exigir coherencia. “Han dicho públicamente que esto debe existir. Ahora tienen la oportunidad de respaldarlo con acciones”, afirma Leeds.

Un primer paso hacia una web más justa para humanos y máquinas

La aparición de RSL marca un intento serio por ordenar y equilibrar la relación entre la inteligencia artificial y el contenido humano. Como cualquier cambio estructural, su éxito dependerá de la voluntad de los grandes actores para ceder parte del control y reconocer el valor de los datos que entrenan a sus modelos.

En un escenario donde la IA avanza a pasos acelerados, contar con un mecanismo que permita a creadores, medios y tecnólogos convivir de forma justa podría ser lo que permita sostener este progreso sin caer en conflictos legales interminables.

Un protocolo para ordenar el caos: así funciona Real Simple Licensing, el sistema que busca legalizar el entrenamiento de IA

El desarrollo de modelos de inteligencia artificial de gran escala ha dependido, en buena parte, del acceso a enormes volúmenes de información disponible en internet. Sin embargo, gran parte de esos datos han sido utilizados sin autorización de sus creadores. Esto ha abierto la puerta a una creciente ola de demandas judiciales por parte de editores y autores que ven vulnerados sus derechos de autor. El caso más visible hasta ahora ha sido el acuerdo de 1.500 millones de dólares que Anthropic alcanzó para resolver una de estas disputas, pero se calcula que hay al menos 40 procesos similares en marcha, incluso uno contra Midjourney por generar imágenes del personaje Superman.