Imagen cortesía de freepik.com
El Riesgo de las Inteligencias Artificiales Sin Datos Humanos para Aprender
La revolución de la inteligencia artificial (IA) está en pleno auge, pero ya enfrenta un obstáculo significativo: la disponibilidad limitada de obras humanas de las cuales aprender.
Según un estudio publicado en Nature, los sistemas de IA que dependen exclusivamente de contenidos generados por otras inteligencias artificiales pueden perder la percepción de la realidad y sufrir lo que los investigadores llaman "colapso del modelo".
Para que estos sistemas funcionen eficientemente, necesitan analizar grandes cantidades de datos humanos.
A partir de estos datos, extraen patrones que les permiten generar contenido, ya sea texto, imágenes o videos. Cuanto más diversa sea la información, mejor será su capacidad de generalizar y realizar predicciones complejas.
Sin embargo, empresas como OpenAI han utilizado ya la mayor parte de los datos de alta calidad disponibles públicamente para entrenar modelos como ChatGPT.
La falta de datos nuevos y diversos ha llevado a recurrir a información de menor calidad, como la obtenida de redes sociales o incluso a contenidos protegidos por derechos de autor.
Este recurso a datos menos fiables podría limitar la capacidad de las IA para mejorar y adaptarse a nuevas situaciones.
Ante esta escasez, la industria ha comenzado a considerar el uso de "datos sintéticos", es decir, contenido generado por otras inteligencias artificiales, para entrenar nuevos modelos.
Aunque estos datos sintéticos representan una esperanza para seguir desarrollando la tecnología, también presentan riesgos.
El estudio advierte que el uso indiscriminado de contenido generado por modelos puede llevar a un "colapso del modelo", donde las IAs pierden la diversidad en sus datos de entrenamiento y empiezan a replicar errores y sesgos, alejándose de la realidad.
Este "colapso del modelo" ocurre porque los sistemas de IA, al entrenarse con sus propios contenidos generados, pueden comenzar a "canibalizar" sus creaciones, lo que lleva a una percepción distorsionada de la realidad.
Esto puede resultar en un aprendizaje degenerativo, donde los modelos empiezan a olvidar eventos improbables y a repetir información de manera excesiva, reduciendo su capacidad para manejar situaciones nuevas o inesperadas.
El estudio subraya la creciente importancia de los datos humanos genuinos para entrenar estos sistemas. La calidad y diversidad de los datos humanos serán cada vez más valiosos, especialmente en un entorno donde el contenido generado por IA es predominante.
Empresas pioneras en el uso de IA, que comenzaron a entrenar sus modelos antes de la proliferación de datos sintéticos, podrían tener una ventaja significativa.
Recientemente, ha habido controversias en torno al uso de datos humanos para entrenar IA. Por ejemplo, Meta fue amonestada por intentar utilizar comentarios y fotografías de usuarios de Facebook e Instagram para entrenar una nueva IA sin un aviso adecuado, lo que llevó a la empresa a renunciar a usar datos europeos.
Similarmente, Elon Musk introdujo una opción en Twitter (ahora X) para utilizar los datos de los usuarios con el fin de entrenar su IA, Grok, lo cual ha generado preocupaciones legales.
En resumen, mientras que los datos sintéticos pueden ser una solución provisional, la dependencia excesiva de ellos podría limitar la capacidad de las IA para comprender y representar la realidad de manera precisa. Los datos humanos seguirán siendo cruciales para el desarrollo y la mejora continua de estos sistemas.