¿Hay escasez de datos en la era del Big Data?

No por manida, la analogía de que los datos son el petróleo del Siglo XXI, deja de ser acertada. La combinación de grandes cantidades de datos, inteligencia artificial y gran capacidad de computación están propiciando una revolución que no sabemos muy bien dónde nos va a llevar, especialmente con la irrupción de la Inteligencia Artificial Generativa. Sea como sea, un aluvión de herramientas, aplicaciones, negocios e innovaciones están cambiando de forma significativa la forma de hacer las cosas en prácticamente todos los ámbitos de nuestras vidas y en todos los sectores económicos y sociales.

Esto ha generado dos corrientes interesantes. Por una parte, hay una avidez por conseguir datos para entrenar algoritmos, para alimentar los modelos grandes de lenguaje (GPT y similares) y para otras aplicaciones. Por otra, los propietarios de los datos somos cada vez más conscientes de que son nuestros y de que tienen un valor, aunque no sepamos cuál y para quién. El hecho de ser conscientes de que con nuestros datos pagamos servicios como las redes sociales y aceptemos con cierta alegría cookies aquí y allá, cada vez más nos gusta menos que se usen sin nuestro consentimiento para según qué fines. Las demandas a empresas por malas prácticas en ese sentido no paran de crecer. Hoy en día, en el mundo de las Inteligencias artificiales, no tener en cuenta la privacidad y la propiedad de los datos es una buena manera de acabar en la ruina.

En ese contexto, por paradójico que parezca, la dificultad de acceso junto a los aspectos de propiedad, seguridad y los derivados de la privacidad, entre otros factores, están provocando una escasez de datos con suficiente calidad para desarrollar algoritmos de rendimiento y valor deseados. En respuesta se plantean diferentes soluciones como los espacios de datos y la generación de datos sintéticos. De los primeros hablaré en otro post, hablemos de los datos sintéticos.

Los datos sintéticos se obtienen a partir de datos reales aplicando técnicas y algoritmos para reproducir las características y propiedades estadísticas de los datos originales. Resultan especialmente útiles para desarrolladores de aplicaciones y entrenamiento de algoritmos que requieren de datos sensibles, salvando los problemas de la confidencialidad, o de tal cantidad de datos que obtenerlos resulta inasumible en tiempo y dinero. Por ejemplo, a partir de los datos personales y confidenciales de clientes reales de un gimnasio, podemos generar un dataset con los datos anónimos de miles de clientes no reales, pero con “comportamientos” realistas, que podemos aplicar para desarrollar algoritmos de Machine Learning.

Este camino aún tiene que resolver algunos problemas, sobre todo cómo garantizar la calidad y fidelidad de los datos sintéticos, pero, en algunos campos como la investigación científica ya ofrecen una alternativa viable y potente para resolver la escasez de datos.

El caso de Los modelos de IA generativa es particularmente interesante. Se están utilizando a para generar datos sintéticos, pero, al mismo tiempo, son de los más interesados en su uso.

Su necesidad de datos auténticos es tal que ya se empieza a hablar de un colapso del modelo de la IA generativa por la falta de contenidos creados por las personas para que los modelos tipo ChatGPT sigan aprendiendo.

Los algoritmos de IA generativa entrenados con contenidos sintéticos tienden a generar realidades digamos, “alternativas”, mientras que su acceso a nuevos datos reales se ha complicado mucho. Según parece, para su entrenamiento se han utilizado todos los contenidos de acceso público disponibles y más. OpenAI descargó contenidos de Youtube sin respetar sus reglas y reconoce que, de haber respetado el copyright de muchos de los contenidos que utilizó, habría sido imposible entrenar a ChatGPT. Ya les están lloviendo demandas de youtbers, periódicos digitales y otros. Tecnológicas como Meta y recientemente (finales de julio de 2024) X han sido amonestadas por las autoridades de protección de datos por usar contenidos generados por las personas usuarias de sus redes sociales para entrenar sus IAs sin avisarlos pertinentemente.

Se viene un escenario tan incierto como interesante, en el que, parece que el papel de las personas como generadores de datos y de contenidos, va a ser cada vez más importante, así como las oportunidades de innovación y negocio en la intermediación entre la oferta y la demanda de datos de calidad.

07-10-24

Quique Alcántara – experto en innovación deportiva – 4iCVEsport

Escala del poker.

Poker albacete.

Casino en villa carlos paz.

¿Hay escasez de datos en la era del Big Data?