Cómo evaluar el valor de los datos abiertos cuando la IA forma parte del proceso

La creciente integración de la inteligencia artificial en servicios públicos y privados obliga a revisar los métodos con los que se mide el impacto de la reutilización de la información pública

Andalucía, 08/04/2026

Cómo evaluar el valor de los datos abiertos cuando la IA forma parte del proceso

La medición del impacto de los datos abiertos se ha apoyado históricamente en indicadores consolidados como el número de conjuntos publicados, la frecuencia de actualización, las descargas, las llamadas a API o las reutilizaciones identificadas. Estos indicadores siguen siendo necesarios para medir actividad y madurez del ecosistema, pero la expansión de la inteligencia artificial generativa está modificando la forma en que la información pública circula y genera valor.

Cuando los modelos de lenguaje sintetizan respuestas a partir de múltiples fuentes, los datos abiertos pueden influir sin que exista una descarga visible o una visita directa al portal que los publicó. Este cambio exige revisar los marcos tradicionales de evaluación.

De las visitas a la presencia en modelos

Uno de los indicadores emergentes es el Share of Model (SOM), que analiza la cuota de presencia de una fuente en las respuestas generadas por modelos de inteligencia artificial. En lugar de centrarse únicamente en el acceso directo, esta métrica permite evaluar con qué frecuencia la información procedente de portales oficiales aparece integrada en respuestas automatizadas.

El SOM traslada al ámbito de la IA una lógica similar a la del posicionamiento digital: no se trata solo de publicar datos, sino de medir su visibilidad e influencia en los sistemas que intermedian el acceso a la información.

Cómo se presentan los datos: análisis de sentimiento

La medición del impacto no se limita a la presencia cuantitativa. El análisis de sentimiento aplicado a contenidos generados por IA permite examinar cómo se interpreta y presenta la información pública. Este enfoque ayuda a identificar si los datos oficiales aparecen en un contexto neutral, positivo o negativo, y a detectar posibles sesgos o distorsiones en la narrativa construida por los modelos.

Así, el impacto deja de medirse únicamente en términos de uso y empieza a analizarse también en términos de percepción y encuadre.

Contextos en los que aparecen los datos: categorización de prompts

Más allá de medir si una fuente aparece en las respuestas generadas por IA, es importante analizar en qué tipo de preguntas ocurre esa aparición. La categorización de prompts permite agrupar las consultas de los usuarios por temáticas y observar en cuáles de ellas los modelos recurren con mayor frecuencia a determinados datos o fuentes.

Este enfoque introduce una lectura más estratégica del impacto. No se trata solo de saber que una plataforma es utilizada, sino de entender para qué tipo de necesidades informativas lo es. Por ejemplo, una fuente puede tener una alta presencia en consultas relacionadas con movilidad o empleo, pero apenas aparecer en cuestiones vinculadas a salud o educación.

Este análisis permite identificar patrones de especialización y también posibles desequilibrios. Si determinados ámbitos temáticos tienen poca representación, puede indicar tanto una falta de datos disponibles como una menor adecuación de los existentes para responder a ese tipo de preguntas.

Nuevos canales de acceso: tráfico procedente de herramientas de IA

El cambio en los patrones de acceso también introduce nuevas métricas relacionadas con el tráfico procedente de herramientas de IA. Aunque muchos usuarios no abandonan la interfaz conversacional, algunos sí acceden a los enlaces proporcionados por los modelos o por buscadores con respuestas generadas.

Este tráfico, aunque menor en volumen que el procedente de buscadores tradicionales, suele estar más cualificado, ya que responde a una intención concreta de profundizar en la información. Analizar su evolución permite entender cómo se redistribuye el acceso a los datos en un entorno mediado por IA.

Uso indirecto y trazabilidad en sistemas automatizados

Otra dimensión clave es la reutilización algorítmica, que analiza hasta qué punto los datos abiertos se utilizan para entrenar modelos o alimentar sistemas automatizados. Este tipo de impacto es especialmente difícil de medir, ya que muchas soluciones no ofrecen transparencia sobre las fuentes utilizadas.

Aun así, existen aproximaciones indirectas, como el seguimiento del uso de APIs o la colaboración con actores que desarrollan estos sistemas. A medida que avancen las iniciativas regulatorias en materia de transparencia, esta métrica cobrará mayor relevancia para comprender el papel estructural de los datos abiertos en la economía digital.

Complementar los marcos tradicionales

Las nuevas métricas no sustituyen a los indicadores clásicos, sino que los complementan. Las descargas, las llamadas a API y el volumen de datasets publicados siguen siendo fundamentales para medir actividad y oferta. Sin embargo, en un entorno donde la inteligencia artificial media cada vez más en el acceso a la información pública, evaluar el impacto exige considerar también la visibilidad en modelos, la narrativa generada y la influencia en sistemas automatizados.

El desafío consiste en adaptar los marcos de evaluación a un ecosistema donde el valor de los datos abiertos es cada vez más distribuido, integrado e indirecto.