Anuario 2024 de Cotec

Quince visiones

Datos

Kiko Llaneras

“Llevamos una década hablando del provecho que hacen las empresas de datos de todo tipo: de su negocio, de sus cadenas de valor o de nosotros, sus usuarios. Pero ¿qué pasa con los Gobiernos o las Administraciones?”.

bases de datos para usar formatos reusables y una guía de estilo. También escribir una documentación de calidad " simple y clara—, fácilmente accesible en la web de la agencia. Por último, también será su responsabilidad pro- teger esos datos, evitar fugas y asegurar la privacidad. 3. La tarea esencial: unir los datos entre sí E sta es la idea central de mi propuesta: ¡multipliquemos el número de datasets conectados entre sí! Es una labor en apariencia menor, pero que resulta transformadora porque dispara la utilidad potencial de la información que ya tene- mos. Hoy en día, el historial de los pacientes de un hos- pital sirve a los médicos que los tratan, y quizá ayuda en la gestión del centro. Y quizá los facultativos no necesitan acceso a más detalles. Pero si esa información se cruza con la renta de cada paciente, o con su trabajo, o con la renta de sus padres hace treinta años, el barrio donde crecieron y el colegio al que fueron, nuestra capacidad de iluminar fenómenos complejos y hacer mejores políticas públicas se multiplicaría exponencialmente. Y no digo exponencial como un fallido sinónimo de mucho , sino literalmente. Supongamos que tenemos 100 datasets y que cada uno sirve para responder 10 preguntas: tendremos 1000 respuestas en total. Pero ¿y si pudiésemos cruzar cada dataset con los otros para generar un dataset nuevo? Serán 4950 pare- jas y 49.500 respuestas. ¿Y si cruzamos en tripletas? Por ejemplo, uniendo una base de datos de universitarios con las declaraciones de renta de sus padres hace veinte años y con las características del barrio donde crecieron. Esas tripletas suponen 160.000 cru- ces y 1,6 millones de respuestas potenciales. ¿Y si en lugar de 100 datasets tenemos 1000? Las respuestas sin cruces son 10.000, pero con parejas se elevan a 5 millones y con tripletas se vuelven astrónomicas: 1.661.670.000. ¿Por qué no se hacen más cruces si son valiosos? Es un proceso delicado. Para unir dos bases de datos, estas deben com- partirse al nivel de la observación individual (conectar la informa- ción persona a persona o empresa a empresa), y eso exige exponer todos los detalles al analista que hace la unión. Por ejemplo, si vamos a cruzar el currículo académico de la gente con su informa- ción fiscal, tendremos que acceder a los datos educativos (estu- diante por estudiante) y a los datos de Hacienda (declarante por declarante). Las dos fuentes existen ya con ese nivel de desagre- gación, y tienen acceso a ellas muchas personas en cada institu- ción, pero unirlas exige que una tercera persona disponga del doble acceso. Hoy esa situación es excepcional y está llena de trabas. Eso es lo que cambiaría nuestra agencia: queremos regularizar los dobles accesos para explotar su potencial de una manera segura.

El instituto de estadística británico (ONS) aboga por esto mismo en su estrategia de datos. ² En ella habla de las tres “l” de los datos, que hago mías. Los datos que recoja la agencia deberán ser “locales”, microdatos desagregados al nivel más bajo posible, por colegio, por empresa, por sección censal o por persona. Además, deberán ser “longitudinales”, seguirse en el tiempo, para poder ver la evolución de un colegio o un niño. Y por último, los datos deben estar unidos o “enlazados” ( linked ), deben poder cruzarse, para multiplicar su capacidad de responder a las preguntas que nos importan. Como dice la ONS, producir datasets con estas carac- terísticas “tiene un poder exponencial mucho mayor que el que tenemos hoy”. 4. Salida: servir los datos E l propósito último de la agencia es que personas acredita- das tengan un acceso profundo y seguro a los datos públi- cos, para que puedan usarlos en beneficio de la sociedad. Esos usos se pueden agrupar en dos grandes categorías. Por un lado, los datos de la agencia ayudarán a generar conocimiento. Entre sus usuarios habrá académicos y analistas que quieran investigar cuestiones relevantes. Como veremos en el siguiente apartado, ya hay una creciente literatura científica que se alimenta con datos administrativos de los países a la vanguardia. No es la única forma de conocimiento: la agencia también puede dar acceso a periodistas y personas de la sociedad civil para favo- recer la transparencia y la rendición de cuentas. El otro uso de la agencia es mejorar la acción política. Uno de sus propósitos es estar al servicio de los empleados públicos que quieran informar sus decisiones con los mejores datos. Si vas a poner en marcha una campaña contra el absentismo escolar, ¿por qué no analizar a qué barrios dirigirla? Muchas Administraciones pueden beneficiarse de una agencia experta en producir y analizar datos para diseñar mejores políticas públicas. Cuidar este último punto del proceso de la agencia es esen- cial para garantizar la privacidad de los ciudadanos y las entida- des. Cuánto más ricos sean los datasets —y unirlos los enriquece—, más fácil será identificar a alguien. No es difícil saber quién es la persona que nació en 1981, se crió en Alfaz del Pi, vive en Madrid y tiene una hija de un año. Y si toda esa información se publica en un archivo CSV o una hoja de Excel gigantesca, junto con mi renta o mi historial médico, es evidente que se habría violado mi privacidad. Por eso, una de las tareas de la agencia es implementar medidas para controlar la información que sirven, asegurar que es anónima, y por ejemplo ofrecerla solo de manera agregada cuando sea necesario. En resumen, el objetivo de la agencia es que usuarios acre-

167

Made with FlippingBook - Online Brochure Maker