91
Generación de talento Big Data en España
2) ARQUITECTURAS Y SISTEMAS DE PROCESAMIENTO, TRATAMIENTO Y ALMACENAMIENTO DE DATOS. Otro eje de desarrollo es el de los sistemas encargados del procesamiento de datos: Procesamiento en tiempo real, para procesar los datos directamente recogidos de las fuentes según un modelo en directo: según van llegan- do, sin almacenamiento previo. Provisión como servicio con QoS negociado, incluyendo cuestiones energéticas. Los proveedores de computación de datos tendrán que me- jorar sus infraestructuras de cómputo y comunicaciones para ofertar un servicio que dé soporte a las crecientes necesidades de análisis intensi- vo de datos de sus clientes (incluyendo el análisis en tiempo real) de una forma energéticamente sostenible. Arquitecturas de interconexión eficientes para el procesamiento. La solución más utilizada en los centros de datos es asignar un conjunto de máquinas virtuales a cada entidad independiente que haga uso del centro. De tal forma que la interconexión de dichas máquinas virtuales mediante diferentes técnicas puede aislar el tráfico de las diferentes aplicaciones, usuarios o gestores. Sistemas de cómputo en paralelo (o distribuido) y almacenamiento masivo. Son una forma de conseguir que la supercomputación avance. Los supercomputadores estarán formados por miles (incluso centenares de miles) de nodos de almacenamiento y cómputo. Un reto fundamental será que los programas se adapten a modelos de paralelismo entre no- dos, pero también intra-nodo. Tiene la complejidad adicional de que los procesadores no son homogéneos. Evolución hacia sistemas exascale. El salto de los actuales sistemas masi- vamente paralelos petascale (10^15 operaciones/s) a los exascale (10^18) no se puede conseguir simplemente multiplicando por 1000 el número de nodos, o la capacidad de integración en un chip. Los problemas derivados de la tolerancia a fallos, la escalabilidad de la red, el consumo energético, la programabilidad, etc. hacen imposible estas aproximaciones. 3) SEGURIDAD Y PRIVACIDAD. A medida que los entornos de computación se abaratan, los entornos de aplicación pasan a comunicarse a través de re- des y los entornos de análisis se comparten a través de la nube, dando lugar a nuevos retos de seguridad y privacidad. Técnicas escalables para garantizar la privacidad en la analítica de da- tos. El análisis y la correlación de diferentes datos obtenidos a partir de fuentes independientes puede llevar a la obtención de información que atente contra la privacidad de las personas. Uno de los mecanismos más importantes para la preservación de la privacidad de los datos es la anoni- mización de los mismos. Comunicaciones seguras y control de acceso reforzado por criptogra- fía. Especificar permisos de acceso diferenciales a distintos conjuntos de usuarios y ofrecer la flexibilidad de especificar los permisos de acce- so para cada usuario individual. Además, con el fin de asegurar que los datos privados más sensibles permanezcan seguros desde el origen al usuario final —y solo tenga acceso a ellos las entidades autorizadas—, una de las soluciones es encriptar los datos y utilizar canales seguros de comunicación. Monitorización en tiempo real de la seguridad y conformidad, que su- pone un desafío debido al elevado número de alertas generadas por par- te de los dispositivos de seguridad. Validacion de datos de entrada y filtrado de fuentes inseguras. El ma- yor desafío en la recolección de los datos reside en la validación de la
Made with FlippingBook - Online Brochure Maker