Generación de Talento en Big Data

92

Plan y recomendaciones 2016 – 2020

entrada, esto es, en la veracidad de los datos. Para ello hay que asegurarse de que los datos son fiables, validar que los datos no los envía un agente malicioso o incluso filtrar las fuentes. Esto supone un gran desafío, especial- mente cuando se trabaja con modelos personalizados, por lo que es necesa- rio diseñar técnicas para la validación de grandes conjuntos de datos. 4) CIENCIA DE DATOS ( DATA SCIENCE ). En este ámbito se contemplan los siguientes desafíos: Técnicas de selección y construcción de características, como parte fundamental del análisis de grandes volúmenes de datos. Algoritmia más ligera que requiera menos esfuerzo de computación. En muchas aplicaciones, la cadencia de datos es muy alta y los requisitos de tiempo de respuesta son muy exigentes, como puede ser en el control de procesos industriales en tiempo real. Para estos casos, el uso de algo- ritmia ligera o lean podría suponer acelerar y agilizar las computaciones, incluso en sistemas con limitadas capacidades. Aprendizaje profundo ( deep learning, redes neuronales, H2O, Sparking Water …). En los últimos años ha emergido una nueva tecnología capaz de extraer conocimiento de grandes bases de datos de manera prácti- camente automática. Se trata de las Redes Neuronales Profundas ( deep learning networks ). Estas redes generan a partir de un conjunto de da- tos modelos computacionales compuestos de múltiples capas de proce- samiento, que aprenden representaciones jerárquicas de los datos con múltiples niveles de abstracción. Técnicas híbridas y multidisciplinares de aprendizaje automático y optimiza- ción (como swarm o bio-inspired ). El objetivo final de la mayoría de los análi- sis de datos es la construcción de un modelo que aporte información sobre el problema que se está resolviendo. En la mayoría de las ocasiones el modelo a construir es unmodelo predictivo, que, dado un caso de entrada, predice el valor de una o varias variables. En el ámbito de la inteligencia artificial, los algoritmos swarm (o de “enjambre”) estudian el comportamiento colectivo de los sistemas descentralizados, auto-organizados, naturales o artificiales. Análisis y optimización de grafos. El procesamiento de señales sobre grafo permite plantear soluciones distribuidas facilitando una computa- ción concurrente en diferentes agrupaciones de nodos. Uno de los retos en esta área es generalizar las técnicas habituales de procesamiento de señal sobre una estructura de grafo dinámico, permitiendo representar, transformar y analizar el flujo creciente de datos. Técnicas basadas en datos geolocalizados, geoposicionados y georre- ferenciados. La proliferación de nodos inalámbricos con capacidades de medida ha creado una avalancha de datos asociados a su posición geoes- pacial. La recogida, almacenamiento y minería de estos datos tiene sus propios desafíos y peculiaridades que no siempre se alinean con el en- foque habitual. Análisis de texto (como entender la polaridad o el sentimiento). La mi- nería de textos requiere comprender lenguaje natural, una tarea muy di- fícil para los computadores. Esta área de investigación incluye diferentes tópicos como el procesado del lenguaje natural, la representación de los textos, minería de asociación de palabras, clustering y categorización de textos, minería de opinión y análisis de sentimientos. 5) VISUALIZACIÓN. Por último, otro eje de investigación y desarrollo lo forma la visualización asociada a la economía del dato, como la ciencia de combinar las vi- sualizaciones interactivas con algoritmos de análisis para apoyar la exploración, el análisis y la presentación de grandes conjuntos de datos.

Made with FlippingBook - Online Brochure Maker