Departamento de Gobernanza, Administración Digital y Autogobierno

Big Data

Detalles

Objetivo de la plataforma

El objetivo de la solución alojada para el paraguas de Integración es suministrar una plataforma de análisis de información masiva.  

En esencia integración lleva muchos años utilizando tecnología bigdata en diferentes componentes. En concreto el core principal de ficheros es un filesystem distribuido implementado sobre hdfs. Por otro lado todas las consolas se basan en el uso de hbase como almacén y elasticsearch como motor de indexación.

Visto que la tecnología era de utilidad para la propia integración se planteó poder ofrecer la tecnología a los aplicativos departamentales. En concreto se ha comenzado con los datos de trazas de las aplicaciones y esta es la solución técnica que lo soporta.

Visión Funcional

La solución se basa en la separación del dato que nace en el cpd del dato que surge en el puesto del usuario.

La ingesta de datos se basa en el uso de una librería java que posibilita un total aislamiento al estar basada en el uso de futures de java.

A nivel de explotación existen interfaces web que posibilitan:

  • visión general: usuarios conectados en la última hora, errores, accesos web...
  • Datos online: trazas generadas en línea filtradas por usuario, servidor...
  • Búsquedas sobre los datos generados en el último mes. Actualmente sólo se retiene 1 mes y los datos se van borrando.
  • Estadísticas: informes agregados de forma horario/diaria sobre usuarios concurrentes, accesos...

Visión Técnica

A nivel externo la solución se compone de:

  • Una librería java que posibilita tanto almacenar datos generales como específicos de cada aplicación
  • Una interfaz web securizada mediante XLNets que ofrece acceso tanto a colecciones de datos privadas como públicas. Tanto los datos relativos a trazas de ficheros como los de servicios están accesibles actualmente mediante Bigdata.

A nivel interno la solución se basa en:

  • HBase para parte relativa al almacenamiento de los datos.
  • Elasticsearch para la indexación de los datos.
  • PIG para los procesos yarn de generación de estadísticas.

A título reseñable comentar que a 15 de abril de 2017:

  • se han superado los 2TB de información almacenados en 3 semanas.
  • Existen del orden de 10 soluciones/departamentos utilizando Bigdata.

Procedimiento

El uso de la solución dispone de la correspondiente normativa de desarrollo donde se puede encontrar:

  • Una breve visión funcional de la solución
  • Una guía orientada al uso de los componentes con ejemplos
Producto Versión Obsoleta Versión Actualizada Fabricante Alternativa libre
HDP (HortonWorks Data Pllatform) 2.3,2.4.2 Hortonworks
  • Versión 1 03-07-2017 (última versión)