Comunidad

02 de diciembre de 2016 | por: Equipo Comunicación | 0 comentarios

Arquitectura de sistemas, los cimientos sobre los que se apoya el Big Data

Actualmente, las empresas basan sus proyectos Big Data en la Arquitectura de Sistemas Lambda, ya que les permite un procesamiento continuo de los datos en tiempo real, sin el retraso tradicional de la operativa transaccional (OLTP) y las implementaciones de análisis de datos (OLAP).

En las arquitecturas tradicionales, las bases de datos OLTP estas orientadas a transacciones para su posterior ETL, en cambio, las bases de datos OLAP están orientadas al procesamiento analítico, con un gran volumen de lecturas.

Dado que una gran cantidad de empresas de todos los sectores, (banca, retail, aseguradoras… etc) han comenzado su andadura en el mundo Big Data, va a ser muy importante la Arquitectura de Sistemas y la elección e integración de las diferentes herramientas disponibles en el mercado.

La mayor parte de estas herramientas son open source, permitiendo una reducción en los gastos de puesta en produccion, si lo comparamos con las actuales bases de datos relacionales de Oracle (Hexadata o Teradata).

Arquitectura de sistemas

A la hora de elegir un proyecto o caso de uso, este debe de cumplir 3 premisas:

– Poca complejidad en su realización.

– Con un gran valor de negocio.

– Con un periodo de tiempo corto y razonable en su desarrollo.

Y dentro de la Arquitectura de Sistemas tendremos que decidir que tipo usar, en función del tipo de fuente y del tipo de procesamiento requerido:

–      Batch processing.

–      Streaming processing.

–      Lambda, que provee parte de la solución batch y de la parte streaming.

Si nos centramos en la Arquitectura de Sistemas Lambda , esta se basa, en el envío de datos por dos caminos:

–      una capa de procesamiento por lotes (All Data):

  • Almacena en HDFS el dataset maestro, que es inmutable y en constante crecimiento.
  • Posteriormente se crean vistas desde este dataset vía MapReduce (Hive, Pig,…).
  • Esta computación es planificad,y conforme llegan nuevos datos, se agregan a las vistas en la siguiente iteración. Cada generación puede llevar horas.

–      una capa de velocidad (Stream Processing):

  • Esta capa sirve para compensar la alta latencia de la Capa Batch, generando vistas en tiempo real.
  • Esta Vista en Tiempo Real contiene sólo los resultados delta que se añaden a las Vistas Batch.
  • Esta Capa usa un modelo donde las vistas son incrementales.

Autor: Roberto Sancho, profesor del Máster en Big Data y Business Intelligence

Máster en Big Data y Business Intelligence

Comentarios

Deja tu comentario

You must be logged in to post a comment. So log in!

EADIC Blog