Comunidad

19 de diciembre de 2018 | por: Comunicación EADIC | 0 comentarios

Las cinco V del Big Data

¿Que es el BIG DATA? Cada día en todo el mundo estamos creando cerca de 2,5 quintillones de bytes de información. Es mucha información procedente de distintas fuentes, que en la ultima década se ha puesto al alcance de las organizaciones para utilizarla.  En este momento esta información tiene 4 fuentes o características principales:

  • Información libre: nos encontramos fuentes libres de información, facilitadas por organizaciones, compañías o gobiernos que son accesibles de manera libre por un usuario o una compañía. Por ejemplo datos meteorológicos, socioeconómicos, servicios públicos…

 

  • Internet of the things: En pocas palabras, dispositivos conectados a Internet enviando información en tiempo real de su estado o de su entorno. Por ejemplo móviles, vehículos, contadores de paso de vehículos en un peaje…

 

  • Smart cities: Información relativa a los servicios públicos de las ciudades organizada de manera coordinada para toma de decisiones. Por ejemplo información de accidentes de trafico, obras en la vía, eventos masivos…

 

  • Redes sociales: Esta fuente de información en tiempo real de lo que esta aconteciendo esta siendo ya utilizada por numerosas organizaciones publicas y privadas para tomar decisiones que mejoren sus productos y servicios.

 

Precisamente si hay algo que logra el Big Data es facultar a las organizaciones a anticiparse confiando, para ello, en la información que tienen a su alcance, donde los datos son ya la base que genera realmente el conocimiento en las empresas. Convertir la información en conocimiento debe ser el propósito de cualquier estrategia de Big Data.

Hablamos de las dimensiones del Big Data o las llamadas V’s del Big Data y que definen cuáles son las características que delimitan a aquellos datos que pueden ser considerados macrodatos de otros. Estas 5 V serían: Volumen, Variedad, Velocidad, Veracidad y Valor, las 5 dimensiones del Big Data.

Big Data engloba estas dimensiones y algunas más que han añadido otros autores expertos como la variabilidad, visualización y verificación. Siendo la definición más extendida de Big Data “aquel conjunto de tecnologías y procesos que están permitiendo capturar y almacenar cantidades masivas de datos de diversos orígenes y tipologías.”

Comprendiendo estas 5 dimensiones, podemos entender la complejidad de los procesos asociados al tratamiento de esta información:

Volumen

El incremento exponencial de los datos fruto de las nuevas tecnologías y la facilidad de generar datos digitales es una realidad palpable. El volumen significa gran tamaño. Así en el año 2020 se esperan que en el mundo se almacenen 35 Zettabytes. Los datos crecen, habiendo pasado ya por la era del Petabyte y posteriormente Exabyte, hasta llegar a hoy. En Twitter, por ejemplo, sólo en un día se generan 9 Terabytes de datos.

Así, el volumen delimita el concepto de datos masivos no pudiéndose almacenar nunca estos en un simple ordenador, requiriendo tecnología específica para ello. Por lo tanto apunten: no se considera Big Data datos de clientes, proveedores, personal…

 

Velocidad

El flujo de datos es masivo y constante. En el entorno del Big Data, los datos se generan y almacenan a una velocidad sin precedentes. Este gran volumen provoca que los datos queden desfasados rápidamente y que pierdan su valor cuando aparecen otros nuevos.

Las empresas, por lo tanto, deben reaccionar muy rápido para poder recopilarlos, almacenarlos y procesarlos. El reto para el área de tecnología es almacenar y gestionar grandes cantidades de datos que se generan continuamente. El resto de áreas también deben trabajar a gran velocidad para convertir esos datos en información útil antes de que pierdan su valor.

 

Variedad

Si algo caracteriza al Big Data es las distintas tipologías formatos y estructuras de los datos procediendo de fuentes muy diversas. Así el éxito de una organización dependerá en gran medida de resaltar el conocimiento que le propician los distintos tipos de datos de los que dispone.

La clasificación más tradicional divide los datos en: estructurados, no estructurados y semi estructurados. Los primeros se almacenan en bases de datos relacionales donde su longitud, denominación y formato han sido predefinidos. Ejemplos: ERP, CRM… Los no estructurados, apuntan a no tener estructura alguna predefinida y lo encontramos en imágenes, vídeos, archivos logs, audios… Y los últimos, los semiestructurados señalan a documentos con lenguaje HTML, XML o SGML es decir: “no tienen estructura fija pero contienen etiquetas y otros marcadores que ayudan a su comprensión”.

 

Veracidad

Una de las características más difíciles de cumplir en los análisis de datos es la veracidad. Eliminar los datos tomados de manera incorrecta y detectar patrones reales es todo un reto del Big Data. Si anteriormente decíamos que se trataba de almacenar la totalidad de los datos disponibles, también hay que decir, que una vez almacenados, no todos tienen la misma validez. Las múltiples variables y situaciones en las que se han tomado los datos, pueden haber provocado cambios imprevisibles que modifiquen la información. Separar el trigo de la paja es una tarea imprescindible que nos permitirá obtener un resultado con mayores probabilidades de éxito.

 

Valor

Se refiere al valor agregado obtenido por las organizaciones, lo cual se traduce en la generación de productos y servicios personalizados, es decir, al final poder generar o que el cliente realmente desea o necesita. Para ello de todos los datos recopilados deberemos identificar cuáles de los mismos nos ayudaran de mejor manera a generar ese valor agregado.

En la mayoría de los casos, con el fin de utilizar eficazmente el Big Data, debe combinarse con datos estructurados (normalmente de una base de datos relacional) de una aplicación comercial más convencional, como un ERP (Enterprise Resource Planning) o un CRM (Customer Relationship Management).

 

Autor: Julián Lara, docente en el máster en Big Data y Business Intelligence de EADIC.

Comentarios

Deja tu comentario

You must be logged in to post a comment. So log in!

EADIC Blog