¿Qué es Big Data? Las cuatro claves para entender por qué es útil.

por | Ene 31, 2019 | Opinión

El Big Data es una de las tendencias tecnológicas que más relevancia tienen en la actualidad. Te contamos cuatro claves para entender por qué.

Lo citamos como una de las tendencias tecnológicas que inundarán el 2019, pero existe cierto misterio acerca de la utilidad de este término. ¿Qué es el Big Data, y por qué es importante?

¿Qué es el Big Data?

Definamos el Big Data de una manera sencilla.

El Big Data son sets de datos tan grandes y complejos que resulta entre difícil e imposible procesarlos empleando aplicaciones tradicionales de administración de bases de datos.

En definitiva, el término Big Data, se refiere a conjuntos de datos realmente “Big”, es decir muy grandes. Aunque la definición de qué es grande puede variar entre las distintas organizaciones. Una pequeña empresa que pase de 1 Gb de datos al día a 100 Gb, puede que vea necesario buscar nuevas técnicas para sacar partidos a sus datos.  Otras empresas como UPS, por ejemplo, que genera Terabytes de datos al día, puede que no se ponga a explorar nuevas técnicas hasta llegar a cantidades ingentes de datos.

Porque vivimos en un mundo en el que se genera una cantidad ingente de datos. Según Gartner, el 90% de los datos de la historia de la humanidad ha sido generado en los últimos 2 años. Y el 80% de ellos, desestructurados.

Surge entonces, una necesidad de tratar los datos para obtener información y poder tomar decisiones informadas con mayor facilidad.

¿Para qué sirve el Big Data?

Como comentamos, la cantidad tan grande de datos nos permite obtener conclusiones y monetizar los datos, emplearlos en un análisis a gran escala y poder detectar tendencias, parámetros comunes y utilidades. Hay cuatro dimensiones en las que el Big Data es útil: Volumen, velocidad, variedad y veracidad.

Volumen:

Las empresas están inundadas con data de todos los tipos en volúmenes que no paran de crecer. El tamaño total de los datos supera los terabytes fácilmente, y se vuelve necesario encontrar aplicaciones para este volumen. Posibles aplicaciones son:

  • Convertir los 10 terabytes de tweets que se crean cada día en medidores de sentimiento del producto, de manera similar a lo que realizan en Senseitrade.
  • Analizar los patrones de envíos de los 12 millones de paquetes diarios, como manera de obtener la mayor optimización posible de los vuelos.
  • Analizar en tiempo real la información del mercado para detectar nuevas oportunidades.

Velocidad:

A veces, no es cuestión de la cantidad de datos que sea necesario tratar, si no más bien de la velocidad a la que deben ser procesados. Una compañía puede que necesite procesar cantidades muy grandes de datos de un día para otro, que no pueden ser analizadas con técnicas tradicionales, como por ejemplo, realizar un análisis de todas las operaciones de tarjetas de débito de una entidad ejecutadas cada día con la intención de detectar fraudes, o analizar las miles de llamadas que recibe un call center para predecir la tasa de “churn” de clientes de manera efectiva y poder ajustar.

Veracidad:

Muchas veces, el problema reside en el flujo constante de datos y la velocidad a la que estos llegan. A menudo, los datos se mueven entre aplicaciones demasiado rápido para ser procesados, y cuando los segundos son importantes para obtener conclusiones y actuar en consecuencia, por ejemplo en el seguimiento de la audiencia de una compañía de TV.

Variedad:

El Big Data se puede (y se emplea) para una cantidad muy variada de aplicaciones. Los datos pueden tener cualquier tipo de formato, incluyendo datos estructurados, pero también datos no estructurados como por ejemplo textos, datos de sensores, imágenes, vídeos….

Eso posibilita que existan múltiples alternativas y casos de uso para el Big Data a través de todas las industrias, desde empresas de vigilancia de vídeo a bancos.

En la actualidad, se habla de más de las 4 Vs iniciales del Big Data, llegando a ser incluso 10 las consideradas, según algunos expertos. Pero si tuviéramos que citar a dos de las mismas que son muy relevantes actualmente serían el Valor del dato (Buscar la manera de obtener valor a través de los datos) y Visualización del dato (Buscar la manera de representar los datos de manera gráfica).

Puedes leer más acerca de las 10 Vs en la siguiente entrada:

https://tdwi.org/articles/2017/02/08/10-vs-of-big-data.aspx

Big Data y Machine Learning.

Al hablar de Big Data, es imposible no hablar de Machine Learning, ya que ambas van de la mano para mejorar el procesado de datos. Machine Learning (Aprendizaje automático) se aprovecha de las ingentes cantidades de datos disponibles (y de la capacidad del Hardware actual para procesarlos) para obtener predicciones estadísticas cada vez más fiables, con lo cual se crea un proceso iterativo que se retroalimenta para mejorar cada vez los resultados obtenidos.

Según el tipo de tarea y la cantidad de datos de los que precisamos se pueden utilizar diferentes tipos de algoritmos como pueden ser los árboles de decisión, las mixturas de gaussianas o las redes neuronales entre muchos otros. Ambos términos sirven para denotar a la rama de la ciencia de la información, que busca encontrar una utilidad a la cantidad de datos tan grande que se genera.

El Machine learning se aprovecha de esta cantidad de datos tan grande para fomentar los algoritmos de autoaprendizaje y mejorar los resultados y predicciones obtenidos, que previsiblemente mejoren los resultados de las empresas o permitan tomar mejores decisiones. Por lo tanto, este año 2019 veremos que estos términos estarán constantemente en boca de todas las grandes (y no tan grandes) compañías.

En resumen…

Por lo tanto, vemos que el Big Data puede tener (y tiene) muchas aplicaciones en el mundo real. En futuras entradas profundizaremos en aspectos más técnicos del mismo, pero los principios fundamentales son necesario conocerlos para saber para qué es útil.