El otro día me hicieron una petición en el vídeo que tengo en YouTube sobre Apache Spark. Explicar que es el BigData.
Voy a intentar explicarlo como si se lo contase a mi madre. Es decir de forma muy didáctica.
Porque surgió
Las aplicaciones y las herramientas que existían en el mercado estaban orientadas a tamaños de empresas, mas o menos grandes. Por ejemplo se podía tener una base de datos con todos sus clientes. Eso son cientos, miles quizá millones de personas.
Pero con la llegada de Internet las empresas como Google, FaceBook, etc empezaron a necesitar manejar volúmenes mas grandes, cientos de millones de clientes.
Y simplemente las herramientas que había no aguantaban tanto volumen, así que se tuvieron que crear herramientas nuevas.
Que ha supuesto esto
En el momento que se crean herramientas que pueden manejar volúmenes inmensos de información las organizaciones pueden empezar a almacenar datos que antes no podían. Y sobre todo pueden procesarlas.
Esto hace que con el BigData se puedan responder a preguntas que antes no se podían responder, porque no se podía almacenar ni procesar esos volúmenes de datos.
Necesito un BigData
Hoy día parece que si no tienes un BigData no eres nadie en este mundo, pero eso no es cierto. Los sistemas tradicionales aguantan bastante carga y no es tan fácil llevarlos al límite para una organización pequeña o mediana.
Si tienes un problema y lo puedes solucionar con una herramienta tradicional, no uses un BigData. Te va a salir mucho mas caro.
El BigData es un producto
Se habla mucho del BigData y puede parecer que es un producto que instalas y ya está, pero nada mas lejos de la realidad. Hay multitud de productos que encajan en la denominación de BigData, incluso muchos son equivalentes.
Cuando usar un BigData
Normalmente se habla de usar soluciones de BigData cuando tienes una o varias de las 3 V, que son Velocidad, Variedad o Volumen.
Es decir, por ejemplo tienes un volumen gigantesco de datos, o tienes una necesidad de velocidad de proceso de los datos muy alta o bien tienes una variedad de datos muy alta.