A mediados de la década de 1990, surgió el término Big Data para describir la gran cantidad de datos generados y recopilados mediante ordenadores. Aunque los orígenes exactos del término son discutibles y poco relevantes en este contexto, desde 2003, Big Data se ha convertido en un término común en la ciencia de datos, y gradualmente ha encontrado su lugar en la estadística–y en el estudio del consumo.
La mayoría de las definiciones de Big Data hacen referencia a un artículo del año 2001, escrito por Doug Laney para la empresa Gartner y que ya no se encuentra publicado (Diebold, 2012). En él, se refería a los tres componentes del Big Data, a menudo conocido como las “tres Vs”: volumen, velocidad y variedad.
- Volumen: los Big Data hacen referencia a cantidades masivas de datos, millones y millones de puntos de datos prácticamente imposibles de analizar de uno en uno. Por ejemplo, una empresa de comercio electrónico puede generar terabytes de datos cada día a partir de las transacciones de sus clientes, datos de inventario, registros de clics, datos de redes sociales y mucho más.
- Velocidad: los datos del Big Data se producen a una velocidad difícil de asimilar, pero también cambian constantemente, creando y rompiendo conexiones entre sí. Por ejemplo, un solo usuario puede generar miles de tweets, y cada tweet puede contener una gran cantidad de información, como el texto del tweet, la hora en que se publicó, la ubicación del usuario que lo publicó y los hashtags utilizados.
- Variedad: los Big Data no vienen de una sola fuente, sino de muchas, y tienen multitud de formatos: imágenes, textos, vídeos, audios, datos de sensores, registros de transacciones, etc. Por ejemplo, una empresa de fabricación puede generar datos de sensores de sus máquinas, datos de producción de sus sistemas de gestión de inventario, datos de ventas de su sistema de planificación de recursos empresariales y datos de redes sociales de sus clientes.