Tipos de datos en Big Data

La categorización de los datos es importante para cualquier proyecto, y en especial cuando vamos a trabajar con grandes volúmenes (Big Data).Dos de las categorizaciones más utilizadas en Big Data suelen ser las que relacionan la estructura de los datos y las que dependen del origen de los mismos:

Tipos de datos por categorías

Los tipos de datos se suelen organizar en 2 categorías principales:
  • Estructurados:
    • Creados: datos generados por nuestros sistemas de una manera predefinida (registros en tablas, ficheros XML asociados a un esquema).
    • Provocados: datos creados de manera indirecta a partir de una acción previa (valoraciones de restaurantes, películas, empresas (Yelp, TripAdvisor, …).
    • Dirigido por transacciones: datos que resultan al finalizar una acción previa de manera correcta (facturas autogeneradas al realizar una compra, recibo de un cajero automático al realizar una retirada de efectivo, …).
    • Compilados: resúmenes de datos de empresa, servicios públicos de interés grupal. Entre ellos nos encontramos con el censo electoral, vehículos matriculados, viviendas públicas, …).
    • Experimentales: datos generados como parte de pruebas o simulaciones que permitirán validar si existe una oportunidad de negocio.
  • No estructurados:
    • Capturados: datos creados a partir del comportamiento de un usuario (información biométrica de pulseras de movimiento, aplicaciones de seguimiento de actividades (carrera, ciclismo, natación, …), posición GPS).
    • Generados por usuarios: datos que especifica un usuario (publicaciones en redes sociales, vídeos reproducidos en Youtube, búsquedas en Google, …).
  • Multi-estructurados o híbridos:
    • Datos de mercados emergentes.
    • E-commerce.
    • Datos meteorológicos.

Tipos de datos por origen

Aunque no existe un criterio único para categorizar los tipos de datos lo más extendido es dividirlos en 5 grupos:
  • Web y Redes Sociales
    • Información sobre clicks en vínculos y elementos.
    • Búsquedas en Google.
    • RRSS (fuentes de datos de Twitter, publicaciones en Facebook, otras RRSS).
    • Contenido Web (páginas, imágenes, enlaces, etc.).
  • Comunicación entre máquinas
    • Lecturas RFID.
    • Señales GPS.
    • Otros sensores (parquímetros, máquinas expendedoras, cajeros, etc.).
  • Transacciones
    • Registros de comunicaciones (llamadas, mensajería, VoIP, etc.).
    • Registros de facturación (pagos con tarjeta, pago online, etc.).
  • Biométricos
    • Reconocimiento facial.
    • Información genética (ADN).
  • Generados por personas
    • Grabaciones a operadores de atención al cliente.
    • E-mail.
    • Registros médicos electrónicos.

Comentarios