Tipos de datos en Big Data
La categorización de los datos es importante para cualquier proyecto, y en especial cuando vamos a trabajar con grandes volúmenes (Big Data).Dos de las categorizaciones más utilizadas en Big Data suelen ser las que relacionan la estructura de los datos y las que dependen del origen de los mismos:
Tipos de datos por categorías
Los tipos de datos se suelen organizar en 2 categorías principales:
- Estructurados:
- Creados: datos generados por nuestros sistemas de una manera predefinida (registros en tablas, ficheros XML asociados a un esquema).
- Provocados: datos creados de manera indirecta a partir de una acción previa (valoraciones de restaurantes, películas, empresas (Yelp, TripAdvisor, …).
- Dirigido por transacciones: datos que resultan al finalizar una acción previa de manera correcta (facturas autogeneradas al realizar una compra, recibo de un cajero automático al realizar una retirada de efectivo, …).
- Compilados: resúmenes de datos de empresa, servicios públicos de interés grupal. Entre ellos nos encontramos con el censo electoral, vehículos matriculados, viviendas públicas, …).
- Experimentales: datos generados como parte de pruebas o simulaciones que permitirán validar si existe una oportunidad de negocio.
- No estructurados:
- Capturados: datos creados a partir del comportamiento de un usuario (información biométrica de pulseras de movimiento, aplicaciones de seguimiento de actividades (carrera, ciclismo, natación, …), posición GPS).
- Generados por usuarios: datos que especifica un usuario (publicaciones en redes sociales, vídeos reproducidos en Youtube, búsquedas en Google, …).
- Multi-estructurados o híbridos:
- Datos de mercados emergentes.
- E-commerce.
- Datos meteorológicos.
Tipos de datos por origen
Aunque no existe un criterio único para categorizar los tipos de datos lo más extendido es dividirlos en 5 grupos:
- Web y Redes Sociales
- Información sobre clicks en vínculos y elementos.
- Búsquedas en Google.
- RRSS (fuentes de datos de Twitter, publicaciones en Facebook, otras RRSS).
- Contenido Web (páginas, imágenes, enlaces, etc.).
- Comunicación entre máquinas
- Lecturas RFID.
- Señales GPS.
- Otros sensores (parquímetros, máquinas expendedoras, cajeros, etc.).
- Transacciones
- Registros de comunicaciones (llamadas, mensajería, VoIP, etc.).
- Registros de facturación (pagos con tarjeta, pago online, etc.).
- Biométricos
- Reconocimiento facial.
- Información genética (ADN).
- Generados por personas
- Grabaciones a operadores de atención al cliente.
- E-mail.
- Registros médicos electrónicos.
Comentarios
Publicar un comentario