jueves
24 MarTipos de datos en proyectos de Big Data
Los datos que se han de procesar en todo proyecto de Big Data se pueden clasificar ateniéndonos a diferentes criterios. Una de las clasificaciones más extendidas es la propuesta por el gigante IBM:
Transacciones
Hace referencia a los datos que provienen de registros de llamadas, mensajería y facturas que una operadora de comunicaciones pueda registrar: telecomunicaciones, uso de tarjetas, tipos de pagos, etc.
Web
Hacen referencia a todos los datos que se generan a partir de la navegación por Internet, páginas web y redes sociales. Es una información realmente útil, que puede permitir a las empresas conocer las preferencias y gustos de los consumidores.
M2M
Esta clasificación engloba a todas aquellas tecnologías que se conectan a dispositivos (con sensores por ejemplo) para recoger grandes cantidades de datos. Este tipo de sensores pueden ser de diversas naturalezas y recoger todo tipo de datos: transportes, termómetros, riego automático, contadores eléctricos, bombas de agua, boyas marinas, etc, etc.
Biométricas
En esta sección incluimos la lectura de huella digitales, retina, reconocimiento facial, reconocimiento genético, de voz, etc. En definitiva, todos los datos que ayudan a reconocer de forma inequívoca a un individuo.
Seres Humanos
Nosotros como seres humanos también generamos información a diario con nuestro comportamiento: llamadas de teléfono, emails, notas de voz, mensajería con móviles y aplicaciones web, etc.
Pero no es la única forma que tenemos clasificar los datos en un proyecto de Big Data, también se puede hacer en base a su formato o estructura:
Datos Estructurados
Nos referimos a datos que están perfectamente ordenados según algún tipo de patrón, lo que permite su almacenamiento en tablas y su procesamiento rápido y eficaz.
Datos No Estructurados
Podrían ser la inmensa mayoría y hace referencia a los datos que no tienen una definición dada: longitud, formato, forma,… Son datos recogidos en su forma original, sin procesamiento. Estamos realmente rodeados de ellos en nuestro día a día: hojas de cálculo, imágenes, archivos de datos, grabaciones de audios, etc.
Datos Semi Estructurados
Son datos con una cierta organización previa, pero que no están perfectamente estructurados, por ejemplo ficheros en HTML (lenguaje de etiquetado para la construcción de páginas web).
Deja un comentario