Las herramientas de Big Data no solo se han convertido en las mejores aliadas para analizar qué ocurre en nuestra organización. Adelantarnos a los acontecimientos y detectar nuevas oportunidades de negocio. Sino que además están al alcance de cualquier empresa, independientemente de su tamaño o sector.
Con más de 7.000 millones de dispositivos móviles en el mundo, 25 billones de emails y 70 millones de tuits enviados en lo que llevamos de año. Es evidente el volumen de datos que hay manejar actualmente para extraer información útil para un propósito. Y esto, plantea un gran problema en cuanto a la capacidad de manejo y gestión. Pero Big Data no es solo hablar de volumen. Hay otros factores determinantes que (aquellos preocupados en redactar su definición) han llamado las V’s del Big Data: Velocidad, Variedad y Volumen, pero también Visualización, Variabilidad, Veracidad y Valor.
Cualquier persona responsable de una empresa imaginará las oportunidades que se abren al disponer de esta capacidad de alerta temprana, de descubrir sectores de clientes que no conocíamos y que permiten abrir nuevos mercados, y de optimizar los procesos para minimizar costes y aumentar la eficiencia. Instrumentar nuestros sistemas con mecanismos de Big Data permiten automatizar estos procesos para ayudar a las decisiones en tiempo real.
Las tecnologías subyacentes y las etapas de tratamiento de información son muy similares, y consisten básicamente en las siguientes fases:
Fases del Big Data
- Gestión de las infraestructuras y mantenimiento de redes, servidores, discos, etc.
- Recolección y almacenamiento de datos estructurados (bases de datos relacionales, tablas…), semiestructurados (HTML, JSON, XML…) o no estructurados (emails, PDF, imágenes, videos, sonido…), para su análisis posterior.
- Limpieza, transformación e integración de los datos. En esta etapa se busca automatizar el proceso de interpretación de los datos. Extrayendo las características relevantes de un gran volumen de información, eliminando duplicados, enriqueciendo con otras fuentes, etc.
- Análisis automático o manual empleando cuadros de mando, visualización de gráficas, etc.
- Análisis predictivo, detección temprana de alertas, interpretación (desde un conocimiento experto de un sector concreto) de las conclusiones del análisis anterior.
- Opcionalmente, se pueden proporcionar conclusiones mediante una API (u otra interfaz) que permita a otros sistemas subscribirse a estas alertas y realizar tareas concretas más específicas de forma automática.
Es importante saber que no es necesario abarcar la tarea de implementar Big Data desde el principio en toda su magnitud. Existen soluciones con las que podemos obtener beneficios muy relevantes sin tener que manejar cada una de las etapas. O incluso sin “tener ni idea” de cómo funciona un entorno Big Data. Es en este escenario donde las empresas de consultoría de software. Y otros profesionales del sector se convierten en el aliado perfecto que evitará que te ahogues en este “mar de datos”.
Tecnologías y procesos del Big Data
Existen diferentes conjuntos de tecnologías implicados en los procesos de Big Data, en función de la etapa y la perspectiva en que lo abordemos. Si hacemos una clasificación de las tecnologías por el nivel de abstracción que plantean, lo podríamos observar del siguiente modo.
- IaaS (Infraestructura como servicio): Es el menor grado de abstracción, donde disponemos de proveedores que ponen en nuestras manos la gestión de las infraestructuras. Elementos tales como servidores Cloud escalables horizontalmente, almacenamiento preparado para trabajar con petabytes, mecanismos de seguridad, administración de redes… El enfoque IaaS permite construir sobre él soluciones a medida, precisas y optimizadas, pero exige un nivel de conocimiento completo.
- PaaS (Plataforma como servicio): Desde un nivel de abstracción intermedio, podríamos obviar todo lo anterior (infraestructura, etc.). Y utilizar directamente los mecanismos de almacenamiento que habilitan los procesos ulteriores. Este es el punto desde el que habitualmente suele iniciarse esta aventura, y las aplicaciones implicadas son bien conocidas. Por ejemplo: Hadoop, NoSQL DBs (mongoDB, CouchDB, H-Base) y servicios de recolección de datos (python, NodeJS, Apache, Nginx, etc.).
- SaaS (Software como servicio): El mayor nivel de abstracción se alcanza si decidimos trabajar directamente en servicios de análisis, predicción y visualización de los datos, independientemente de la infraestructura y aplicaciones en las que puedan apoyarse. Cuando decidimos empezar en este punto, dejamos en manos de quien haya implementado el software oportuno las tareas de limpieza, transformación e integración de datos, el análisis posterior y la generación de predicciones. También son bien conocidas algunas de estas herramientas, especialmente los cuadros de mando que permiten el análisis visual (Tableau, CartoDB…).
Clasificación del Big Data
- Técnicos: El departamento técnico será responsable de gestionar la compleja infraestructura que soporta el sistema, así como de mantener en buen “estado de salud” las aplicaciones que se ejecutan sobre él (servidores, APIs, bases de datos, etc.)
- Responsables de Marketing y Desarrollo de negocio: Los responsables estratégicos de la empresa son quienes deben determinar cuáles son los aspectos claves de su sector concreto. Son quienes plantean las preguntas que, de resolverse con un análisis Big Data, permiten tomar mejores decisiones. Aquí no hay ninguna magia, quien se plantee mejor las preguntas obtendrá respuestas más valiosas que marcarán una diferencia competitiva. Igualmente, tendrán que analizar el resultado de las respuestas cuando dispongan de los resultados.
- Científicos de datos: La tarea consiste en implementar los procesos de recolección de datos (registrar visitas, comportamiento de los usuarios, analizar comentarios, etc.), limpiarlos y procesarlos, y volcarlos adecuadamente en cuadros de mando u otros mecanismos que permitan su análisis. Lo cierto es que este papel no lo está cubriendo habitualmente un solo individuo, sino un equipo de personas que colaboran estrechamente, en el que entre todas disponen del conocimiento necesario.
Algunos, o la mayor parte de estos servicios, pueden subcontratar a empresas o equipos externos. Sin embargo, desde su definición hasta el análisis de los resultados. Siempre será imprescindible la participación de una o varias personas que conozcan no solo el sector, sino también los entresijos de su propia empresa, ya que una misma pregunta o respuesta no es siempre igual de óptima en todos los casos.
¿Dónde puede resultar útil?
Vemos que el grado de dificultad que plantea la implementación de una solución Big Data es tan baja o tan alta como cada cual, quiera plantearse. Puede abarcar desde la preparación y construcción del sistema completo, hasta la subcontratación del análisis y desarrollo de la mayor parte del sistema.
Sea cual fuere el caso, numerosos sectores están utilizando Big Data para desarrollar una ventaja competitiva. Como hasta ahora nunca han tenido a su disposición las empresas. Veamos algunos ejemplos:
Sector público:
- Predecir situaciones de desorden público antes de que ocurran, analizando automáticamente las cámaras de videovigilancia, conteo de personas, análisis de contenidos en las redes sociales…
- Gestión del tráfico, detección de anomalías en las carreteras y otras vías.
- Detección de fraude tributario, detección en tiempo real de transacciones sospechosas, fraude en Seguridad Social mediante el análisis del rastro digital.
- Control de epidemias y gestión hospitalaria optimizada (basado en análisis predictivo).
Ámbito financiero:
- Detección de fraude, análisis de las relaciones entre las transacciones para detectar blanqueo de capitales, identidades falsas, etc.
- Prevención del abandono de clientes.
- Optimización de las campañas de captación.
- Venta cruzada.
Sector retail:
- Identificar la influencia, opinión pública e imagen de marca.
- Perfilado de clientes (reconocimiento facial o patrones conductuales).
- Gestión de cajas.
- Mapa de calor de los compradores frente a productos o lineales para incrementar ventas, establecer promociones, etc.
- Etc.
El tremendo impacto que un buen sistema Big Data está teniendo en todos los sectores es real y tangible, y está al alcance de todos. Relacionado con nuestro artículo: La revolución de la inteligencia artificial desde el Big Data. Por supuesto, plantea problemas que aún deben ser resueltos y adquirir la formación (o el personal) para construirlo adecuadamente es complicado a día de hoy. Pero el mayor problema no es la tecnología. Es necesario un cambio ideológico de cada empresa. A nivel orgánico, que tiene en sus manos apostar por este tipo de innovación para ponerse a la vanguardia y garantizar un futuro de crecimiento.
Manuel Joaquín García Sánchez
Director de I+D+i en solusoft