Cerrar panel

Cerrar panel

Cerrar panel

Cerrar panel

Big Data Act. 22 feb 2018

Recopilación, almacenamiento, procesamiento y visualización de datos en #Dare2Data

fintech icon bbva

BBVA Innovation Center se ha convertido en la “casa” de desarrolladores, emprendedores digitales, especialistas en visualización, data scientist… En la InnovaChallenge Data Week hemos podido aprender desde la recopilación y el almacenamiento de datos, hasta su procesamiento y su visualización. Todo Big Data en una jornada.

Los datos nos ayudan a tomar mejores decisiones. Este ha sido uno de los mantras que más se ha escuchado en el evento Dare2Data celebrado en el Centro de Innovación BBVA con motivo de la InnovaChallenge Data Week. Una jornada intensa en la que Big Data ha sido el verdadero protagonista para poder terminar el día “con nuevas ideas y nuevas formas de ver el mundo”.

BBVA abre sus datos de forma permanente

De hecho, la mañana ha empezado con una gran noticia, Elena Alfaro, CEO de BBVA Data & Analytics, ha afirmado tras la apertura de las APIs del banco para algunos concursos como InnovaChallenge, en las próximas semanas “este ejercicio de apertura va a ser permanente y para toda España”.

Alfaro ha recordado que hace cinco años plantearon en el Grupo “una idea loca: abrir los datos” y el resultado después de estos años ha sido muy bueno. “Se ha demostrado que muchas personas son capaces de trasladar una idea a una aplicación y hemos conseguido talento al entrar en contacto con personas especiales que nos ayudan a transformar estas ideas en servicios”.

En este sentido, durante la intervención de Marcelo Soria, New Data Products & Data Stories de BBVA Data & Analytics, ha instando a “sumarse a la innovación disruptiva” porque, en su opinión, “vivimos en un mundo donde lo digital puede acabar con tu negocio”. Por ello es necesaria una transformación para adaptarse a este nuevo mundo que está interconectado, ya que “las nuevas cadenas de valor son las de los datos, porque son los que no van a permitir ganar en eficiencia”.

Soria ha explicado que, en la actualidad, “prácticamente todo lo que hacemos genera datos, pero no están libres, sino que están metidos en silos y desconectados, por lo que no sirven para dar valor”. Ante esto, se ha preguntado: “¿qué podemos hacer para crear interconexiones y generar un nuevo valor a partir de los datos?”. Esta pregunta es uno de los motivos por los que BBVA empezó a realizar visualizaciones de estos datos para ayudar a entender y describir la realidad.

Y prueba de ellos es la visualización que se realizó en 2011 sobre la actividad en Semana Santa, con todos los datos en tiempo real: como se llenan las carreteras en hora punta (amarillo), como en la hora de la cena los restaurantes (rojo) se llena mientras que se anula la actividad en los comercios (azul y rosa) durante los días festivos…

Para concluir, Soria ha destacado la importancia del conocimiento que se puede adquirir de los clientes de un negocio a través del procesamiento y del análisis de los datos. A su juicio, clave para saber qué herramientas aportarán más inteligencia para poder mejorar la eficiencia y la competitividad de un comercio concreto.

El cliente en el centro

En este mismo sentido, se han pronunciado en sus intervenciones tanto Óscar Méndez, CEO de Stratio, como Ron Raffesperger, CTO Data Center Solutions en Huawei, quienes han destacado la importancia de elaborar la estrategia de Big Data pensando en el cliente en toda su extensión.

En este sentido, ambos en sus ponencias han coincidido en que para sacar rentabilidad a la tecnología Big Data debe enfocarse en tu cliente, en obtener toda la información de él, porque este conocimiento es el que permitirá aportar el valor necesario a los datos que se extraigan.

Y en la parte más técnica, tanto Méndez como Raffesperger han recomendado utilizar Spark para el procesamiento de datos (código abierto) junto con bases de datos NoSQL. Este cluster “se adapta muy bien a los algoritmos de aprendizaje automático”, una de las piezas claves para aprovechar el valor que se obtiene de los datos.

Los modelos predictivos con aprendizaje automático

El análisis predictivo de la jornada ha llegado de la mano de BigML y su vicepresidente en Data Science, David Gerster, quien ha tratado de dar respuesta a la pregunta ¿qué significa realmente el modelo predictivo?

Para ello, Gerster ha mostrado con una sencilla práctica sobre las especies de las flores cómo encontrar patrones significativos en los datos, porque estos son fundamentales para aprovechar el valor del modelo predictivo, porque tres de cada cuatro predicciones son correctas, es decir, cuentan con una precisión del 75%.

En su intervención, Gerster ha dado las tres claves de este modelo predictivo:

1. Proporciona un conocimiento profundo de sus datos

2. Busca el pequeño subconjunto de variables que son importantes para la predicción.

3. El resultado resulta extremadamente útil para los negocios, para el proceso de tema de decisiones.

En este sentido, Francisco González, responsable de Desarrollo de Producto en Madiva, en su intervención, ha destacado que los datos por si solos no pueden ayudarnos, “hay que crear productos basados en ellos que sean capaces de plantear preguntas difíciles”.

Estas preguntas suelen requerir un “conocimiento funcional cruzado”, que González apuesta por aplicar tanto interna como externamente. En tu compañía debes crear equipos multidisciplinares, porque un matemático verá los datos de forma diferente a un ingeniero, por ejemplo, y esto se debe extrapolar a la hora de buscar las colaboraciones entre las empresas para fortalecer un producto.

La ciberseguridad y el cibercrimen

Por otra parte, en esta jornada también se ha abordado el auge de la ciberseguridad. Chema Alonso y Pedro Pablo Pérez, de Telefónica, han destacado que para luchar contra el cibercrimen “la información que se recopila no es suficiente”, ya que lo importantes es la “inteligencia” que se aplica en su procesamiento y análisis. “Tenemos que convertir toda esa información en inteligencia, ya sean datos estructurados o no estructurados”.

En este sentido, han explicado su proceso para detectar actitudes irregulares. Se buscan anomalías generando filtros de detección automática y se generar alertas para dichas anomalías, como las apps que “prometen magia” o las que dicen que son un juego pero en realidad apenas pesan nada… Una vez se detecta una anomalía y se considera algo malicioso, los analistas de datos investigan las similitudes para conectar esta app maliciosa con otros registros, mediante combinaciones de datos y  patrones singulares.

Google y CartoDB

Sebastien Agnan, Solution Engineer Google, y Jon Lorenzo, Head of Cloud Platform Iberia, ha destacado la cantidad de datos que se manejan en su empresa y han mostrado la plataforma Cloud para señalar que el trabajo de Big Data es “fácil, barato y rápido” con esta herramienta, “tanto en la captura de datos, como en el almacenamiento, el procesamiento y el análisis de los mismos”, gracias a BigQuery, con la posibilidad de recoger datos en tiempo real en todo tipo de dispositivos (móviles, wearables, sensores…) para poder analizarlos.

Y la visualización de todos estos datos ha llegado de la mano de CartoDB con la intervención de Paul Ramsey. ¿Cuándo? ¿Dónde? Son las preguntas a las que intenta responder esta compañía en algunas de sus visualizaciones, como la del metro de Los Ángeles o las reacciones a un nuevo disco de Beyonce, las menciones de la palabra sonrisa en diferentes idiomas en Twitter, o los homicidios en NYC.

De la Física a la Industria

Por último, en esta jornada, Matthias Braeger, ingeniero de software CERN, ha explicado cómo procesan y monitorizan todos los datos que se generan en esta organización europea.

El Gran Colisionador de Hadrones (LHC en sus siglas en inglés), la máquina más grande del mundo, generó solo en 2012 hasta 30 petabytes y en total ya son más de 100 petabytes de datos. Esto supone un gran volumen de datos, pero el ingeniero ha destacado que el principal reto no es procesarlos todos, sino el análisis y monitorización de estos datos de tan pequeñas dimensiones.

Una intensa jornada en la que se han podido analizar todos los puntos de vista en torno a los datos: desde su recopilación, almacenamiento, procesamiento y visualización. Si quieres volver a ver el evento completo no te pierdas su redifusión:

Otras historias interesantes