Desgranando el Data Science y el Big Data con Alfonso D Blázquez

Aurora
Aurora
Alfonso D Blázquez - qué es data science y big data - ID Bootcamps

El Data Science es una materia muy amplia que aglutina diferentes áreas y disciplinas, entre ellas, se encuentra el Big Data o el Machine Learning. 

Para resolver estas dudas, invitamos a Alfonso D Blázquez a nuestro canal de Twitch para que nos hablase de ello. Si quieres, puedes ver la entrevista completa a continuación en nuestro canal de YouTube, pero, a continuación te damos por escrito unas pinceladas de cómo fue.

Me he preparado que eres un entusiasta de las matemáticas y de los datos, estudiaste matemáticas, eres Data Scientist desde hace ya un tiempo, eres consultor también has hecho proyectos y también has trabajado del lado del cliente y además difundes mucho sobre Data en redes sociales tienes un podcast, bueno en redes sociales te pueden encontrar como Alfonso D Blázquez o The Data Warlock que es la marca de tuya, y el podcast que es Hablando de Todo y de Data que lo pueden encontrar en Spotify y en alguna plataforma más como Ivoox, Apple Podcast, en Google Podcast y en todas las que has podido en todos los sitios y gratis.

Pues nada, te hemos invitado aquí a nuestra casita de ID Bootcamps hablar un poquito de Data (…) iba a empezar a contextualizar lo primero sobre Data Science, porque se habla mucho de datos, se habla mucho de Big Data, se dice que los datos son el petróleo del siglo XXI, pero ¿qué es esto de la Ciencia de Datos y de datos y el Data Science?

Qué son los datos, es que es una buena pregunta, es una buena pregunta al final el contexto es mucho más amplio, el Data Science es un sector completo como se puede hablar de marketing, tú dentro de marketing no dices “yo hago marketing”, hay gente que sí, pero normalmente cuando te metes en una empresa entras en un departamento. 

A lo mejor lo dices en en global, pero luego profundizas dentro del marketing y dices qué haces, ah pues yo hago campañas de publicidad en Facebook Ads, yo hago email marketing, yo hago SEO, yo hago branding, hago diseño estratégico, lo que sea, hay muchísima ramas y eso como que ya lo tenemos más estructurado nuestra cabeza y no nos choca tanto. 

Pues el Data Science es igual. El data Science no es voy a hacer cosas, que al final si empiezas en una empresa pequeñita vas a tener a una persona que le toque hacer un poco de todo, pues como una startup, ¿no? tienes un departamento de marketing y solo tienes una persona, pues lamentándolo mucho seguramente tenga que hacer muchas cositas. 

Te vas a tener que pelear con uñas y dientes. 

Qué te voy a decir, ¿no? que al final lo conoces de primera mano, pero lo ideal en la Ciencia de Datos es que lo entiendas como un departamento más de TI donde se ayuda a tomar decisiones estratégicas en el negocio basándonos en datos. Es decir, utilizamos la información que genera el negocio, nuestros clientes, nuestros productos, etcétera, para mejorar las decisiones de nuestro negocio eso es un poco el resumen. 

Luego tenemos, Big Data, ¿qué es Big Data? Es como la típica pregunta, ¿no?, ¿es lo mismo Big Data que Data Science?, ¿es lo mismo Machine Learning que Data Science? 

Es que preguntan y mezclan todo, al final son conceptos diferentes. A mí con el Big Data yo tengo un dolor de cabeza fuerte porque ahora todo lo que son modelos predictivos es Big Data, tengo lo de Nadal, por ejemplo, cuando fue lo del tema este de Australia que le daban que ganaba y perdió, ahora, el Big Data fatal. Ahora la DGT, que ha sacado un anuncio que hace poco he visto que es «hagamos que se equivoque el Big Data» y es en plan, ¿cómo que se va a equivocar el Big Data? 

La cosa es que el Big Data hace referencia a procesar un gran volumen de datos, es decir, tú tienes transacciones bancarias, si tienes que registrar todas las transferencias, Bizzum y demás, que se hacen entre los bancos, igual se te va un poco la olla, tienes que imaginarte la cantidad de transacciones que hay diariamente. 

Entonces, eso es el Big Data, y eso no se puede recoger en tu ordenador local con 8 Gigas de RAM, como no tira, vas a necesitar una estructura predefinida, unas herramientas concretas y vas a trabajar de una manera concreta por ese volumen de datos que es el Big Data, pero no es más, es decir, tú puedes hacer Data Science sin tener que hacer Big Data, de hecho, yo animo mucho sobre todo empresas que están empezando a clientes pequeños a que aprovechen el Small Data que tienen porque pueden sacar mucho más valor que querer acaparar o intentar abarcar todo. Además de luego llegar a un punto en el que no aprovechas nada, mira tengo cinco millones de registros y, ¿qué haces con ello? 

Eso te iba a  decir yo, ¿puedes poner algunos ejemplos? porque es verdad que estamos hablando como de muchos departamentos, ¿no? de empresas, ¿cómo sería o qué ejemplos hay de un proyecto que llevase Big Data o de estos Small Data que estás hablando? 

Mira como ejemplo pongo el de una empresa de análisis clínicos, que además tengo reciente porque es un proyecto en el que lo que buscaban era que la persona que necesita un segundo diagnóstico, se evitase. Es decir, muchas veces hacen una prueba que da un valor raro, y puede ser que esté mal o puede ser simplemente que haya fallado la prueba y lo tengan que repetir, pero, ¿en qué momentos podemos asegurar que todo está bien y simplemente ha habido un valor anormal?

Querían eso, claro, ellos tienen una base de datos de pacientes que se van a hacer pruebas enorme, pero no te valen todos los pacientes. Entonces tienes un Big Data, tienes muchísimos datos, tienes que bucear en ellos, pero, accionable para lo que querían hacer realmente necesitaban pacientes que compartan una serie de pruebas tener información de esas pruebas y ver si en base a parámetros de unas pruebas puedes evitarte un segundo diagnóstico de otra prueba, es decir, si tú tienes, me lo voy a inventar, porque no tengo ni idea, porque de clínica tengo poco, pero yo qué sé, si tienes la concentración de transaminasas bien, la bilirrubina bien, el azúcar y no sé qué, pues entonces este otro valor está bien, o es que ha fallado la prueba porque es imposible.

Pero para hacer ese análisis no necesitas a todos los pacientes no necesitas coger y analizar hasta las personas que tienen revisiones quincenales o semanales porque están en una terapia contra un cáncer o lo que sea, esos datos están bien para tenerlos pero ahí, pero no te hacen falta en tu objetivo, entonces antes de volvernos locos con el Big Data, el Data Science y tal, yo siempre digo lo mismo, piensa qué quieres hacer, qué quieres responder y de qué le sirve a tu negocio. A veces bucear por bucear está bien y sacas conclusiones que pueden ayudar, pero eso es un poco I+D, no es decir bueno dejó que una persona investigue los datos que tenga una empresa pero, no todas las empresas pueden permitirse eso.

 

Hay veces que hay que enfocar el tiro, es decir, quiero esto cómo consigo esto y no siempre necesitas ser Data Scientist y hacer una cosa súper elaborada como una red neuronal de la leche, hay veces que simplemente parándote a pensar cómo resolver ese problema ya utilizas los datos utilizar y utilizas lo que quieras.

 

¿Cuáles son, viendo también que como consultor estás viendo diferentes casos y además con los proyectos de alumnos pues ves muchas más opciones, cuáles son los principales objetivos que cumplen este tipo de proyectos de Data Science? o sea, entiendo que económicos, pero de rendimiento, optimización de tareas…

Principalmente estoy en dos puntos 1 abaratamiento de costes o ahorro de costes, es decir, que la empresa consiga apurar más para aumentar más el margen sobre todo en eso y luego en alcance, es decir, más ventas o más clientes o más recurrencia o de análisis predictivos. 

Sí pero por poner un ejemplo así más claro, imagínate que tienes una tienda que vende online, sea lo que sea tienes un producto tuyo en esa tienda y puedes tener muchos objetivos, puedes querer controlar el almacén y no tener que ir a contar cosas al almacén a ver cuántos productos tienes y eso es un sistema bastante simple, pero que tienes que incrustar diferentes bases de datos o cruzarlas y hacer una cuenta.

Pues esto lo que hay, de la otra manera te toca ir allí presencialmente, un inventario, y eso no es ningún modelo predictivo súper complejo de redes neuronales y de Machine Learning, y nada es simplemente estructurar unos datos y obtener un resultado que es el que te cuadra. 

 

Están son tarea de la ciencia datos, queda mucho más bonito decir que lo que hace es una cosa muy chula que genera imágenes o texto o hago música. Queda mucho más vendible mucho más bonito de cara a veces a una empresa, pero la realidad y dónde está el valor es en estructurar bien la información saber tratarla saber atacarle, saber analizarla y saber programarla y si luego puedes hacer un modelo productivo muchísimo mejor entonces más objetivos.

Compartir
Share on facebook
Share on twitter
Share on linkedin

Entradas Relacionadas