MERCADEO

Diego Lis de Seenka: El dilema de los datos, del Data Lake al Data Warehouse

Cristian Vergara| 22 de septiembre de 2023

Diego Lis Seenka Media Data

El constante flujo de datos en nuestro mundo plantea un dilema crucial: ¿cómo encontrar el equilibrio entre tener suficientes datos y estar abrumados por ellos? En este artículo, Diego Lis, CTO de Seenka Media Data, da una guía a través del viaje desde un Data Lake hasta un Data Warehouse, destacando la importancia de transformar datos crudos en información estructurada y homogénea para análisis eficientes.

El dilema de los datos: del Data Lake al Data Warehouse

En un mundo dominado por los datos, enfrentamos un desafío: ¿Cómo balancear entre tener pocos datos y estar inundado por ellos? ¿De qué sirve tener muchos datos si no se usan? ¿Cómo diferenciar la paja del trigo?

En este post te cuento cómo hacer para encontrar una solución a este dilema, partiendo de un Data Lake y llegando a un Data Warehouse, listo para ofrecer información valiosa y oportuna.

Orillando el problema

Digamos que quieres conocer la presencia de tu marca en los medios. Tal vez necesitas entender cómo impacta esta presencia en tus ventas, optimizar tu inversión o comparar tu estrategia con la de tu competencia. En cualquier caso, vas a necesitar datos.

Contactas algunas agencias y proveedores y compras un CSV con datos del último trimestre. Luego de algunas semanas de análisis, compruebas que en ese trimestre has perdido decenas de oportunidades. Tomas nota de algunos aprendizajes, pero sabes que esas oportunidades no volverán a aparecer. Comprendes que la información la necesitas en tiempo real.

En busca de más

Por suerte, hay un mundo enorme de datos ahí afuera, esperando ser capturados y analizados. Mediante el método de scraping, capturas noticias de portales, contenido de redes sociales, e incluso te aventuras en el mundo de las señales audiovisuales como YouTube, televisión y radio.

Luego de un año de trabajo, ya tienes funcionando todos los crawlers que trabajarán día y noche. Decides almacenar la información en una base de datos no relacional que permite escalar en volumen y tener flexibilidad en el esquema de datos como Elastic Search o MongoDB.

Además, utilizas un Bucket de Google Storage o S3 para guardar la información audiovisual de manera fiable y performante. Creas así un Data Lake, es decir, un repositorio centralizado de datos en bruto.

Al poco tiempo tu Data Lake tiene millones de datos esperando que los uses. Sin embargo, la información que proviene de los medios es completamente heterogénea. Contiene textos, imágenes, audios, videos, cortos y largos, bien y mal escritos, etc. Necesitas, en efecto, transformar estos datos para normalizarlos y poder consumirlos de manera más homogénea.

Dando sentido a tus datos

La normalización de un dataset es particularmente importante en el caso de los medios. ¿De qué me sirve obtener diariamente el texto de miles de noticias si no sé a quién se menciona y de qué temática se habla? ¿Para qué saber que se han emitido cierta cantidad de publicidades si no puedo identificar cuál es la marca, el mensaje central de la misma, su audiencia e impacto?

Afortunadamente, viene a tu rescate el machine learning. En los últimos años, viene creciendo de manera exponencial el interés por este campo en el ámbito académico y en la industria. En este gráfico, podemos ver la cantidad de papers de inteligencia artificial que se han publicado en el sitio arXiv en los últimos 30 años.

Decides entonces contratar un equipo especializado de ingenieros de machine learning. Luego de dos años de trabajo aplicando decenas de técnicas, logras convertir tus datos “no estructurados” en datos “estructurados”. Es decir, le das sentido a tus datos.

Y así decides utilizar un motor de base de datos relacional, como PostgreSQL o MySQL, donde vas guardando la información estructurada, normalizada y homogénea, para facilitar su análisis posterior. Estás por cantar victoria cuando descubres algo inquietante: la cantidad de datos que has acumulado, que ya llega a los centenares de millones, es tan grande que resulta demasiado lento hacer cualquier consulta medianamente compleja.

La etapa final: El Data Warehouse

Por fin, logras implementar una última etapa en tu pipeline: utilizas un base de datos orientada a columnas, como BigQuery o ClickHouse, para crear un Data Warehouse, es decir, una base de datos optimizada para el análisis y generación de informes.

Ahora sí, ya tienes todo para responder a tus preguntas originales. Sin embargo, han pasado cuatro años.

¿Cuál es la buena noticia? Que en Seenka ya hicimos todo eso por vos, y puedes conseguir esta información de manera inmediata en nuestra plataforma.

Y si lo prefieres, puedes ingestar la información directamente en tu BigQuery para analizarla con tus propias herramientas.

¿Quieres algo más? Puedes pedir un trial sin costo aquí (https://seenka.com/demo)

Diario de Hoy

martes, 5 de noviembre de 2024

Image

Alejandro Kember de AMCI-LA: La TV paga todavía es redituable pero hay un cambio en las formas de consumo y en la manera de distribución

Image
VIPS

• Carlota Vieira de SIC: Aparte de las series seguimos trabajando con las telenovelas como la adaptación de Broken promise de Kanal D

• Frank Rodríguez, actor y productor: Inicia La Gran Fiesta del Cine Mexicano que es el festival que promueve el cine jalisciense y mexicano

• Directora Alba Gil de El secreto del río: Siempre he tenido experiencias positivas y de mucho diálogo con los ejecutivos de todas las plataformas

• De La ruta de Enrique a construir una empresa en EE UU con un catálogo de nueve series y un podcast

Julián Gil y Valeria Marín serán los conductores de los Premios PRODU de la Industria

Luego de los Premios PRODU de la Industria se realizará la PRODU 35 after party, powered by Intermedya

Ganadores Premio PRODU Industria

Premios PRODU de la Industria reunirá a los más importantes ejecutivos del entretenimiento iberoamericano

Image
ACTUALIDAD

• VIP 2000 TV y ZEE Entertainment invitan a su VIP Lunch Screening el jueves 21 en MIP Cancun

• Studio 100 International presentará su película Heidi: Rescue of the Lynx durante AFM en Las Vegas

Carlos Mesber de We Love Entertainment lanza fundación Yo Vivo en el Amor

Image
CONTENIDOS

• Película Bogotá: city of the lost se grabó en Colombia con equipo de 65 surcoreanos y 200 colombianos

Palabra de honor debutó por Canal 13 de Chile como lo más visto del domingo 3

• Mega sigue liderando la televisión chilena en octubre

Image
VIPS
Image
Image

El actor y productor Frank Rodríguez, organizador de La Gran Fiesta del Cine Mexicano, festival de cine jalisciense y mexicano que se celebra por 12.ª vez en alianza con Cinemex entre el 8 y el 15 de noviembre en Guadalajara, explicó que buscan promover el cine hecho en Jalisco y en México, además de que este sea sostenible económicamente y animar a los jóvenes a tomar el camino de la producción audiovisual.

Image

Alba Gil, cineasta mexicana-canadiense, es la directora de la serie El secreto del río para Netflix que actualmente despunta en esa plataforma, así como de la película El diario, de Amazon Studios, que ha tenido gran éxito en México.

Image

Enrique Márquez tuvo un sueño hace más de 11 años: viajar con su mochila y grabar sus viajes para relatar sus aventuras a los sobrinos. De aquel sueño nació La ruta de Enrique. Desde entonces a hoy, Márquez creó LRE Holding LLC en EE UU y prepara un catálogo de ocho series de televisión y un podcast, con temáticas sobre viajes, comida, religión, realities y concursos, dirigidas al público de EE UU y Latinoamérica.

Image
ACTUALIDAD
Image
Image
Image
CONTENIDOS
Image
Image
Sergio Lagos y Karla Constant
Image