MERCADEO

Diego Lis de Seenka: El dilema de los datos, del Data Lake al Data Warehouse

Cristian Vergara| 22 de septiembre de 2023

Diego Lis Seenka Media Data

El constante flujo de datos en nuestro mundo plantea un dilema crucial: ¿cómo encontrar el equilibrio entre tener suficientes datos y estar abrumados por ellos? En este artículo, Diego Lis, CTO de Seenka Media Data, da una guía a través del viaje desde un Data Lake hasta un Data Warehouse, destacando la importancia de transformar datos crudos en información estructurada y homogénea para análisis eficientes.

El dilema de los datos: del Data Lake al Data Warehouse

En un mundo dominado por los datos, enfrentamos un desafío: ¿Cómo balancear entre tener pocos datos y estar inundado por ellos? ¿De qué sirve tener muchos datos si no se usan? ¿Cómo diferenciar la paja del trigo?

En este post te cuento cómo hacer para encontrar una solución a este dilema, partiendo de un Data Lake y llegando a un Data Warehouse, listo para ofrecer información valiosa y oportuna.

Orillando el problema

Digamos que quieres conocer la presencia de tu marca en los medios. Tal vez necesitas entender cómo impacta esta presencia en tus ventas, optimizar tu inversión o comparar tu estrategia con la de tu competencia. En cualquier caso, vas a necesitar datos.

Contactas algunas agencias y proveedores y compras un CSV con datos del último trimestre. Luego de algunas semanas de análisis, compruebas que en ese trimestre has perdido decenas de oportunidades. Tomas nota de algunos aprendizajes, pero sabes que esas oportunidades no volverán a aparecer. Comprendes que la información la necesitas en tiempo real.

En busca de más

Por suerte, hay un mundo enorme de datos ahí afuera, esperando ser capturados y analizados. Mediante el método de scraping, capturas noticias de portales, contenido de redes sociales, e incluso te aventuras en el mundo de las señales audiovisuales como YouTube, televisión y radio.

Luego de un año de trabajo, ya tienes funcionando todos los crawlers que trabajarán día y noche. Decides almacenar la información en una base de datos no relacional que permite escalar en volumen y tener flexibilidad en el esquema de datos como Elastic Search o MongoDB.

Además, utilizas un Bucket de Google Storage o S3 para guardar la información audiovisual de manera fiable y performante. Creas así un Data Lake, es decir, un repositorio centralizado de datos en bruto.

Al poco tiempo tu Data Lake tiene millones de datos esperando que los uses. Sin embargo, la información que proviene de los medios es completamente heterogénea. Contiene textos, imágenes, audios, videos, cortos y largos, bien y mal escritos, etc. Necesitas, en efecto, transformar estos datos para normalizarlos y poder consumirlos de manera más homogénea.

Dando sentido a tus datos

La normalización de un dataset es particularmente importante en el caso de los medios. ¿De qué me sirve obtener diariamente el texto de miles de noticias si no sé a quién se menciona y de qué temática se habla? ¿Para qué saber que se han emitido cierta cantidad de publicidades si no puedo identificar cuál es la marca, el mensaje central de la misma, su audiencia e impacto?

Afortunadamente, viene a tu rescate el machine learning. En los últimos años, viene creciendo de manera exponencial el interés por este campo en el ámbito académico y en la industria. En este gráfico, podemos ver la cantidad de papers de inteligencia artificial que se han publicado en el sitio arXiv en los últimos 30 años.

Decides entonces contratar un equipo especializado de ingenieros de machine learning. Luego de dos años de trabajo aplicando decenas de técnicas, logras convertir tus datos “no estructurados” en datos “estructurados”. Es decir, le das sentido a tus datos.

Y así decides utilizar un motor de base de datos relacional, como PostgreSQL o MySQL, donde vas guardando la información estructurada, normalizada y homogénea, para facilitar su análisis posterior. Estás por cantar victoria cuando descubres algo inquietante: la cantidad de datos que has acumulado, que ya llega a los centenares de millones, es tan grande que resulta demasiado lento hacer cualquier consulta medianamente compleja.

La etapa final: El Data Warehouse

Por fin, logras implementar una última etapa en tu pipeline: utilizas un base de datos orientada a columnas, como BigQuery o ClickHouse, para crear un Data Warehouse, es decir, una base de datos optimizada para el análisis y generación de informes.

Ahora sí, ya tienes todo para responder a tus preguntas originales. Sin embargo, han pasado cuatro años.

¿Cuál es la buena noticia? Que en Seenka ya hicimos todo eso por vos, y puedes conseguir esta información de manera inmediata en nuestra plataforma.

Y si lo prefieres, puedes ingestar la información directamente en tu BigQuery para analizarla con tus propias herramientas.

¿Quieres algo más? Puedes pedir un trial sin costo aquí (https://seenka.com/demo)

Diario de Hoy

viernes, 22 de noviembre de 2024

Image

Premios PRODU reunió, homenajeó y celebró a la industria audiovisual iberoamericana en MIP Cancun

Image
PREMIOS PRODU DE LA INDUSTRIA 2024

• Laura Fernández Espeso de Mediapro: Cumplimos 30 años y PRODU 35, espero que este viaje continúe muchos años más

• Nagidmy Márquez, premio Convergencia Digital: Es una gran valoración de lo que estamos haciendo por la comunidad hispana y latinoamericana

• Doris Vogelmann, Pilar de la Industria: Te dan ganas de seguir trabajando y demostrando que el cielo es el límite

• Georgina Terán, Pilar de la Industria: Desde el inicio de EFD hemos apoyado a los creadores en sus sueños

• Leonardo Aranguibel, Pilar de la Industria: Este premio le pertenece a toda la gente con la que trabajo porque todo se hace en equipo

• Michelle Alexander, Pilar de la Industria: Es un reconocimiento muy importante para la producción audiovisual del Perú

• Miguel Smirnoff, Pilar de la Industria: Le hemos servido a otra gente para tomar decisiones afortunadas

• Roxana Rotundo, Pilar de la Industria: Es un reconocimiento a los que tenemos empresas propias y seguimos en estos mercados

• Teresa Fernández Valdés, Pilar de la Industria: Esto demuestra que con mi carrera he podido sumar un granito de arena

• Serie Griselda ganó el Gran Premio de Ficción de Premios PRODU

• El reality La casa de los famosos México ganó el Gran Premio de Entretenimiento en Premios PRODU

• Ríchard Izarra recibió reconocimiento de WAWA por los 35 años de PRODU y su apoyo constante a las mujeres y a la industria

• Valeria Marín y Julián Gil: Ser parte de los 35 años de PRODU y estar en esta premiación es muy especial

• Anouk Aarón de WBD: Cris Miró: Ella es una historia que trasciende fronteras y enciende conversaciones

• En los Premios PRODU de la Industria se premió a la sostenibilidad

• Galería Premios PRODU de la Industria 2024

Fiesta PRODU 35 años de Intermedya

Fiesta de los 35 años de PRODU patrocinada por Inter Medya fue una noche inolvidable en MIP Cancun 2024

Regina Marcilio e Isadora Filpi de Globo

Globo presentó su serie Manía de ti a los asistentes a MIP Cancun

Roxana Rotundo en el screening de VIP 2000 TV en MIP Cancun: Vendimos Valentina, mi amor especial a Panamá y Perú

Paulo Koelle de Prime Video: Queremos que LatAm esté al nivel del resto del mundo en cuanto a producción original

Marcas como nuevas aliadas de la industria audiovisual

Luis Morales, jefe de desarrollo de Televisión México de la productora Fábula

Luis Morales de Fabula: Latinoamérica es una región que se reinventa sobre sus crisis

Lucas Soussumi de Brazilian Content: Es la primera vez que venimos a MIP Cancun con una delegación tan grande

Kathy Sánchez de Non Stop: Estamos buscando historias impactantes y disruptivas y ofreciendo servicios de posproducción

Yolanda Benet, presidenta de Wide Angle Productions Group

Wide Angle Productions Group lleva la serie de bienestar holístico Reconecta a MIP Cancun 2024

Denice Cobayassi de Made In Spanish: Incursionamos en el doblaje de videojuegos con cinco proyectos para 2025

PERSONAJE DE LA SEMANA

Laura Fernández Espeso, CEO de The Mediapro Studio

Laura Fernández Espeso tiene más de 20 años de trayectoria
Image
PREMIOS PRODU DE LA INDUSTRIA 2024
Image
Image
Image
Image

La profesional del audiovisual Georgina Terán, fundadora de EFD, fue reconocida con un Premio PRODU como uno de los Pilares de la Industria durante la ceremonia en MIP Cancun.

Image
Image
Image
Image
Image
Image
Image
Marie Leguizamo, directora para México & US Hispanic de Banijay, recibió el galardón
Image
Image
Image
Image
Image