MERCADEO

Diego Lis de Seenka: El dilema de los datos, del Data Lake al Data Warehouse

Cristian Vergara| 22 de septiembre de 2023

Diego Lis Seenka Media Data

El constante flujo de datos en nuestro mundo plantea un dilema crucial: ¿cómo encontrar el equilibrio entre tener suficientes datos y estar abrumados por ellos? En este artículo, Diego Lis, CTO de Seenka Media Data, da una guía a través del viaje desde un Data Lake hasta un Data Warehouse, destacando la importancia de transformar datos crudos en información estructurada y homogénea para análisis eficientes.

El dilema de los datos: del Data Lake al Data Warehouse

En un mundo dominado por los datos, enfrentamos un desafío: ¿Cómo balancear entre tener pocos datos y estar inundado por ellos? ¿De qué sirve tener muchos datos si no se usan? ¿Cómo diferenciar la paja del trigo?

En este post te cuento cómo hacer para encontrar una solución a este dilema, partiendo de un Data Lake y llegando a un Data Warehouse, listo para ofrecer información valiosa y oportuna.

Orillando el problema

Digamos que quieres conocer la presencia de tu marca en los medios. Tal vez necesitas entender cómo impacta esta presencia en tus ventas, optimizar tu inversión o comparar tu estrategia con la de tu competencia. En cualquier caso, vas a necesitar datos.

Contactas algunas agencias y proveedores y compras un CSV con datos del último trimestre. Luego de algunas semanas de análisis, compruebas que en ese trimestre has perdido decenas de oportunidades. Tomas nota de algunos aprendizajes, pero sabes que esas oportunidades no volverán a aparecer. Comprendes que la información la necesitas en tiempo real.

En busca de más

Por suerte, hay un mundo enorme de datos ahí afuera, esperando ser capturados y analizados. Mediante el método de scraping, capturas noticias de portales, contenido de redes sociales, e incluso te aventuras en el mundo de las señales audiovisuales como YouTube, televisión y radio.

Luego de un año de trabajo, ya tienes funcionando todos los crawlers que trabajarán día y noche. Decides almacenar la información en una base de datos no relacional que permite escalar en volumen y tener flexibilidad en el esquema de datos como Elastic Search o MongoDB.

Además, utilizas un Bucket de Google Storage o S3 para guardar la información audiovisual de manera fiable y performante. Creas así un Data Lake, es decir, un repositorio centralizado de datos en bruto.

Al poco tiempo tu Data Lake tiene millones de datos esperando que los uses. Sin embargo, la información que proviene de los medios es completamente heterogénea. Contiene textos, imágenes, audios, videos, cortos y largos, bien y mal escritos, etc. Necesitas, en efecto, transformar estos datos para normalizarlos y poder consumirlos de manera más homogénea.

Dando sentido a tus datos

La normalización de un dataset es particularmente importante en el caso de los medios. ¿De qué me sirve obtener diariamente el texto de miles de noticias si no sé a quién se menciona y de qué temática se habla? ¿Para qué saber que se han emitido cierta cantidad de publicidades si no puedo identificar cuál es la marca, el mensaje central de la misma, su audiencia e impacto?

Afortunadamente, viene a tu rescate el machine learning. En los últimos años, viene creciendo de manera exponencial el interés por este campo en el ámbito académico y en la industria. En este gráfico, podemos ver la cantidad de papers de inteligencia artificial que se han publicado en el sitio arXiv en los últimos 30 años.

Decides entonces contratar un equipo especializado de ingenieros de machine learning. Luego de dos años de trabajo aplicando decenas de técnicas, logras convertir tus datos “no estructurados” en datos “estructurados”. Es decir, le das sentido a tus datos.

Y así decides utilizar un motor de base de datos relacional, como PostgreSQL o MySQL, donde vas guardando la información estructurada, normalizada y homogénea, para facilitar su análisis posterior. Estás por cantar victoria cuando descubres algo inquietante: la cantidad de datos que has acumulado, que ya llega a los centenares de millones, es tan grande que resulta demasiado lento hacer cualquier consulta medianamente compleja.

La etapa final: El Data Warehouse

Por fin, logras implementar una última etapa en tu pipeline: utilizas un base de datos orientada a columnas, como BigQuery o ClickHouse, para crear un Data Warehouse, es decir, una base de datos optimizada para el análisis y generación de informes.

Ahora sí, ya tienes todo para responder a tus preguntas originales. Sin embargo, han pasado cuatro años.

¿Cuál es la buena noticia? Que en Seenka ya hicimos todo eso por vos, y puedes conseguir esta información de manera inmediata en nuestra plataforma.

Y si lo prefieres, puedes ingestar la información directamente en tu BigQuery para analizarla con tus propias herramientas.

¿Quieres algo más? Puedes pedir un trial sin costo aquí (https://seenka.com/demo)

Diario de Hoy

jueves, 21 de noviembre de 2024

Image

Inter Medya presentó Corazón negro en MIP Cancun y confirmó que ya fue vendida en Panamá

Image
MIP CANCUN 2024

• Segunda temporada de La casa de los famosos Colombia se verá exclusivamente por RCN en sus diferentes ventanas

• Firat Gulgen de Calinos: Comencé en 1999 distribuyendo telenovelas latinas y mi objetivo era algún día regresar al mercado latinoamericano

Vendetta y Love, Marriage, Divorce de Global Agency tuvieron su showcase en MIP Cancun

• Pilar Blasco de Banijay Iberia: Hemos regresado a hacer contenido más parecido al que se hacía para el abierto

• Productores Diego Ramírez y Billy Rovzar: Tenemos que volver a hacer producciones arriesgadas

• Liliam Hernández y Roxana Rotundo: Todo un éxito nuestro desayuno de las wawas en MIP Cancun con más 125 asistentes

• Carolina Cordero de Buenos Aires Film Commission: El viernes 22 tendremos un panel para presentar distintos incentivos que ofrecen diferentes ciudades

• Rosa Clemente de Punta Fina: La comedia familiar colombiana El novicio rebelde tiene todo para sentar a la familia ante la pantalla

• Inés Havraneg de Onza Américas: Si bien iniciamos con series, este año nos abrimos a largometrajes

• Alberto Slezynger: A un año de operaciones Personal Music México y Personal Post tienen dos proyectos en conversaciones y otros que están surgiendo en este mercado

• Sebastián Ochoa de Cinemat: Estamos presentando cinco proyectos para pitch

• Julieta Brunero de TIS: Venimos a MIP Cancun a tener reuniones creativas de estrategia y encontrar nuevos modelos de negocio

• Federico Levrino de Telefe: Dejamos de ser solamente una canal de televisión abierta para ser una casa productora integral

• Ana Celia Urquidi de Atenea: El futuro está en las alianzas y colaboraciones

Llegan los Premios PRODU de la Industria

Image
ACTUALIDAD

• Comcast planea crear un nuevo negocio de medios independientes a través de la escisión de algunas de sus señales de TV por cable

• Telemundo adquiere derechos para hacer versión del éxito español Velvet en 2025

• Los Festivales de Málaga y San Sebastián junto a la productora Orca Films organizan el ciclo de películas españolas MASS en Argentina y Uruguay

• Digitoonz Spain y Morgana Studios cierran acuerdo para codesarrollar la marca YugiBao

Image
CONTENIDOS

Miss Universo por Telemundo se ubicó como el especial de entretenimiento en español más visto de 2024

• Nueva temporada de Yellowstone en Paramount+ supera todos los debuts previos de la serie

• Comenzó el rodaje de nueva coproducción de Flow y StoryLab Nieve roja

Noticias RCN renueva su formato e incorpora nuevos presentadores para su emisión nocturna

Image
RATINGS

RATINGS: Perú top 10 programas TV abierta semana del 11 al 17 de noviembre

Image
MIP CANCUN 2024
Image

Estudios RCN en su camino de seguir consolidándose en la producción de formatos de entretenimiento, confirmó a PRODU durante MIP Cancun que el próximo año la segunda temporada de La casa de los famosos Colombia será producida y transmitida de manera exclusiva por RCN, en distintas de sus ventanas como su canal de televisión abierta, portal web, las redes sociales e incluso una plataforma propia en la que trabajan.

Image
Firat Gulgen de Calinos
Image
Izzet Pinto de Global Agency presentó Vendetta
Image
Image
Image
Image
Image
Image
Inés Havraneg
Image

Personal Music México y Personal Post, sucursales de Personal Music (Miami) de Alberto Slezynger, que ya tienen un año en operaciones en tierra azteca, cuentan con dos proyectos en conversaciones y otros nuevos que están surgiendo en MIP Cancun.

Image
Image

En MIP Cancun la empresa TIS ve una oportunidad para ir cerrando 2024 de la mejor manera. “Venimos con mucho entusiasmo, con muchas ganas de conectar con partners, gente y colegas con los que venimos trabajando codo a codo; seguir profundizando alianzas, continuar profundizando relaciones. Actualizar las estrategias que tengan varios de nuestros clientes, porque es tan cambiante todo. Venimos para tener reuniones creativas de estrategia, encontrar nuevos modelos de negocio y nuevas alianzas” afirmó Julieta Brunero, directora de Contenido de TIS.

Image
Image
Image
ACTUALIDAD
Image
Mark Lazarus de NBCU
Image
Image
Image
Image
CONTENIDOS
Image
Image
Yellowstone es el principal impulsor de suscripciones y minutos vistos en todos los mercados internacionales de Paramount+ donde la serie está disponible
Image
Image
Image
<em>RATINGS</em>
Image