Danadata 005 - K-means: caso GA4 y evaluación del modelo
Descubre cómo seleccionar, evaluar e interpretar clusters para revelar patrones ocultos y transformar la duración de sesión y el revenue en decisiones de negocio.
Es todo un honor y un placer que Jorge Carrión me haya abierto las puertas de Dadadata para tirar unas líneas, en este caso, sobre K-means. Este post es una continuación de esta publicación de Leanalytics, llamada “K-means: de teoría a la práctica”.
En ese post hablé de cómo se usa el modelo K-means para encontrar sub-grupos dentro de un dataset determinado, pero faltaba algo fundamental que nos expliqué en Leanalytics: la evaluación del modelo.
Eso es de lo que vamos a hablar con un caso práctico de datos procedentes de GA4. ¡Vamos para allá!
Hoy trataremos:
Selección de datos
Caso GA4
Método Elbow
K-means
Interpretación
Evaluación del modelo
Silhouette Score
Selección de datos
Es importante tener en cuenta que K-means funciona mejor con datos continuos (es decir, con datos con decimales, como puede ser el conversion rate, revenue, ARPU, entre otros), datos discretos (es decir, números enteros, como número de transacciones, número de leads, entre otros) y que si se usan datos categóricos (como, por ejemplo, categoría de dispositivo, country, entre otros) debe realizarse una práctica llamada One Hot Encoding que convierte un dato categórico en números (mobile, desktop y tablet en 1, 2 y 3).
Para simplificar el caso, trabajaremos únicamente con un dataset procedente de GA4. Esto fácilmente puede conseguirse a través de una exploración en la que capturaremos las siguientes métricas y descargaremos el CSV: