¿Magia Potagia? No, análisis de datos

análisis de datos
Buenas queridos amigos. Hace mucho tiempo que no escribía un artículo y muchos de vosotros me habíais preguntado que cuándo iba a volver a escribir. Así que me he puesto manos a la obra con este pequeño ensayo sobre análisis estadístico, que refleja de forma simple, los proyectos de esta índole que realizamos en Audalia Nexia versados en este asunto.

Para lo cual, me voy a basar en la famosa paradoja del cumpleaños. No me preguntéis por qué se llama así porque no es una paradoja, lo único que prometo es que va de cumpleaños.

Antes de entrar en materia, el enfoque que le voy a dar al artículo vale para ilustrar las bases del análisis de datos y qué ventajas podemos obtener como empresa. No obstante, podéis usarlo para mil cosas: conseguir cervezas gratis, sacar dinero a vuestros amigos, ser populares, hacer mentalismo, etc. No me enrollo más y comienzo con mi explicación, al ataque ….

La explicación

Lo primero que quiero que os preguntéis es cuántas personas se necesitan para que con una probabilidad de más del 60%, al menos, dos personas cumplan años el mismo día, es decir, mes y día. Ya lo tenéis, pues recordadlo. No me lo digáis, sólo recordadlo.

Si tuviéramos que apostar dinero sobre este hecho, es decir, en una población concreta hay dos personas que, al menos, cumplen años el mismo día, ¿qué harías?

En esto es en lo que entra en juego el análisis de datos y las matemáticas, vamos a obtener información de datos para sacar partido de ella y obtener una ventaja que existe pero que el resto no la percibe porque se basa en su intuición y no en información. ¿Todavía recordáis el número de personas necesarias para que al menos dos personas cumplan en el mismo día con una probabilidad del 60%?

Descomponiendo el problema, lo primero que deberíamos hacer es calcular la probabilidad de que dos personas, al menos, cumplan años el mismo día. Como es mucho más sencillo calcular la probabilidad de que no cumplan el mismo día y luego obtener la probabilidad del suceso contrario restando de la probabilidad total la de no cumplir años, pues así haremos.

La probabilidad de que dos personas no cumplan el mismo día se basa en casos favorables dividido por casos posibles (nos vamos a basar en una simplificación considerando que el año tiene 365 días, para bisiestos el algoritmo cambia un poco). Os ayudo un poco a construir lógicamente la probabilidad:

La probabilidad

Si tenemos una persona sola la probabilidad de que dos personas cumplan el mismo día debería ser cero, vamos eso espero. Así pues, la probabilidad de que no cumplan en el mismo día sería: casos favorables 365 días del año en que esta persona puede cumplir (no sabemos cuándo cumple) dividido por casos posibles: 365 días que tiene un año. Vale, pues hago este pequeño cálculo: 365 (casos favorables) /365 (casos posibles) = 1. Como buscamos la probabilidad del suceso contrario debo restar a lo probabilidad total (1) la obtenida del suceso de no cumplir años que en este caso es 1. Pues 1-1=0%. Parece que vamos bien, si tengo una persona la probabilidad de que dos cumplan, al menos, el mismo día es cero. Genial. Pues seguimos.

Con dos sería igual (casos favorables/casos posibles) = 365/365*364/365= 0,997

Por lo que la probabilidad que buscamos es 1-0,997=0,003, es decir, que con dos personas la probabilidad de que dos personas, al menos, cumplan años es de un 0,274%. Yo con esta probabilidad no apostaría nada, ¿verdad?

¿Queréis que calculemos la de 5 personas?, es decir, qué probabilidad existe para que, en un grupo de 5 personas, al menos 2 de ellas, cumplan años el mismo día. Vamos a intentarlo (casos favorables/casos posibles): 365/365*364/365*363/365*362/365*361/365= 0,973. Por lo que la probabilidad buscada es 1-0,973= 2,714%: Yo con esta probabilidad tampoco apostaría mucho.

Bueno, ¿qué os parece si modelizamos el tema para no tener que ir en un Excel metiendo casos favorables dividido de casos posible? Espero que me digáis que BIEN o, mejor aún, GENIAL Antonio.

La modelización

La modelización para una población de n, creedme, sería la siguiente:

análisis de dato

Lo que parecen signos de exclamaciones en la fórmula anterior son factoriales, es decir, el factorial de 3 (3!) sería 3*2*1. Así pues, el factorial de 365 (365!) os podéis hacer una idea lo enorme que es (365*364*363*……*3*2*1). Vamos, es tan grande que Excel no os lo va a calcular. Si lo queréis probar la fórmula en un Excel configurado en idioma español (España) sería FACT. Como no os va a funcionar ya os comento que deberías programar la función si queréis hacer cálculos automatizados. Como sugerencia os indico que si observáis el denominador tenemos una función exponencial por lo que a partir de cierto valor de n (número de personas) el valor de la fracción se hace cero (n=120 en Excel); por otro lado, los factoriales de la fracción también se simplifican bastante si lo pensáis. Bueno, eso os lo dejo de deberes.

Ahora es el momento de que recordéis el número de personas que necesitáis para que, al menos, 2 personas cumplan años el mismo día con una probabilidad del 60%.

¿Cuántas pensáis? ¿27? La probabilidad de que al menos dos personas cumplan años el mismo día es de el 60% con 27 personas, tal y como podréis ver en el cuadro que os adjuntamos a continuación:

análisis de datos

¿Increíble? ¿Es lo que os esperabais? Con 23 personas ya tenéis que la probabilidad de que, al menos, 2 personas cumplan el mismo día es de más del 50%.

probabilidades

Y con 41 personas es más del 90%.

Conclusión

Esta es la razón del análisis de datos: obtener información de datos que disponemos o que podríamos disponer para tratar de obtener una ventaja sobre el mercado.

Con este ejemplo simple, imaginad que apostaríais dinero sabiendo que con ya 40 personas la probabilidad de que al menos 2 cumplen el mismo día es de más del 90% frente a lo que puede el resto intuir, que seguramente sea cercano a 250 personas. ¿Qué pensáis? ¿Obtendríamos una ventaja o no?

Con este ejemplo hemos tratado de ilustrar lo que realiza Audalia Nexia en sus proyectos de análisis de datos, es decir, cómo podemos generar información de valor de vuestros datos o de aquellos que podamos obtener.

En siguientes entregas pondremos más ejemplos divertidos sobre esta cuestión. Espero que disfrutéis mucho con la tabla de probabilidades que os hemos adjuntado y le saquéis algún partido ahora que llega la Navidad.

Antonio PérezLinkedin_circulo