En un país en el que las personas solo quieren varones, todas las familias siguen teniendo hijos hasta que tienen un niño. Si tienen una niña, tienen otro hijo. Si tienen un niño, se detienen. ¿Cuál es la proporción de niños a niñas en el país?

Algo contrario a la intuición, a medida que aumenta el número de familias, la proporción esperada de niños a niños totales tenderá exactamente a la mitad, aunque la expectativa nunca será exactamente 1/2 en muestras finitas. (Siempre es un poco por encima de 1/2.)

La respuesta oficial dada por Google (citada en http://mathoverflow.net/question…) – que la proporción esperada es exactamente 1/2 – es incorrecta, al igual que su razonamiento para la respuesta [1]. Sin embargo, 1/2 es básicamente una respuesta razonable. Primero daré una explicación de esa respuesta que se basa esencialmente en todas las interpretaciones de la pregunta, y luego explicaré por qué no es la respuesta exacta en poblaciones finitas a la pregunta formulada anteriormente. (Me disculpo por el carácter un tanto descuidado de esta respuesta. Hay muchas perspectivas sobre el problema que quiero mencionar, pero su organización aquí está lejos de ser óptima).

La distribución que describe cuántos hijos tiene hasta el primer macho (inclusive) es la distribución geométrica con el parámetro p = 1/2 (http://en.wikipedia.org/wiki/Geo…) [2]. La media de esta distribución es 2 (y la varianza es igual a 2). Por lo tanto, el número medio de hijos por familia es 2. Según el Teorema del límite central, sabemos que a medida que el número total de familias n aumenta, el número total de niños será muy cercano a 2 n , el doble del número de familias . (El error en esta estimación será de orden [math] \ sqrt {n} [/ math], que es insignificante en relación con el número total de personas cuando n es grande). Por ejemplo, si tenemos 10,000 familias, entonces el error es del orden de unos pocos cientos, y el número total de niños sería entre 19.500 y 20.500 con alta probabilidad (más del 95%).

Cada familia tendrá exactamente un niño, para un total de n varones (con 10,000 familias, tenemos 10,000 varones). La división de 10,000 por aproximadamente 20,000 produce algo cercano a 1/2. Esto puede hacerse riguroso, y lo hago debajo del pliegue.

Sin embargo, la expectativa de la relación no es exactamente 1/2. Se espera que la proporción sea un poco más de 1/2. Para un cálculo exacto y más detalles sobre este efecto, consulte la maravillosa respuesta principal en http://mathoverflow.net/question…). Para ver la intuición básica, supongamos que la población tiene una sola familia. Con probabilidad 1/2, el porcentaje de niños en la población es del 100%. Con probabilidad 1/4, el porcentaje es del 50%. Con probabilidad 1/8 el porcentaje es del 33%. Y así. Sumando esto, se obtiene un 69% de niños en la familia, más del 50%. Esto muestra que para una población (muy) pequeña que consiste en una familia, el porcentaje esperado de niños es superior al 50%. Esto es cierto para todas las poblaciones con un número limitado de familias.

==
Detalles:

La controversia a la que se hace referencia en el enlace en los Detalles de la pregunta se produce porque el resultado en poblaciones pequeñas es diferente de la respuesta limitante a medida que el número de familias crece mucho. Todo se reduce a lo siguiente. Podemos definir una variable aleatoria X ( n ) para que sea el número total exacto de niños en la población con n familias completas (es decir, cada familia que ha producido su último hijo, un niño). La proporción de niños en esa población es la variable aleatoria [matemáticas] Y (n) = n / X (n) [/ matemáticas]. La expectativa de esta variable aleatoria (la proporción esperada de niños) definitivamente no es
[math] \ frac {n} {E [X (n)]} = \ frac {n} {2n} [/ math],
porque el operador de expectativa no conmuta con la división . El valor promedio de [math] 2n / X [/ math] no es el mismo que 2 n dividido por el valor promedio de X.

De hecho, debido a la convexidad de la función [math] f (x) = 1 / x [/ math], la desigualdad de Jensen promete que [math] E [Y (n)]> \ frac {n} {E [X ( n)]} = 1/2 [/ math], donde la desigualdad es estricta porque la distribución de Y ( n ) claramente no es degenerada. Así que el número esperado de niños no es exactamente 1/2; Es más. Si solo hay una familia, de modo que n = 1, entonces la fracción esperada de niños en la población (es decir, la familia) es de aproximadamente el 69% (http://mathoverflow.net/question…).

Sin embargo, al corregir cualquier [math] \ epsilon> 0 [/ math], cuando n es grande, el Teorema del límite central (http://en.wikipedia.org/wiki/Cen…) garantiza que la variable aleatoria X ( n ) está dentro de [math] n ^ {1/2 + \ epsilon} [/ math] de 2 n con probabilidad al menos [math] 1- \ epsilon [/ math]. Por lo tanto, la fracción esperada de niños será muy, muy cercana a 1/2 en grandes poblaciones. En particular, con probabilidad al menos [math] 1- \ epsilon [/ math], tendremos los límites

[math] \ frac {n} {2n + n ^ {1/2 + \ epsilon}} \ leq Y (n) \ leq \ frac {n} {2n-n ^ {1/2 + \ epsilon}}. [/mates]

Para n lo suficientemente grande, estas desigualdades implican que con probabilidad al menos [math] 1- \ epsilon [/ math].

[math] \ frac {1- \ epsilon} {2} \ leq Y (n) \ leq \ frac {1+ \ epsilon} {2} [/ math]

Por lo tanto, en realidad, la proporción realizada (aleatoria) de niños estará dentro de [math] \ epsilon [/ math] de 1/2 con probabilidad al menos [math] 1- \ epsilon [/ math]. Es un ejercicio fácil de derivar (usando el hecho de que Y ( n ) ha limitado el apoyo) que la expectativa también está dentro de [math] 2 \ epsilon [/ math] de 1/2 para n lo suficientemente grande.

La distribución exacta de Y ( n ) para muestras finitas se puede calcular fácilmente en una computadora, o analíticamente, y se puede ver que su expectativa converge rápidamente a 1/2 a medida que n crece. Sin embargo, Landsburg ganará su apuesta porque en su ejemplo (comenzar con cuatro familias y tener un hijo por año por familia durante treinta años), incluso la n final es bastante pequeña. Si empezáramos con 400 familias, Landsburg perdería su apuesta.

==

Para una gran discusión que contiene cálculos precisos de muestras finitas, que muestran que la proporción esperada de niños es mayor que 1/2 para cada n finita, consulte http://mathoverflow.net/question….

¿Cuál es la razón esencial detrás de la diferencia entre el cálculo de la muestra finita y el resultado asintótico? La observación clave es que la fracción esperada de niños en una familia es de aproximadamente el 69% . Y, de hecho, cuando reunimos a cualquier número de familias, el porcentaje esperado de niños estará por encima del 50%.

Para ver por qué la fracción esperada de niños en una familia es más del 50% , lo que es suficiente para ver la intuición clave, es útil considerar el siguiente experimento mental. Supongamos que llevamos un millón de familias. Haga una mesa alta, con una línea para cada familia. En la línea de cada familia, escriba el porcentaje de niños en la familia y el número de niños en la familia. Considera dos ejercicios.

(1) Sume los porcentajes y divídalos por un millón. Esto da el porcentaje promedio de niños en una familia.

(2) Multiplique cada porcentaje por el tamaño de la familia, sume los resultados y divídalo por la suma de los tamaños de la familia. Esto da el porcentaje de niños en la población.

Sabemos por lo anterior que la respuesta a (2) debería ser muy cercana al 50% porque la población es enorme. Tenga en cuenta que en el ejercicio (2), las familias con una mayoría de niños ganan menos peso en el promedio (porque son las más pequeñas). Si igualamos los pesos, que es exactamente lo que se hace en el ejercicio (1), entonces la respuesta llega a ser mayor al 50%.

==

[1] Al menos, su respuesta es incorrecta, suponiendo que el número total de hijos es una variable aleatoria no degenerada. Algunos argumentan que hay formas de interpretar la pregunta para que 1/2 sea la respuesta correcta. Vea los comentarios a continuación por Sridhar Ramesh y Jameson Quinn, así como la respuesta del usuario Quora. En mi opinión, las formalizaciones bajo las cuales 1/2 es la respuesta correcta (a la pregunta de cuál es la proporción esperada de niños en la población) no son naturales. De hecho, estoy bastante seguro de que (bajo interpretaciones razonables de todo) siempre que el tamaño total de la población sea aleatorio, 1/2 será incorrecto. El argumento de la desigualdad de Jensen en mi respuesta proporciona una razón para esto cuando el número de niños (el numerador) es determinista dado el tamaño de la población, pero creo que esto puede ser generalizado, aunque no sea trivial.

[2] Me refiero a la distribución geométrica que toma valores en el conjunto {1,2,3, …}. Esto supone que cada recién nacido es igualmente probable que sea un niño o una niña, y que el género es independiente en todos los nacimientos. Estoy ignorando a gemelos, trillizos, parejas sin hijos, etc. También estoy ignorando las dinámicas del ciclo de vida hablando como si todos los hijos de una familia aparecieran a la vez, tan pronto como existe la familia (esto equivale a ignorar a las familias que no lo son. Terminado con su maternidad). En poblaciones grandes, estos detalles se desvanecerán, por lo que no voy a atascar la respuesta con ellos. Pero es un buen ejercicio para comprobar eso.

Escribí la respuesta en Mathoverflow a la que se refiere Ben Golub. Aunque mi respuesta recibió un gran número de votos en MathOverflow, todavía hay mucha gente confundida sobre este problema. Por lo tanto, voy a añadir algunos comentarios. Algunos de estos también se incluyeron en una columna que escribí sobre este fenómeno para GammonVillage.

No hay un acuerdo universal sobre cómo formalizar la expresión “proporción esperada de niños a niñas”. Para un matemático, la proporción esperada significa que usted toma el promedio ponderado de las proporciones en todos los resultados posibles, ponderado por las probabilidades. Si elige interpretar “proporción esperada de niños a niñas” como “proporción de niños esperados a niñas esperadas”, entonces tendrá un problema mucho más simple y menos interesante. No diría que la interpretación es necesariamente un error fuera de las matemáticas, pero sería un error si no se da cuenta de que está cambiando el orden de las palabras, que asume que el interrogador no quiso decir lo que él o ella dijo. literalmente dicho.

Segundo, un promedio de números tiene sentido, al igual que un promedio de vectores. Sin embargo, ¿cuál es el promedio de proporciones? No tiene que significar nada: el promedio de las 4:00 AM, 8:00 PM y 12:00 del mediodía no significa nada para mí. Sin embargo, una interpretación razonable es que la proporción B: G significa la fracción B / (B + G). Esto tiene la ventaja de que la proporción invertida G: B tiene el valor complementario G / (B + G) = 1- (B / (B + G)). Con esta definición, podemos interpretar “la proporción esperada de niños a niñas” como el valor promedio de B / (B + G). Esto es lo que sucede si expresas una proporción como porcentaje; di que si hay 3 niños y 2 niñas, entonces la población tiene 60% de niños.

Supongamos que hay 100 familias siguiendo esta regla. Entonces, el número promedio de niños será de 100, y el número promedio de niñas de 100. Sin embargo, esto no significa que el valor promedio del porcentaje de niños sea de 50%, y no lo es.

Supongamos que solo hay dos posibilidades de una regla diferente: 100 niños y 80 niñas, o 100 niños y 120 niñas, y esto ocurre con la misma probabilidad de que el número promedio de niñas sea de 100. En el primer caso, la proporción de niños es de 100. / 180 = 55.56%. En el segundo caso la proporción de niños es 100/220 = 45.45%. La proporción esperada es (1/2) (5/9 + 5/11) = 50/99 = 50.51% que no es 50%. De modo que el número promedio de niñas igual al número promedio de niños no significa que la proporción esperada sea del 50%.

Si hay n familias que siguen esta regla, el número de niños B será n con probabilidad 1. El número de niñas G tendrá un valor promedio n. La desigualdad de Jensen nos dice que si tiene una función como [math] f (x) = \ frac {n} {n + x} [/ math] que es convexa (curvada hacia arriba), entonces [math] E [f (G )] \ ge f (E (G)) [/ math], con igualdad solo si la variable aleatoria G es constante. El número de chicas no es constante. Entonces, si evalúa [math] \ frac {n} {n + E [G]} = \ frac {1} {2} [/ math], obtendrá un valor más bajo que [math] E [\ frac {n } {n + G}] [/ math]. Para cualquier n, la proporción esperada [math] E [\ frac {n} {n + G}] [/ math] es mayor que [math] \ frac {1} {2} [/ math].

Para muchas personas es contradictorio que el valor esperado no sea exactamente 1/2. Entonces, la gente busca partes del modelo que no son realistas para culpar. Ajá, asumimos que las personas podrían tener miles de niñas si no tienen un niño, y eso no es realista. Sin embargo, el valor esperado de B / (B + G) aún no es 1/2, incluso si las familias se detienen después, digamos, del primer niño o la tercera niña. Esto tiene una aplicación para grabar en torneos, y eso podría ser más intuitivo para las personas.

Supongamos que perteneces a un club de backgammon. Cada semana, tienes un torneo de eliminación simple. Los 8 miembros del club se presentan cada vez, y cada uno tiene una oportunidad de 1/2 de ganar contra todos los demás jugadores. Suponga que mantiene registros y calcula la tasa promedio de victorias para cada jugador. Es bastante común que el promedio sobre los jugadores de esta tasa de victorias sea inferior al 50%, a pesar de que están jugando unos contra otros, y cuando alguien en el club gana, otro miembro del club pierde.

Por ejemplo, después del primer torneo, hay 4 jugadores que fueron eliminados en la primera ronda, con 1 derrota y 0 victorias, con una tasa de ganancia del 0%. Hay 2 semifinalistas con 1 derrota y 1 victoria, 50%. Hay un finalista perdedor con 1 derrota y 2 victorias, 67%. Hay un ganador, con 0 derrotas y 3 victorias, 100% victorias. El promedio ponderado es 4/8 * 0 + 2/8 * 50% + 1/8 * 67% + 1/8 * 100% = 33%. Las pérdidas de la primera ronda se ponderan más que las victorias de la primera ronda. Las pérdidas de la primera ronda son todos el récord de alguien. Las victorias de la primera ronda son 1/2 o 1/3 del récord de alguien.

Si recopila los resultados en varios torneos, la tasa de ganancias esperada aumentará. Sin embargo, no será igual a 1/2 después de un número finito de torneos. La correspondencia es que jugar n torneos de 3 rondas es equivalente a un país con n familias que paran después del primer niño o 3 niñas.

De manera similar, cuando ganas un doble como 6-6 en backgammon, es más probable que termines el juego rápidamente. Si tiene dados perfectamente justos, y calcula la proporción promedio de 6-6s a tiradas totales en un juego, no obtendrá 1/36 6-6s. Este efecto disminuye si se combinan varios juegos, pero aún así, los rollos que acortan los juegos se ponderan más que los rollos que prolongan los juegos. Es común que las personas prueben los dados mirando las estadísticas en juegos completos, pero es mejor mirar una muestra de un tamaño fijo.

La desviación de la proporción esperada de 1/2 en un país grande es insignificante, pero el fenómeno general de que los estimadores pueden estar sesgados es importante. La proporción de tus victorias en torneos y pérdidas está sesgada cuando juegas en torneos de eliminación simple. La proporción de niños: niñas en una familia o país puede estar sesgada. La calificación Elo actual de un jugador puede estar sesgada ya que los jugadores que sienten que sus calificaciones son altas tienden a jugar menos que aquellos que sienten que sus calificaciones son bajas. Cuando decide el punto de parada para una actividad, puede afectar la ponderación de los eventos que pueden sesgar el promedio, incluso si no hay control sobre el sexo del siguiente niño, o la siguiente tirada de dados, y no hay cambios en el probabilidad de ganar el siguiente partido. Creer que la respuesta debe ser 1/2, que no hay forma de sesgar una estadística controlando el punto de parada, es un grave error conceptual.

La controversia se deriva de la redacción descuidada (o la reinterpretación de las frases) de la pregunta prevista sin darse cuenta de que la redacción cambia la respuesta.

Las personas que creen que la respuesta es exactamente la mitad probablemente estén interpretando el problema de la siguiente manera: “¿Cuál es la proporción del número esperado de niños en relación con el número total esperado de niños (suponiendo una generación y el género de cada niño, a diferencia de realidad, es IID con p = 0.5)? ” La respuesta en este caso es exactamente la mitad.

Una frase alternativa, y la que se enumera en esta pregunta, es la siguiente: “¿Cuál es la proporción esperada del número de niños en relación con el número total de niños?” La respuesta a esto converge a la mitad para una población grande, pero es significativamente mayor que la mitad para las poblaciones pequeñas (esto es fácil de ver en el caso de una familia, que tiene una proporción esperada de 1 * 1/2 + 1 / 2 * 1/4 + 1/3 * 1/8 +… que es claramente mayor que 1/2).

La razón de la discrepancia es que cuando hay menos niñas, cada niño cuenta con una mayor proporción de la población, y este efecto se magnifica en poblaciones pequeñas.