Este es un conjunto de datos maravilloso. Sin embargo, la gráfica (originalmente de [1]) comete un error común en el análisis de datos generados por humanos: ignorar los efectos del día de la semana.
Esto es un problema porque el promedio del día del año a lo largo de varios años difumina el día de la semana. Si examinamos los diferentes componentes por separado en lugar de un promedio simple, los datos tienen más sentido.
Veamos un par de años de datos en bruto:
Esto nos dice cuatro cosas:
- Si una mujer viola a un hombre y queda embarazada, ¿qué derechos tiene el hombre? ¿Tendría que pagar la pensión alimenticia?
- ¿Puedo tomar té de hierbas si estoy embarazada?
- ¿Cuáles son las maneras de explicar el embarazo a un niño de 5 años?
- ¿Por qué un médico sugiere inducir el parto?
- ¿Qué tan seguro es el nacimiento de agua?
Primero, como vimos en la trama de Chris, hay un patrón estacional consistente (usando ‘estacional’ en el sentido coloquial no de series de tiempo), que alcanza su punto máximo en septiembre.
En segundo lugar, hay un patrón definido de día de semana frente a fin de semana que se minimizó previamente al promediar los años. Los puntos negros son más bajos que los grises. De hecho, los domingos también son más bajos que los sábados, lo cual se puede ver claramente en mi respuesta a Cumpleaños: ¿En qué día de la semana es más probable que nazcan las personas? )
En tercer lugar, algunos días festivos no relacionados con el día del año se ocultaron previamente.
Cuarto, las vacaciones son similares en magnitud a los fines de semana. Esto sugiere que es posible que no queramos explicar las bajas en las tasas de natalidad en los días festivos debido al estrés (según la teoría de la partera de Jay Whitfield). Podría ser cierto, pero parece más probable que tanto los días festivos como los fines de semana muestren bajas tasas de natalidad debido a la programación.
Usando una combinación de loess y regresión lineal, puede descomponer los datos en la tendencia estacional, el componente del día de la semana y los componentes principales de vacaciones y terminan pareciéndose a esto:
El lento componente estacional es interesante y, obviamente, refleja una tendencia de las parejas a quedar embarazadas en el invierno y seguir con los nacimientos. Los máximos estacionales de los bebés el 31 de agosto, lo que sugiere que un día de concepción común es el 9 de diciembre. Es posible que parte de este componente se deba a un estado de ánimo especial para la época del año, ya que se observan patrones de vacaciones similares en otros países, incluso cuando las vacaciones son en una época diferente del año.
Pero es poco probable que los chanchullos en los días festivos sean la explicación completa porque el pico estacional es demasiado amplio. Su ancho en la mitad del máximo (FWHM, como dicen los nerds) es tal vez un mes más largo que la temporada de vacaciones de Halloween-NYE. Un salto rápido a Google scholar nos dice que algunos estudios informan que el patrón estacional se debe en parte a que las mujeres ricas evitan los nacimientos de invierno. Aparentemente, los padres de los nacimientos de invierno son más propensos a ser menos ricos, más jóvenes, etc. [2]
No me queda del todo claro por qué los ricos deben evitar los nacimientos de invierno. Hay algunos mecanismos sugeridos que no encuentro inmediatamente convincentes. Los padres pueden estar tratando de reducir el riesgo de problemas de salud. La temporada de nacimiento puede significar un riesgo alterado de gripe estacional y otras enfermedades en la vida temprana. Los niños de invierno también pueden tener menos escolaridad a una edad determinada. Pero si la afluencia de los padres varía según la temporada, estos efectos pueden ser algo así como una profecía autocumplida que genera una correlación no causal: con las personas ricas que tienen bebés en otros momentos, los menos ricos estarán sobre representados en el invierno. (¿Alguien aquí eligió conscientemente la época del año para el nacimiento de un niño?)
Cualquiera sea la causa de los patrones estacionales, es probable que podamos atribuirlo a los padres en lugar del sistema médico.
El patrón semanal, por otro lado, lo atribuiría al sistema médico. No puedo pensar en ninguna buena razón por la que los padres no quieran nacer los fines de semana. Parece que debería facilitar la presencia de la familia.
Entonces, ¿quién tiene poder real para programar los nacimientos? ¿Qué da lugar a los patrones que vemos? Si suponemos que el sistema médico quiere evitar los fines de semana y los pacientes quieren evitar algunos días desfavorables (el 13, 1 de abril, 29 de febrero), podemos abordar esta pregunta con facilidad. Aquí hay una ilustración de los días desfavorables (y un día favorable) desde la perspectiva de los padres con el patrón del día de la semana eliminado para una fácil visualización.
Evitar citas desafortunadas es obvio.
Así que ahora podemos preguntar qué sucede en los conflictos entre el sistema médico que no les gusta los fines de semana y el desagrado de los padres de los días desafortunados. Por ejemplo, si el 13 es el lunes, ¿las fechas de vencimiento son empujadas antes al mismo grado que cuando el 13 es un martes? La respuesta es no: en los supuestos conflictos, el sistema médico se abre camino en un 70-80% del tiempo.
A un lado, me encanta este conjunto de datos. El conjunto de datos de natalidad de los CDC es un historial cuantitativo de la América moderna que está a la espera de ser leído por cualquiera que sepa un poco de SQL [3]. Está lleno de todo tipo de historias hermosas, como el aumento de bebés interraciales y la disminución de los embarazos de adolescentes.
Referencias:
[1] Análisis de Chris Mulligan http://chmullig.com/2012/06/birt…
[2] Bobak, Martin y Arjan Gjonca. “La estacionalidad del nacimiento vivo está fuertemente influenciada por factores sociodemográficos”. Reproducción humana 16.7 (2001): 1512-1517. http: //humrep.oxfordjournals.org…; Buckles & Hungerman, temporada de nacimiento 2010 y resultados posteriores: preguntas antiguas, nuevas respuestas http://nd.edu/~dhungerm/w14573.pdf
[3] Interfaz de Google BigQuery para el conjunto de datos CDC https://developers.google.com/bi…
[Nota: Andrew Gelman publicó un dulce análisis de los mismos datos de Aki Vehtari aquí: Modelos estadísticos, inferencias causales y ciencias sociales ]