Metodología

Cómo construimos cifras que se pueden auditar.

Esta página documenta el método con el que el observatorio procesa, valida y publica datos. No es un manifiesto: es la especificación operativa que aplicamos a cada análisis.

Principios

Cinco compromisos no negociables.

Antes del código y de las cifras, está el método. Estos cinco principios ordenan toda decisión técnica del observatorio.

01
Reproducibilidad al peso desde el microdato.
Trabajamos con la unidad mínima publicada por la fuente oficial — no con tabulados agregados. Cualquier cifra que mostramos puede ser reconstruida bajándose el microdato original y aplicando el mismo procesamiento que documentamos.
02
Validación cruzada contra la publicación oficial.
Cuando la fuente publica cifras agregadas (un comunicado, un cuadro oficial), reproducimos esas cifras al peso desde nuestro pipeline antes de publicar nada nuevo. Si nuestra cifra no coincide con la oficial dentro de la tolerancia documentada, paramos.
03
Transparencia metodológica por defecto.
Toda gráfica del observatorio carga su nota de método embebida: unidad de medida, fuente, edición, fórmula de cálculo, fecha de última validación. No hay cifra sin contexto.
04
Distinción entre lo descriptivo y lo interpretativo.
Separamos explícitamente los hechos cuantificables del análisis interpretativo. Una cifra es una cifra; lo que esa cifra significa para política pública es otra cosa, y se etiqueta como tal.
05
Caveats explícitos sobre límites del dato.
Cada análisis lleva una sección que dice qué los datos SÍ permiten afirmar y qué NO. Las hipótesis no probadas se nombran como hipótesis. Los outliers, las definiciones operativas y los artefactos de la fuente se hacen visibles.

Pipeline técnico

Del archivo fuente a la cifra publicada.

Cada dataset que entra al observatorio recorre el mismo camino. Documentar este recorrido permite que cualquiera pueda replicarlo, auditarlo o señalar dónde estamos cometiendo errores.

Paso 01
Ingesta y verificación de integridad
Descargamos el dataset desde la fuente oficial (INEGI, CONSAR, Banxico, Datos Abiertos CDMX, etc.). Calculamos hash criptográfico (MD5 o SHA-256) del archivo descargado. Ese hash queda registrado en metadatos del observatorio y se vuelve a calcular en cada paso del pipeline.
Ejemplo
El CSV de recursos CONSAR (1998-2025) tiene MD5 19083c9a46d9d958b1428056c2f5f0b1. Ese mismo hash debe aparecer en el archivo original, en la base local Docker y en la base serverless Neon de producción. Si no coincide, hay un problema.
Paso 02
Carga en base de datos con esquema documentado
El microdato se carga en PostgreSQL con un esquema explícito: tipos de columna, constraints, claves foráneas, catálogos de referencia. Cada tabla lleva un comentario SQL que apunta al diccionario de datos oficial de la fuente.
Ejemplo
Las tablas de ENIGH preservan los nombres y tipos del diccionario INEGI (folioviv, foliohog, factor, ing_cor). El catálogo de entidades federativas usa la clave INEGI 01-32, no nombres.
Paso 03
Procesamiento factor-weighted
Las encuestas oficiales usan factores de expansión para pasar de la muestra al universo nacional. Aplicamos siempre la metodología oficial de la fuente — para INEGI, agregación factor-weighted (SUM(columna × factor) / SUM(factor)), no agregados muestrales simples ni NTILE. El método está documentado en el comunicado oficial de cada encuesta.
Paso 04
Validación cruzada contra publicación oficial
Antes de exponer una cifra, la reproducimos contra la publicación oficial de la fuente. Cada validación documenta: la cifra calculada, la cifra oficial, el delta porcentual, y la tolerancia admisible. Si una validación falla, el dataset no se publica.
Ejemplo
Para ENIGH 2024 NS, las 13 cifras del Comunicado INEGI 112/25 (cuadro 2) se reproducen en nuestro pipeline con delta máximo de 0.078%. Las 13 validaciones quedan expuestas públicamente en el endpoint de validación de la API.
Paso 05
Publicación con metadatos embebidos
La cifra llega al sitio acompañada de su nota metodológica: unidad, fuente, edición, fórmula, fecha de validación, link a la documentación oficial. Esa nota aparece en el componente que renderiza la cifra, no en una sección aparte que se pueda ignorar.

Este pipeline se aplica hoy a tres datasets en producción: ENIGH 2024 Nueva Serie, recursos del SAR (CONSAR 1998–2025) y nombramientos del Gobierno de la Ciudad de México. Cada nuevo dataset que se incorpore al observatorio recorrerá el mismo camino antes de publicarse.

Estándares editoriales

Cómo escribimos sobre lo que medimos.

Tener buenas cifras no basta. La forma en que las presentamos determina si son útiles o si se prestan a malinterpretación. Estos son los estándares editoriales que aplicamos a toda publicación.

Sobre las cifras

Toda cifra lleva su unidad explícita.
“Pesos mensuales por hogar” no es lo mismo que “pesos trimestrales por persona”. La unidad va junto al número.
Toda cifra lleva su fuente y fecha.
Nada de “según estimaciones recientes”. La fuente se nombra y se enlaza al documento oficial.
Las comparaciones declaran si son nominales o reales.
Cuando comparamos a través del tiempo, decimos si está deflactado y con qué índice.
Los promedios vienen acompañados de medianas y percentiles relevantes.
Un promedio sin distribución es engañoso. Reportamos al menos p25/p50/p75 cuando la distribución importa.
Los porcentajes nombran su denominador.
“37% de los hogares” no significa nada sin saber sobre qué universo se calcula.

Sobre la narrativa

Separamos descripción de interpretación.
Las secciones descriptivas reportan lo que los datos dicen; las interpretativas se etiquetan como tales y citan las fuentes en que se apoyan.
Las hipótesis no probadas se nombran como hipótesis.
Si los datos sugieren algo pero no lo demuestran, lo decimos: “los datos son consistentes con X, pero no prueban X”.
Los caveats no van al final, van junto al hallazgo.
Cuando una cifra tiene una limitación importante, esa limitación va al lado de la cifra, no en una sección de notas que nadie lee.
No usamos lenguaje persuasivo sobre lo que muestran los datos.
Evitamos “alarmante”, “preocupante”, “esperanzador”. Reportamos magnitudes y dejamos que el lector valore.
Las rectificaciones son públicas.
Cuando detectamos un error en una publicación previa, lo corregimos visiblemente y documentamos qué cambió y por qué.

Auditoría pública

Lo que ponemos a disposición para que cualquiera nos revise.

El rigor metodológico no se demuestra diciéndolo, sino exponiéndose a ser auditado. Estos son los recursos que abrimos públicamente para que cualquier persona pueda verificar nuestro trabajo.

Microdatos descargables

Cada análisis enlaza al microdato original en el portal oficial de la fuente. No alojamos copias; remitimos al dato canónico para que la trazabilidad llegue hasta el origen.

Código fuente abierto

El código que procesa los datos, calcula las cifras y construye los dashboards está en repositorio público. Cualquiera puede clonarlo, ejecutarlo y verificar que produce las mismas cifras que publicamos.

Repositorio público →

API pública con validaciones

El observatorio expone una API REST documentada (Swagger/OpenAPI). Algunos endpoints exponen explícitamente las validaciones contra publicaciones oficiales: cifra calculada, cifra oficial, delta, estado pass/fail.

Documentación de la API →

Notas metodológicas embebidas

Cada gráfica del observatorio incluye su nota metodológica completa (unidad, fuente, edición, fórmula, fecha de validación). La nota está en el componente, no en un PDF separado.

Registro de cambios

Cuando el método cambia, lo documentamos.

Los métodos evolucionan. Cuando cambiamos algo en cómo procesamos o reportamos los datos, queda registrado aquí. Esto permite que análisis hechos en distintos momentos sigan siendo comparables.

Fecha	Cambio	Motivo	Datasets afectados
[PENDIENTE]	Publicación inicial de la metodología documentada	Lanzamiento del sitio público de Datos México	Todos los datasets vigentes

Esta tabla se irá llenando conforme el observatorio evolucione su práctica metodológica. Los cambios sustantivos llevarán además una nota explicativa en las publicaciones afectadas.

¿Quieres revisar nuestro método más a fondo?

Si eres investigador, periodista de datos, o trabajas con encuestas oficiales y quieres revisar cómo procesamos algún dataset específico, escríbenos. Compartimos código, esquemas y procedimientos sin restricciones.

Escríbenos a academia@datosmexico.org

Cómo construimos cifras que se pueden auditar.

Reproducibilidad al peso desde el microdato.

Validación cruzada contra la publicación oficial.

Transparencia metodológica por defecto.

Distinción entre lo descriptivo y lo interpretativo.

Caveats explícitos sobre límites del dato.

Ingesta y verificación de integridad

Carga en base de datos con esquema documentado

Procesamiento factor-weighted

Validación cruzada contra publicación oficial

Publicación con metadatos embebidos