Metodología - Nowcast de Pobreza

Resumen Ejecutivo

El nowcast de pobreza utiliza un modelo de panel departamental con Gradient Boosting Regressor (GBR) que predice cambios año-a-año en tasas de pobreza para 24 departamentos. El modelo usa indicadores económicos departamentales (crédito, electricidad, recaudación, gasto público, empleo, minería, inflación) para estimar pobreza monetaria con 6-12 meses de anticipación respecto a la publicación oficial anual de INEI.

RMSE Anual
2.54 pp
excl. COVID
vs AR(1)
-4.2%
Rel.RMSE = 0.953
GBR vs Ridge
-25%
RMSE reduction

1. Arquitectura del Modelo

1.1 Panel PovertyNowcaster con GBR

El modelo opera sobre un panel de 24 departamentos × 20 años (2004-2024). Usa un change-prediction approach: predice el cambio en pobreza, luego lo suma al valor observado en t-1.

Δpobrezad,t = GBR(Xd,t, pobrezad,t-1)
pobrezad,t = pobrezad,t-1 + Δpobrezad,t

Donde:

  • d: Departamento (24 unidades, Callao fusionado con Lima)
  • Xd,t: Features departamentales agregadas a frecuencia anual
  • pobrezad,t-1: Rezago de pobreza (muy predictivo)
  • GBR: Gradient Boosting Regressor (scikit-learn) con 100 árboles, max_depth=3

1.2 ¿Por qué Change-Prediction?

Intentos anteriores de predecir niveles directos fallaron:

  • Fixed-effects demeaning: RMSE = 24.5 pp (inestable con N=24, produce predicciones negativas)
  • Level prediction con Ridge: RMSE = 13.7 pp (pierde info del rezago AR tras estandarización)
  • Change prediction (actual): RMSE = 2.54 pp ✓ — preserva información del rezago

1.3 Gradient Boosting vs Ridge

GBR superó dramáticamente a Ridge lineal:

ModeloRMSE (pp)Casos Extremos
Ridge (α=100)3.40Junín: -10pp, Moquegua: -6pp
GBR (100 trees)2.54Junín: +4pp, Moquegua: +0.5pp

GBR captura no-linealidades en la relación entre crédito, electricidad y empleo con pobreza que Ridge no puede modelar.

1.4 Manejo de COVID-19

Similar a GDP/Inflación, excluimos 2020-2021 de training Y evaluación:

  • Resultado: RMSE mejora de 4.6 pp (con COVID) a 3.2 pp (sin COVID) — reducción de 30%
  • "2018 structural break" = 100% COVID: pre-2018 RMSE=1.39pp vs post-2018 excl. COVID RMSE=1.57pp (p=0.79, NO significativo)
  • El supuesto "quiebre en 2018" desapareció al excluir COVID — era un artefacto del shock 2020

2. Fuentes de Datos

2.1 Features Departamentales

Panel departamental mensual (25 depts × ~260 meses) agregado a frecuencia anual:

CategoríaSeriesFuente
CréditoCrédito total, consumo, MiPyme (YoY%)BCRP
DepósitosDepósitos vista, ahorro, plazo (YoY%)BCRP
ElectricidadProducción eléctrica departamental (YoY%)BCRP
EmpleoAfiliados pensiones (ONP/AFP, YoY%)BCRP
FiscalRecaudación tributaria, gasto regional/local (YoY%)MEF/SUNAT
PBIPBI mensual proxy (YoY%)BCRP
MineríaÍndice producción minera (YoY%)BCRP

2.2 Luces Nocturnas (NTL) — Solo para Desagregación Distrital

NTL NO es un predictor del modelo GBR. Tanto GBR como ENet asignan peso cero a NTL a nivel departamental. La imagenería satelital NTL (NOAA-VIIRS) se usa exclusivamente para desagregación espacial a nivel distrital mediante mapeo dasimétrico: las estimaciones de pobreza distrital se distribuyen proporcionalmente a la intensidad de luces nocturnas dentro de cada departamento, siguiendo a Jean et al. (2016).

poverty_districti = poverty_deptd × (NTL_weighti / Σ NTL_weightd)

Los pesos NTL se calculan como fracciones inversas de luz: distritos con menor actividad económica (menor NTL) reciben mayor asignación de pobreza. Este enfoque dasimétrico provee granularidad distrital sin requerir datos de encuesta a ese nivel.

2.3 Target: Pobreza Monetaria Departamental (INEI)

Tasa de pobreza monetaria (% población bajo línea de pobreza) por departamento. Publicado anualmente con ~6-7 meses de rezago (ej: datos 2024 publicados en Mayo 2025).

Cobertura: 24 departamentos (Callao fusionado con Lima en datos oficiales), 2004-2024.

3. Desempeño y Validación

3.1 Backtest Anual (2012-2024, excl. COVID)

ModeloRMSE (pp)MAE (pp)Rel.RMSE
Panel GBR (change-pred)2.541.890.953
AR(1) Departamental2.651.971.000
Random Walk2.782.111.049

Primera vez que GBR supera AR(1) en backtests de pobreza (Rel.RMSE = 0.953, -4.7% error). Anteriormente Ridge no lograba vencer benchmarks naive.

3.2 Nowcasting Mensual (2012-2024)

El modelo también produce nowcasts mensuales usando rolling windows de 12 meses sobre el panel:

  • RMSE mensual: ~4.3-4.5 pp (estable en meses 3, 6, 9, 12)
  • Within-year noise: 0.5-0.7 pp (bien debajo de 2pp threshold)
  • Monthly revisions: 0.6-0.7 pp (pequeñas y estables)
  • Rel.RMSE vs AR1: 0.989 (-1.1% vs AR1) — ligeramente mejor que anual

El ruido intra-año es bajo, por lo que NO se requiere suavizado adicional.

3.3 Nowcast Actual (2025)

Pobreza Nacional 2025: 25.2%

24 departamentos | −1.0 pp vs oficial 2024 (26.2%) | Cobertura mixta hasta dic-2025

4. Nowcasting Trimestral

Complemento a nowcasts anuales/mensuales: predicciones trimestrales usando desagregación temporal (Chow-Lin) para interpolar entre años.

4.1 Método Chow-Lin

Desagrega observaciones anuales a frecuencia trimestral usando indicadores de alta frecuencia como related series (Chow & Lin, 1971):

pobreza_quarterly = ChowLin(pobreza_annual, related=[pbi_q, credito_q, ipc_q])

Ventajas:

  • Preserva totales anuales (suma de 4 trimestres = valor anual)
  • Captura variación intra-año usando indicadores mensuales agregados a trimestral
  • Métodos GLS minimizan autocorrelación residual

Ver gráficos trimestrales para series desagregadas.

⚠️ Limitaciones

  • N pequeño: Solo 24 departamentos → varianza alta en estimaciones departamentales. Nacional es más estable.
  • Rezago de features: Algunos indicadores departamentales (crédito, empleo) tienen 1-2 meses de publication lag, limitando la anticipación del nowcast.
  • Heterogeneidad regional: Relaciones crédito-pobreza pueden variar por departamento (ej: Lima vs Amazonas). GBR captura algo de no-linealidad pero no interacciones espaciales complejas.
  • COVID como outlier extremo: Exclusión total de 2020-2021 reduce datos disponibles (de 20 años a 18 años efectivos). Trade-off necesario para evitar distorsión.

Referencias

Elbers, C., Lanjouw, J. O., & Lanjouw, P. (2003). "Micro-level estimation of poverty and inequality." Econometrica, 71(1), 355-364.

Zhao, X., Yu, B., Liu, Y., Chen, Z., Li, Q., Wang, C., & Wu, J. (2019). "Estimation of poverty using random forest regression with multi-source data: A case study in Bangladesh." Remote Sensing, 11(4), 375.

Jean, N., Burke, M., Xie, M., Davis, W. M., Lobell, D. B., & Ermon, S. (2016). "Combining satellite imagery and machine learning to predict poverty." Science, 353(6301), 790-794.

Chow, G. C., & Lin, A. L. (1971). "Best linear unbiased interpolation, distribution, and extrapolation of time series by related series." The Review of Economics and Statistics, 53(4), 372-375.

Código fuente disponible en el repositorio NEXUS

Ver: src/models/poverty.py, src/processing/spatial_disagg.py, scripts/run_poverty_backtest.py