An alternative for the average income estimation using small area methods

Cristian Tellez; Jairo Fuquene; Julieth Casta\~neda

arxiv: 1907.05387 · v1 · pith:Q45BKHIHnew · submitted 2019-07-01 · 📊 stat.AP

An alternative for the average income estimation using small area methods

Julieth Casta\~neda , Cristian Tellez , Jairo Fuquene This is my paper

Pith reviewed 2026-05-25 11:01 UTC · model grok-4.3

classification 📊 stat.AP

keywords small area estimationaverage incomemultidimensional poverty indexrelative errorsurvey datapopulation projectionsincome estimationauxiliary information

0 comments

The pith

Small area estimation using poverty indexes and population projections substantially reduces relative errors in average household income estimates.

A machine-rendered reading of the paper's core claim, the machinery that carries it, and where it could break.

The paper proposes a procedure to estimate average household income at small area levels by combining multipurpose survey data with auxiliary variables including multidimensional poverty indexes, valorization indexes, and official population projections. It shows that this approach improves upon standard methods by lowering the standard relative errors of the estimates. A sympathetic reader would care because better local income figures support more accurate decisions about economic policy and poverty reduction where direct survey samples are too small to be reliable on their own.

Core claim

The proposed practical procedure for estimating the average income using small area methods, illustrated with multipurpose survey information and auxiliary variables such as the multidimensional poverty and valorization indexes together with official population projections, produces substantially lower standard relative errors than standard approaches.

What carries the argument

A small area estimation model that augments survey data with multidimensional poverty indexes, valorization indexes, and population projections as auxiliary information.

If this is right

Local income estimates become reliable enough for use in targeted economic and poverty policies even in areas with limited direct survey responses.
The same auxiliary data sources can be reused across multiple socioeconomic indicators without requiring new large-scale surveys.
Decision makers gain access to finer-grained income maps that reflect multidimensional poverty patterns.
Official population projections serve as a stable anchor that reduces variability in the income estimates.

Where Pith is reading between the lines

These are editorial extensions of the paper, not claims the author makes directly.

The approach could be tested in other countries that maintain similar multidimensional poverty indexes and population projections.
If the error reduction holds, agencies might shift resources from expanding survey samples toward improving auxiliary data quality.
The method suggests a template for estimating other hard-to-measure local statistics such as consumption or employment rates.

Load-bearing premise

The multipurpose survey data combined with multidimensional poverty indexes, valorization indexes, and official population projections provide suitable auxiliary information that improves small area model performance for income estimation.

What would settle it

A head-to-head comparison on the same dataset showing that the proposed method does not produce lower standard relative errors than direct survey estimates or conventional small area models without the added indexes.

read the original abstract

The average household income is one of the most important indexes for decision making and the modelling of economic inequity and poverty. In this work we propose a practical procedure to estimate the average income using small area methods. We illustrate our proposal using information from a multipurpose survey and suitable economic and demographic variables such as the multidimensional poverty and the valorization indexes and the official population projections. We find that the standard relative errors for the income average estimates improve substantially when the proposed methodology is implemented.

Editorial analysis

A structured set of objections, weighed in public.

Desk editor's note, referee report, simulated authors' rebuttal, and a circularity audit. Tearing a paper down is the easy half of reading it; the pith above is the substance, this is the friction.

Desk Editor's Note private letter to a colleague

A routine SAE application to income estimation that shows lower model-based RSEs with chosen auxiliaries but provides no external check on whether the estimates are actually more accurate.

read the letter

The paper takes standard small area estimation methods and applies them to average household income from a multipurpose survey, adding auxiliaries such as the multidimensional poverty index, valorization indexes, and population projections. They report that the standard relative errors drop substantially under their procedure compared with a baseline. That is the core of what they show. Nothing in the work introduces new theory or a first-principles derivation; it is an applied illustration using established Fay-Herriot style models or close variants. The practical value comes from the specific variable choices and the claim that these auxiliaries improve precision in their setting, which could matter for local poverty or inequality work. The authors lay out a clear procedure and tie it to real data sources, which is useful for readers who need to replicate something similar. The main limitation is that all the reported gains are internal model outputs. There is no comparison of the resulting point estimates against an independent high-precision source such as census tabulations or a large validation survey for any subset of areas. Without that, it remains possible that the auxiliaries shrink the reported variances while leaving bias or misspecification untouched. The stress-test note on this point holds up from the abstract and the described results. The paper is aimed at applied statisticians in national offices or policy groups who produce small-area income or poverty indicators. A reader already working on similar SAE problems could extract the auxiliary-variable strategy and the reported error reductions as a reference point. It is not a major theoretical advance, but the concrete application and the policy relevance of better local income numbers make it worth sending to a referee who can ask for external validation or at least clearer discussion of the bias risk. I would bring it to a reading group only if the group focuses on official statistics practice.

Referee Report

1 major / 1 minor

Summary. The manuscript proposes a practical procedure for estimating average household income using small area estimation methods. It combines data from a multipurpose survey with auxiliary variables including multidimensional poverty indexes, valorization indexes, and official population projections. The central claim is that this approach substantially reduces the standard relative errors of the income estimates relative to standard methods.

Significance. If the reported precision gains correspond to actual improvements in accuracy, the work could provide a useful applied contribution to small-area income estimation for policy use in poverty and inequality analysis. The reliance on readily available auxiliary data is a practical strength. However, the absence of external validation against ground-truth sources limits the strength of the conclusions and the potential impact.

major comments (1)

[Results (or wherever the RSE comparisons are presented)] The headline claim of substantially improved standard relative errors rests entirely on internal model-based precision measures (e.g., from a Fay-Herriot-type model). No comparison of the resulting point estimates against an independent high-precision source such as census tabulations or a large validation survey is reported for any subset of areas. This is load-bearing for the central claim because model-based RSE reductions can occur even when auxiliaries improve apparent precision without reducing bias or misspecification.

minor comments (1)

[Abstract] The abstract states the improvement but provides no quantitative details on the magnitude of the RSE reduction or the number of small areas involved; adding these would improve clarity.

Simulated Author's Rebuttal

1 responses · 0 unresolved

We thank the referee for the constructive comments. We address the major comment below and indicate the changes we will make to the manuscript.

read point-by-point responses

Referee: [Results (or wherever the RSE comparisons are presented)] The headline claim of substantially improved standard relative errors rests entirely on internal model-based precision measures (e.g., from a Fay-Herriot-type model). No comparison of the resulting point estimates against an independent high-precision source such as census tabulations or a large validation survey is reported for any subset of areas. This is load-bearing for the central claim because model-based RSE reductions can occur even when auxiliaries improve apparent precision without reducing bias or misspecification.

Authors: We agree that the reported reductions in standard relative errors are obtained from the internal precision measures of the fitted Fay-Herriot model. No external validation against census tabulations or an independent large survey is provided, as comparable high-precision income data at the small-area level are unavailable for the reference period and geographic domain. The auxiliary variables (multidimensional poverty index, valorization index, and population projections) were chosen because prior economic studies document their association with household income. In the revised version we will (i) add a dedicated subsection on model-based inference that states the limitations of relying on estimated RSEs, (ii) report additional model diagnostics (residual plots, goodness-of-fit measures), and (iii) revise the abstract and conclusions to describe the gains as reductions in estimated relative standard errors rather than demonstrated improvements in accuracy. revision: yes

Circularity Check

0 steps flagged

No circularity: applied SAE procedure reports model-based RSE improvements without self-referential derivation

full rationale

The paper describes an applied small-area estimation procedure for household income that combines survey data with auxiliary indexes (multidimensional poverty, valorization, population projections). No mathematical derivation, uniqueness theorem, or first-principles result is presented whose output reduces by construction to its fitted inputs or to a self-citation chain. The reported improvement in standard relative errors is an empirical comparison of model outputs on the same dataset; this is standard model-based inference and does not meet any of the enumerated circularity patterns. The work is therefore self-contained against external benchmarks and receives the default non-finding.

Axiom & Free-Parameter Ledger

0 free parameters · 0 axioms · 0 invented entities

Abstract-only access prevents identification of specific free parameters, axioms, or invented entities; no modeling equations or data processing steps are visible.

pith-pipeline@v0.9.0 · 5605 in / 999 out tokens · 25460 ms · 2026-05-25T11:01:29.293928+00:00 · methodology

discussion (0)

Reference graph

Works this paper leans on

20 extracted references · 20 canonical work pages

[1]

Introducción El muestreo estadístico, a diferencia de los censos, permite obtener la información a un costo reducido. El muestreo se utiliza no solamente para la obtención de estimaciones en la población completa, sino para estimar parámetros en una variedad de subpoblacio- nes denominadas dominios, que se deﬁnen generalmente como áreas geográﬁcas o grupo...

work page 1979
[2]

Estas estadísticas son vitales para la toma de decisiones políticas y la asignación de recursos en diferentes niveles de desagración geográﬁca

Antecedentes Colombia es una de las sociedades más desiguales a nivel mundial, algunos de los estadísticos calculados y que evidencian dicha desigualdad son el ingreso promedio, el coeﬁciente de Ginni, la pobreza multidimensional, el índice de necesidades básicas insa- 2 tisfechas, entre otros. Estas estadísticas son vitales para la toma de decisiones pol...

work page 2011
[3]

En cada una de ellas se ordenaron las manzanas por estrato socioeconómico y usando el método sistemático se seleccionaron segmentos dentro de cada estrato

Marco Teórico En el marco muestral de la encuesta multipropósito se considera a cada localidad como un estrato. En cada una de ellas se ordenaron las manzanas por estrato socioeconómico y usando el método sistemático se seleccionaron segmentos dentro de cada estrato. El factor ﬁnal de expansión por hogarj, ωj, es el producto de factores de expansión. El e...

work page 1971
[4]

nd: Número de personas en la muestra dentro de la localidadd

work page
[5]

Nd: Número de personas total dentro de la localidadd

work page
[6]

Para el cálculo del tamaño de muestra se usó fenómenos con aproximadamente una prevalencia del 10% a nivel de localidad

P : Porcentaje de ocurrencia de los principales indicadores. Para el cálculo del tamaño de muestra se usó fenómenos con aproximadamente una prevalencia del 10% a nivel de localidad

work page
[7]

ESrel : Error estándar relativo, que para el ejercicio se ﬁjó en 5%. El efecto del diseño,deff = V ar(Congl ) V ar(M AS) , es una relación, entre la varianza de los conglo- merados,Var (Congl ), y la varianza bajo un diseño aleatorio simple de elementos,Var (M AS), es decir, mide el efecto de los conglomerados en el diseño Särndal et al. (2003). Recomen- ...

work page 2003
[8]

Variable de interés e información auxiliar En esta sección se describen las variables auxiliares utilizadas en el modelo Fay-Herriot y se describe el cálculo de la variable de interés, posteriormente las variables auxiliares, La primera está relacionada con el índice de pobreza multidimensional y la segunda con el índice de valorización de los predios. Co...

work page 2018
[9]

En el año 2010 se realizó la actualización de 2.181.000 predios urbanos, información que quedó vigente a partir del 1 de enero del año 2011. Es importante agregar que la Actualización Catastral consiste en el conjunto de ope- raciones destinadas a renovar los datos de la formación catastral, revisando los elementos físico y jurídico del catastro, eliminan...

work page 2010
[10]

La primera es de Pre-reconocimiento: donde se veriﬁca la información que reposa en las bases de datos de la Catastro Bogotá, con la realidad física del inmueble

work page
[11]

El siguiente paso es hacer el Reconocimiento predial, es decir, que se ingresa a los predios desactualizados y se miden las nuevas construcciones o demoliciones, se asigna un uso a esas construcciones, se asigna un destino al predio y se caliﬁcan las características de las construcciones

work page
[12]

Finalmente se realiza la Actualización Jurídica, donde se cruza la base de datos de la Unidad con la información de la Oﬁcina de Registro de Instrumentos Públicos. De manera adicional, existen otras actividades del proceso de actualización catastral, que también son importantes, como el Control de Calidad (validaciones prelimina- res, acompañamiento en ca...

work page 2011
[13]

Conformación de la variable Ingreso El propósito es construir ingreso para todos y cada uno de los perceptores que confor- man la Población en Edad de Trabajar (PET), teniendo en cuenta las diferencias entre los diversos grupos que la componen. Principalmente la desagregación entre la Población Económicamente Inactiva (PEI) y la Población Económicamente A...

work page 2011
[14]

Diseño Estadístico 6.1. Tipo de operación estadística La Encuesta Multipropósito Bogotá – EMB- es una encuesta por muestreo probabi- lístico dirigida a hogares con entrevista cara a cara e informante directo. 6.2. Universo El universo para la EMB está compuesto por los hogares particulares y la población civil no institucional existente en el año 2011 en ...

work page 2011
[15]

Resultados Con el objetivo de mejorar la estimación del ingreso promedio por localidad se utilizan variables auxiliares de diferentes fuentes de información en Colombia como son Planeación Distrital y Catastro que contienen información económica importante sobre las localidades en Bogotá, se puede observar en la Figura 2 tomando el logaritmo natural del r...

work page 2016
[16]

Modelo 1: ˆ¯Yd =β0 +β1 log(RI)d +ud +ϵd

work page
[17]

Modelo 2: ˆ¯Yd =β0 +β2ζd +ud +ϵd

work page
[18]

Modelo 3: ˆ¯Yd =β0 +β1 log(RI)d +β2ζd +ud +ϵd

work page
[19]

donde d = 1,...,D

Modelo 4: ˆ¯Yd =β0 +β1 log(RI)d +β2ζd +β3 log(RI)dζd +ud +ϵd. donde d = 1,...,D . La Tabla 1 muestra los resultados de todos los modelos en donde el Modelo 4 presenta, en la mayoría de las localidades, el menor Error Estándar Relativo. Por tanto, tomando 14 Localidad ˆEER( ˆ¯Y EBLUP1 d ) ˆEER( ˆ¯Y EBLUP2 d ) ˆEER( ˆ¯Y EBLUP3 d ) ˆEER( ˆ¯Y EBLUP4 d ) Usaqu...

work page
[20]

an essay on the logical foundations of survey sampling, part one

Conclusiones Como producto de la investigación desarrollada en este trabajo se puede concluir: Se encuentra que mediante la metodología propuesta, los errores estándar relativos en la estimación del ingreso promedio disminuyen. Dichas estimaciones son útiles no solo desde la perspectiva de la estimación en el área particular sino también en el planeamient...

work page 1993

[1] [1]

Introducción El muestreo estadístico, a diferencia de los censos, permite obtener la información a un costo reducido. El muestreo se utiliza no solamente para la obtención de estimaciones en la población completa, sino para estimar parámetros en una variedad de subpoblacio- nes denominadas dominios, que se deﬁnen generalmente como áreas geográﬁcas o grupo...

work page 1979

[2] [2]

Estas estadísticas son vitales para la toma de decisiones políticas y la asignación de recursos en diferentes niveles de desagración geográﬁca

Antecedentes Colombia es una de las sociedades más desiguales a nivel mundial, algunos de los estadísticos calculados y que evidencian dicha desigualdad son el ingreso promedio, el coeﬁciente de Ginni, la pobreza multidimensional, el índice de necesidades básicas insa- 2 tisfechas, entre otros. Estas estadísticas son vitales para la toma de decisiones pol...

work page 2011

[3] [3]

En cada una de ellas se ordenaron las manzanas por estrato socioeconómico y usando el método sistemático se seleccionaron segmentos dentro de cada estrato

Marco Teórico En el marco muestral de la encuesta multipropósito se considera a cada localidad como un estrato. En cada una de ellas se ordenaron las manzanas por estrato socioeconómico y usando el método sistemático se seleccionaron segmentos dentro de cada estrato. El factor ﬁnal de expansión por hogarj, ωj, es el producto de factores de expansión. El e...

work page 1971

[4] [4]

nd: Número de personas en la muestra dentro de la localidadd

work page

[5] [5]

Nd: Número de personas total dentro de la localidadd

work page

[6] [6]

Para el cálculo del tamaño de muestra se usó fenómenos con aproximadamente una prevalencia del 10% a nivel de localidad

P : Porcentaje de ocurrencia de los principales indicadores. Para el cálculo del tamaño de muestra se usó fenómenos con aproximadamente una prevalencia del 10% a nivel de localidad

work page

[7] [7]

ESrel : Error estándar relativo, que para el ejercicio se ﬁjó en 5%. El efecto del diseño,deff = V ar(Congl ) V ar(M AS) , es una relación, entre la varianza de los conglo- merados,Var (Congl ), y la varianza bajo un diseño aleatorio simple de elementos,Var (M AS), es decir, mide el efecto de los conglomerados en el diseño Särndal et al. (2003). Recomen- ...

work page 2003

[8] [8]

Variable de interés e información auxiliar En esta sección se describen las variables auxiliares utilizadas en el modelo Fay-Herriot y se describe el cálculo de la variable de interés, posteriormente las variables auxiliares, La primera está relacionada con el índice de pobreza multidimensional y la segunda con el índice de valorización de los predios. Co...

work page 2018

[9] [9]

En el año 2010 se realizó la actualización de 2.181.000 predios urbanos, información que quedó vigente a partir del 1 de enero del año 2011. Es importante agregar que la Actualización Catastral consiste en el conjunto de ope- raciones destinadas a renovar los datos de la formación catastral, revisando los elementos físico y jurídico del catastro, eliminan...

work page 2010

[10] [10]

La primera es de Pre-reconocimiento: donde se veriﬁca la información que reposa en las bases de datos de la Catastro Bogotá, con la realidad física del inmueble

work page

[11] [11]

El siguiente paso es hacer el Reconocimiento predial, es decir, que se ingresa a los predios desactualizados y se miden las nuevas construcciones o demoliciones, se asigna un uso a esas construcciones, se asigna un destino al predio y se caliﬁcan las características de las construcciones

work page

[12] [12]

Finalmente se realiza la Actualización Jurídica, donde se cruza la base de datos de la Unidad con la información de la Oﬁcina de Registro de Instrumentos Públicos. De manera adicional, existen otras actividades del proceso de actualización catastral, que también son importantes, como el Control de Calidad (validaciones prelimina- res, acompañamiento en ca...

work page 2011

[13] [13]

Conformación de la variable Ingreso El propósito es construir ingreso para todos y cada uno de los perceptores que confor- man la Población en Edad de Trabajar (PET), teniendo en cuenta las diferencias entre los diversos grupos que la componen. Principalmente la desagregación entre la Población Económicamente Inactiva (PEI) y la Población Económicamente A...

work page 2011

[14] [14]

Diseño Estadístico 6.1. Tipo de operación estadística La Encuesta Multipropósito Bogotá – EMB- es una encuesta por muestreo probabi- lístico dirigida a hogares con entrevista cara a cara e informante directo. 6.2. Universo El universo para la EMB está compuesto por los hogares particulares y la población civil no institucional existente en el año 2011 en ...

work page 2011

[15] [15]

Resultados Con el objetivo de mejorar la estimación del ingreso promedio por localidad se utilizan variables auxiliares de diferentes fuentes de información en Colombia como son Planeación Distrital y Catastro que contienen información económica importante sobre las localidades en Bogotá, se puede observar en la Figura 2 tomando el logaritmo natural del r...

work page 2016

[16] [16]

Modelo 1: ˆ¯Yd =β0 +β1 log(RI)d +ud +ϵd

work page

[17] [17]

Modelo 2: ˆ¯Yd =β0 +β2ζd +ud +ϵd

work page

[18] [18]

Modelo 3: ˆ¯Yd =β0 +β1 log(RI)d +β2ζd +ud +ϵd

work page

[19] [19]

donde d = 1,...,D

Modelo 4: ˆ¯Yd =β0 +β1 log(RI)d +β2ζd +β3 log(RI)dζd +ud +ϵd. donde d = 1,...,D . La Tabla 1 muestra los resultados de todos los modelos en donde el Modelo 4 presenta, en la mayoría de las localidades, el menor Error Estándar Relativo. Por tanto, tomando 14 Localidad ˆEER( ˆ¯Y EBLUP1 d ) ˆEER( ˆ¯Y EBLUP2 d ) ˆEER( ˆ¯Y EBLUP3 d ) ˆEER( ˆ¯Y EBLUP4 d ) Usaqu...

work page

[20] [20]

an essay on the logical foundations of survey sampling, part one

Conclusiones Como producto de la investigación desarrollada en este trabajo se puede concluir: Se encuentra que mediante la metodología propuesta, los errores estándar relativos en la estimación del ingreso promedio disminuyen. Dichas estimaciones son útiles no solo desde la perspectiva de la estimación en el área particular sino también en el planeamient...

work page 1993