Desenvolvendo uma população brasileira sintética derivada do Censo demográfico de 2010

Autores

DOI:

https://doi.org/10.20947/S0102-3098a0306

Palavras-chave:

População, Análise de coorte, Simulação, Inferência Estatística

Resumo

O Censo brasileiro de 2010 contém uma riqueza de informações que podem permitir pesquisas e subsidiar políticas em saúde, educação, economia e outros setores. O Censo fornece dados publicamente disponíveis em duas formas. Primeiro, tabelas de contingência no nível municipal, para estratos definidos por raça, gênero e educação. Segundo, microdados com informações pessoais. Para preservar o anonimato individual nos dados, o Censo reduziu algumas variáveis a categorias mais amplas e removeu dados com identificações pessoais. As estratégias de composição de dados das tabelas de contingência e dos microdados são diferentes e, ao comparar amostras de ambos os dados, descobrimos que a variável raça nos microdados ignora a presença de minorias em alguns municípios. Isso sugere que populações sintéticas baseadas no Censo de 2010 devem ser criadas usando tabelas de contingência. Nossa avaliação mostra que a população sintética assim criada mantém os valores e proporções das tabelas de contingência e apresenta totais próximos aos dos microdados.

Downloads

Não há dados estatísticos.

Biografia do Autor

Cleônidas Tavares de Souza Junior, CIDACS - Centro de Integração de Dados e Conhecimentos para Saúde

Cleônidas é doutor em Modelagem Computacional de Sistemas Cognitivos (SENAI-CIMATEC)

Desmond Campbell, Universidade de Glasgow

Pesquisador Associado (Unidade de Ciências Sociais e de Saúde Pública)

Srinivasa Vittal Katikireddi , Universidade de Glasgow

S Vittal Katikireddi é um médico de saúde pública que se graduou em Medicina e Genética na Universidade de Edimburgo e fez mestrado e doutorado em saúde pública na Universidade de Glasgow, onde atualmente é professor de Saúde Pública e Desigualdades em Saúde.

Paulo Victor Maciel da Costa , CIDACS - Centro de Integração de Dados e Conhecimentos para Saúde

Paulo é doutor em Demografia pelo Programa de Pós-Graduação em Demografia (PPGDem) da Universidade Federal do Rio Grande do Norte (UFRN)

Gervásio Ferreira dos Santos , CIDACS - Centro de Integração de Dados e Conhecimentos para Saúde

Gervásio é doutor em Economia pela Universidade de São Paulo (USP)

Mauricio Lima Barreto, CIDACS - Centro de Integração de Dados e Conhecimentos para Saúde

Mauricio é médico (UFBA), Mestre em Saúde Comunitária (UFBa) e doutor em Epidemiologia (LSHTM- U of London).

Roberto Fernandes Silva Andrade, CIDACS - Centro de Integração de Dados e Conhecimentos para Saúde

Roberto é doutor em Física pela Universidade de Regensburg (Alemanha)

Referências

AJAUSKAS, R.; STRAMBI, O. Procedimento para geração de populações sintéticas com base em dados disponíveis no Brasil. Transportes, v. 32, n. 3, e2617, 2024.

ARORA, A.; WAGNER, S. K.; CARPENTER, R.; JENA, R.; KEANE, P. A. The urgent need to accelerate synthetic data privacy frameworks for medical research. The Lancet Digit Health, v. 7, n. 2, E157-E160, 2025.

BECKMAN, R. J.; BAGGERLY, K. A.; MCKAY, M. D. Creating synthetic baseline populations. Transportation Research Part A: Policy and Practice, v. 30, n. 6, p. 415-429, 1996.

BELOV, V.; TATARINTSEV, A.; NIKULCHEV, E. Choosing a Data storage format in the Apache Hadoop system based on experimental evaluation using Apache Spark. Symmetry, v. 13, Article 195, 2021.

BISSETT, K. R.; CADENA, J.; KHAN, M.; KUHLMAN, C. J. Agent based computational epidemiological modeling. Journal of Indian Institute of Science, v. 101, n. 3, p. 303-307, 2021.

CHAPUIS, K.; TAILLANDIER, P.; DROGOUL, A. Generation of synthetic populations in social simulations: a review of methods and practices. Journal of Artificial Societies and Social Simulation, v. 25, n. 2, Article 6, 2022.

DUARTE, L. T.; SILVA, D. B. D. N.; BRITO, J. A. D. M. Análise de paradados do Censo Demográfico 2010: uma investigação de fatores associados a erros não amostrais do levantamento de dados. Revista Brasileira de Estudos de População, v. 33, n. 3, p. 679-701, 2016.

ETUMAN, A. E.; BENOUSSAÏD, T.; CHARREIRE, H.; COLL, I. OLYMPUS-POPGEN: a synthetic population generation model to represent urban populations for assessing exposure to air quality. PloS One, v. 19, n. 3, Article e0299383, 2024.

FAROOQ, B.; BIERLAIRE, M.; HURTUBIA, R.; FLÖTTERÖD, G. Simulation based population synthesis. Transportation Research Part B: Methodological, v. 58, p. 243-263, 2013.

FELBERMAIR, S.; LAMMER, F.; TRAUSINGER-BINDER, E.; HEBENSTREIT, C. Generating synthetic population with activity chains as agent-based model input using statistical raster census data. Procedia Computer Science, v. 170, p. 273-280, 2020.

FURTADO, B. A. Gerando famílias artificiais intraurbanas: Censo 2010. Brasília: Ipea, 2020 (Nota Técnica, n. 78).

GADOTTI, A.; ROCHER, L.; HOUSSIAU, F.; CREŢU, A.; MONTJOYE, Y. Anonymization: the imperfect science of using data while preserving privacy. Science Advances, v. 10, n. 29, Article eadn7053, 2024.

GUNSALUS, P. R.; ROSE, J.; LEHR, C. J.; VALAPOUR, M.; DALTON, J. E. Creating synthetic populations in transplantation: a Bayesian approach enabling simulation without registry resampling. PloS One, 2024.

IBGE – Instituto Brasileiro de Geografia e Estatística. Metodologia do Censo Demográfico 2010. Rio de Janeiro: IBGE, 2013.

IBGE – Instituto Brasileiro de Geografia e Estatística. Sistema IBGE de Recuperação Automática – Sidra, 2024. Disponível em: https://sidra.ibge.gov.br/home/pms/brasil. Acesso em: 01 set. 2024.

IBGE-DOWNLOADS. IBGE – Downloads, 2024. Disponível em: https://www.ibge.gov.br/estatisticas/downloads-estatisticas.html. Acesso em: 28 set. 2024.

IBGE-MICRODADOS. IBGE – Censo demográfico, 2024. Disponível em: https://www.ibge.gov.br/ estatisticas/sociais/populacao/9662-censo-demografico-2010.html?=&t=microdados. Acesso em: 28 set. 2024.

JIANG, N.; CROOKS, A. T.; KAVAK, H.; BURGER, A.; KENNEDY, W. G. A method to create a synthetic population with social networks for geographically-explicit agent-based models. Computational Urban Science, v. 2, n. 7, 2022.

KONDURI, K.; YOU, D.; GARIKAPATI, V.; PENDYALA, R. Enhanced synthetic population generator that accommodates control variables at multiple geographic resolutions. Transportation Research Record, v. 2563, n. 1, p. 40-50, 2016.

KRIJKAMP, E. M.; ALARID-ESCUDERO, F.; ENNS, E. A.; JALAL, H. J.; HUNINK, M. G. M.; PECHLIVANOGLOU, P. Microsimulation modeling for health decision sciences using R: a tutorial. Medical Decision Making, v. 38. n. 2, p. 400-422, 2018.

LEYK, S.; GAUGHAN, A. E.; ADAMO, S. B.; SHERBININ, A. de; BALK, D.; FREIRE, S.; ROSE, A.; STEVENS, F. R.; BLANKESPOOR, B.; FRYE, C.; COMENETZ, J.; SORICHETTA, A.; MACMANUS, K.; PISTOLESI, L.; LEVY, M.; TATEM, A. J.; PESARESI, M. The spatial allocation of population: a review of large-scale gridded population data products and their fitness for use. Earth System Science Data, v. 11, p. 1385-1409, 2019.

LI, J.; VIDYATTAMA, Y. Projecting spatial population and labour force growth in Australian districts. Journal of Population Research, v. 36, p. 205-232, 2019.

MT tem três terras indígenas sob ameaça de madeireiros e grileiros vigiadas pela Força Nacional. G1. 10 de janeiro de 2022. Disponível em: https://g1.globo.com/mt/mato-grosso/ noticia/2022/02/10/mt-tem-tres-terras-indigenas-sob-ameaca-de-madeireiros-e-grileirosvigiadas-pela-forca-nacional.ghtml. Acesso em: 31 jul. 2025.

NADAL, J. O.; SANZ, G. C.; RIBAS, I. F.; MONDELO, P. R. Determining occupational accidents baseline ratios by considering a synthetic population: the case of Spain. PloS One, v. 18, n. 11, Article e0294707, 2023.

NICOLAIE, M. A.; FÜSSENICH, K.; AMELING, C.; BOSHUIZEN, H. C. Constructing synthetic populations in the age of big data. Population Health Metrics, n. 21, 2023.

NOWOK, B.; RAAB, G. M.; DIBBEN, C. synthpop: bespoke creation of synthetic data in R. Journal of Statistical Software, v. 74, n. 11, 2016.

PIANUCCI, M.; PITOMBO, C.; CUNHA, A.; LIMA, P. Previsão da demanda por viagens domiciliares

através de método sequencial baseado em população sintética e redes neurais artificiais. Transportes, v. 27, 2019.

PNUD; IPEA; FJP. Atlas do desenvolvimento humano no Brasil 2013. PNUD Brasil, 2025. Disponível em: http://www.atlasbrasil.org.br/perfil/municipio/510325#:~:text=De%20acordo%20com%20s%20estimativas,maioria%2C%20por%20homens%20e%20negros%20. Acesso em: 31 jul.2025.

PRÉDHUMEAU, P.; MANLEY, E. A synthetic population for agent-based modelling in Canada. Scientific Data, v. 10, n. 148, 2023.

R CORE TEAM. R: a language and environment for statistical computing. Vienna, Austria: R Foundation, 2024. Disponível em: https://www.r-project.org/. Acesso em: 02 ago. 2025.

RAGHUNATHAN, T. E. Synthetic data. Annual Review Statistics and its Application, v. 8, n. 129, p. 129-140, 2021.

RASELLA, D.; BASU, S.; HONE, T.; PAES-SOUSA, R.; OCKÉ-REIS, C. O.; MILLETT, C. Child morbidity and mortality associated with alternative policy responses to the economic crisis in Brazil: a nationwide microsimulation study. Plos Medicine, v.15, n. 5, Article e1002570, 2018.

POSIT TEAM. RStudio: Integrated Development Environment for R. Boston, MA: Posit Software, PBC, 2025. Disponível em: http://www.posit.co/. Acesso em: 02 ago. 2025.

SALLARD, A.; BALAĆ, M.; HÖRL, S. A synthetic population for the greater São Paulo metropolitan region. Arbeitsberichte Verkehrs-und Raumplanung, v. 1545, 2020.

SCHOFIELD, D.; ZEPPEL, M.; TAN, O.; LYMER, S.; CUNICH, M.; SHRESTHA, R. A brief, global history of microsimulation models in health: past applications, lessons learned and future directions. International Journal of Microsimulation, v. 11, n. 1, p. 97-142, 2018.

SOUZA-JUNIOR, C. T. D. Population. GitHub repository. Disponível em: https://github.com/Cleonidas-Tavares/Population. Acesso em: 16 nov. 2024. .

TEMPL, M.; KOWARIK, A.; MEINDL, B. Statistical disclosure control for micro-data using the R Package sdcMicro. Journal of Statistical Software, v. 67, n. 4, 2015.

TON, M. J.; INGELS, M. W.; DE BRUIJN, J. A.; DE MOEL, H.; REIMANN, L.; BOTZEN, W. J. W.; AERTS, J. C. J. H. A global dataset of 7 billion individuals with socio-economic characteristics. Scientific Data, v. 11, Article 1096, 2024.

TOZLUOĞLU, Ç.; DHAMAL, S.; YEH, S.; SPREI, F.; LIAO, Y.; MARATHE, M.; BARRETT, C. L.; DUBHASHI, D. A synthetic population of Sweden: datasets of agents, households, and activity-travel patterns. Data in Brief, v. 48, 2023.

VOAS, D.; WILLIAMSON, P. An evaluation of the combinatorial optimisation approach to the creation of synthetic microdata. International Journal of Population Geography, v. 6, p. 349-366, 2000.

YAMÉOGO, B.; GASTINEAU, P.; HANKACH, P.; VANDANJON, P. Comparing methods for generating a two-layered synthetic population. Transportation Research Record, v. 2675, p. 136-147, 2020.

YE, X.; KONDURI, K.; PENDYALA, R.; SANA, B.; WADDELL. P. A methodology to match distributions of both household and person attributes in the generation of synthetic populations. In: 88th ANNUAL MEETING OF THE TRANSPORTATION RESEARCH BOARD. Proceedings […]. 2009. Washington, DC: [s.n.], 2009.

ZHANG, J. L.; BRYANT, J.; NISSEN, K. Bayesian small area demography. Survey Methodology, v. 45, n. 1, p. 13-29, 2019.

ZHU, K.; YIN, L.; LIU, K.; LIU, J.; SHI, Y.; LI, X.; ZOU, H.; DU, H. Generating synthetic population for simulating the spatiotemporal dynamics of epidemics. Plos Computational Biology, v. 20, Article e1011810, 2024

Downloads

Publicado

2025-10-16

Como Citar

Tavares de Souza Junior, C., Campbell, D., Vittal Katikireddi , S., Victor Maciel da Costa , P., Ferreira dos Santos , G., Lima Barreto, M., & Fernandes Silva Andrade, R. (2025). Desenvolvendo uma população brasileira sintética derivada do Censo demográfico de 2010. Revista Brasileira De Estudos De População, 42. https://doi.org/10.20947/S0102-3098a0306

Edição

Seção

Artigos originais