Desenvolvendo uma população brasileira sintética derivada do Censo demográfico de 2010
DOI:
https://doi.org/10.20947/S0102-3098a0306Palavras-chave:
População, Análise de coorte, Simulação, Inferência EstatísticaResumo
O Censo brasileiro de 2010 contém uma riqueza de informações que podem permitir pesquisas e subsidiar políticas em saúde, educação, economia e outros setores. O Censo fornece dados publicamente disponíveis em duas formas. Primeiro, tabelas de contingência no nível municipal, para estratos definidos por raça, gênero e educação. Segundo, microdados com informações pessoais. Para preservar o anonimato individual nos dados, o Censo reduziu algumas variáveis a categorias mais amplas e removeu dados com identificações pessoais. As estratégias de composição de dados das tabelas de contingência e dos microdados são diferentes e, ao comparar amostras de ambos os dados, descobrimos que a variável raça nos microdados ignora a presença de minorias em alguns municípios. Isso sugere que populações sintéticas baseadas no Censo de 2010 devem ser criadas usando tabelas de contingência. Nossa avaliação mostra que a população sintética assim criada mantém os valores e proporções das tabelas de contingência e apresenta totais próximos aos dos microdados.
Downloads
Referências
AJAUSKAS, R.; STRAMBI, O. Procedimento para geração de populações sintéticas com base em dados disponíveis no Brasil. Transportes, v. 32, n. 3, e2617, 2024.
ARORA, A.; WAGNER, S. K.; CARPENTER, R.; JENA, R.; KEANE, P. A. The urgent need to accelerate synthetic data privacy frameworks for medical research. The Lancet Digit Health, v. 7, n. 2, E157-E160, 2025.
BECKMAN, R. J.; BAGGERLY, K. A.; MCKAY, M. D. Creating synthetic baseline populations. Transportation Research Part A: Policy and Practice, v. 30, n. 6, p. 415-429, 1996.
BELOV, V.; TATARINTSEV, A.; NIKULCHEV, E. Choosing a Data storage format in the Apache Hadoop system based on experimental evaluation using Apache Spark. Symmetry, v. 13, Article 195, 2021.
BISSETT, K. R.; CADENA, J.; KHAN, M.; KUHLMAN, C. J. Agent based computational epidemiological modeling. Journal of Indian Institute of Science, v. 101, n. 3, p. 303-307, 2021.
CHAPUIS, K.; TAILLANDIER, P.; DROGOUL, A. Generation of synthetic populations in social simulations: a review of methods and practices. Journal of Artificial Societies and Social Simulation, v. 25, n. 2, Article 6, 2022.
DUARTE, L. T.; SILVA, D. B. D. N.; BRITO, J. A. D. M. Análise de paradados do Censo Demográfico 2010: uma investigação de fatores associados a erros não amostrais do levantamento de dados. Revista Brasileira de Estudos de População, v. 33, n. 3, p. 679-701, 2016.
ETUMAN, A. E.; BENOUSSAÏD, T.; CHARREIRE, H.; COLL, I. OLYMPUS-POPGEN: a synthetic population generation model to represent urban populations for assessing exposure to air quality. PloS One, v. 19, n. 3, Article e0299383, 2024.
FAROOQ, B.; BIERLAIRE, M.; HURTUBIA, R.; FLÖTTERÖD, G. Simulation based population synthesis. Transportation Research Part B: Methodological, v. 58, p. 243-263, 2013.
FELBERMAIR, S.; LAMMER, F.; TRAUSINGER-BINDER, E.; HEBENSTREIT, C. Generating synthetic population with activity chains as agent-based model input using statistical raster census data. Procedia Computer Science, v. 170, p. 273-280, 2020.
FURTADO, B. A. Gerando famílias artificiais intraurbanas: Censo 2010. Brasília: Ipea, 2020 (Nota Técnica, n. 78).
GADOTTI, A.; ROCHER, L.; HOUSSIAU, F.; CREŢU, A.; MONTJOYE, Y. Anonymization: the imperfect science of using data while preserving privacy. Science Advances, v. 10, n. 29, Article eadn7053, 2024.
GUNSALUS, P. R.; ROSE, J.; LEHR, C. J.; VALAPOUR, M.; DALTON, J. E. Creating synthetic populations in transplantation: a Bayesian approach enabling simulation without registry resampling. PloS One, 2024.
IBGE – Instituto Brasileiro de Geografia e Estatística. Metodologia do Censo Demográfico 2010. Rio de Janeiro: IBGE, 2013.
IBGE – Instituto Brasileiro de Geografia e Estatística. Sistema IBGE de Recuperação Automática – Sidra, 2024. Disponível em: https://sidra.ibge.gov.br/home/pms/brasil. Acesso em: 01 set. 2024.
IBGE-DOWNLOADS. IBGE – Downloads, 2024. Disponível em: https://www.ibge.gov.br/estatisticas/downloads-estatisticas.html. Acesso em: 28 set. 2024.
IBGE-MICRODADOS. IBGE – Censo demográfico, 2024. Disponível em: https://www.ibge.gov.br/ estatisticas/sociais/populacao/9662-censo-demografico-2010.html?=&t=microdados. Acesso em: 28 set. 2024.
JIANG, N.; CROOKS, A. T.; KAVAK, H.; BURGER, A.; KENNEDY, W. G. A method to create a synthetic population with social networks for geographically-explicit agent-based models. Computational Urban Science, v. 2, n. 7, 2022.
KONDURI, K.; YOU, D.; GARIKAPATI, V.; PENDYALA, R. Enhanced synthetic population generator that accommodates control variables at multiple geographic resolutions. Transportation Research Record, v. 2563, n. 1, p. 40-50, 2016.
KRIJKAMP, E. M.; ALARID-ESCUDERO, F.; ENNS, E. A.; JALAL, H. J.; HUNINK, M. G. M.; PECHLIVANOGLOU, P. Microsimulation modeling for health decision sciences using R: a tutorial. Medical Decision Making, v. 38. n. 2, p. 400-422, 2018.
LEYK, S.; GAUGHAN, A. E.; ADAMO, S. B.; SHERBININ, A. de; BALK, D.; FREIRE, S.; ROSE, A.; STEVENS, F. R.; BLANKESPOOR, B.; FRYE, C.; COMENETZ, J.; SORICHETTA, A.; MACMANUS, K.; PISTOLESI, L.; LEVY, M.; TATEM, A. J.; PESARESI, M. The spatial allocation of population: a review of large-scale gridded population data products and their fitness for use. Earth System Science Data, v. 11, p. 1385-1409, 2019.
LI, J.; VIDYATTAMA, Y. Projecting spatial population and labour force growth in Australian districts. Journal of Population Research, v. 36, p. 205-232, 2019.
MT tem três terras indígenas sob ameaça de madeireiros e grileiros vigiadas pela Força Nacional. G1. 10 de janeiro de 2022. Disponível em: https://g1.globo.com/mt/mato-grosso/ noticia/2022/02/10/mt-tem-tres-terras-indigenas-sob-ameaca-de-madeireiros-e-grileirosvigiadas-pela-forca-nacional.ghtml. Acesso em: 31 jul. 2025.
NADAL, J. O.; SANZ, G. C.; RIBAS, I. F.; MONDELO, P. R. Determining occupational accidents baseline ratios by considering a synthetic population: the case of Spain. PloS One, v. 18, n. 11, Article e0294707, 2023.
NICOLAIE, M. A.; FÜSSENICH, K.; AMELING, C.; BOSHUIZEN, H. C. Constructing synthetic populations in the age of big data. Population Health Metrics, n. 21, 2023.
NOWOK, B.; RAAB, G. M.; DIBBEN, C. synthpop: bespoke creation of synthetic data in R. Journal of Statistical Software, v. 74, n. 11, 2016.
PIANUCCI, M.; PITOMBO, C.; CUNHA, A.; LIMA, P. Previsão da demanda por viagens domiciliares
através de método sequencial baseado em população sintética e redes neurais artificiais. Transportes, v. 27, 2019.
PNUD; IPEA; FJP. Atlas do desenvolvimento humano no Brasil 2013. PNUD Brasil, 2025. Disponível em: http://www.atlasbrasil.org.br/perfil/municipio/510325#:~:text=De%20acordo%20com%20s%20estimativas,maioria%2C%20por%20homens%20e%20negros%20. Acesso em: 31 jul.2025.
PRÉDHUMEAU, P.; MANLEY, E. A synthetic population for agent-based modelling in Canada. Scientific Data, v. 10, n. 148, 2023.
R CORE TEAM. R: a language and environment for statistical computing. Vienna, Austria: R Foundation, 2024. Disponível em: https://www.r-project.org/. Acesso em: 02 ago. 2025.
RAGHUNATHAN, T. E. Synthetic data. Annual Review Statistics and its Application, v. 8, n. 129, p. 129-140, 2021.
RASELLA, D.; BASU, S.; HONE, T.; PAES-SOUSA, R.; OCKÉ-REIS, C. O.; MILLETT, C. Child morbidity and mortality associated with alternative policy responses to the economic crisis in Brazil: a nationwide microsimulation study. Plos Medicine, v.15, n. 5, Article e1002570, 2018.
POSIT TEAM. RStudio: Integrated Development Environment for R. Boston, MA: Posit Software, PBC, 2025. Disponível em: http://www.posit.co/. Acesso em: 02 ago. 2025.
SALLARD, A.; BALAĆ, M.; HÖRL, S. A synthetic population for the greater São Paulo metropolitan region. Arbeitsberichte Verkehrs-und Raumplanung, v. 1545, 2020.
SCHOFIELD, D.; ZEPPEL, M.; TAN, O.; LYMER, S.; CUNICH, M.; SHRESTHA, R. A brief, global history of microsimulation models in health: past applications, lessons learned and future directions. International Journal of Microsimulation, v. 11, n. 1, p. 97-142, 2018.
SOUZA-JUNIOR, C. T. D. Population. GitHub repository. Disponível em: https://github.com/Cleonidas-Tavares/Population. Acesso em: 16 nov. 2024. .
TEMPL, M.; KOWARIK, A.; MEINDL, B. Statistical disclosure control for micro-data using the R Package sdcMicro. Journal of Statistical Software, v. 67, n. 4, 2015.
TON, M. J.; INGELS, M. W.; DE BRUIJN, J. A.; DE MOEL, H.; REIMANN, L.; BOTZEN, W. J. W.; AERTS, J. C. J. H. A global dataset of 7 billion individuals with socio-economic characteristics. Scientific Data, v. 11, Article 1096, 2024.
TOZLUOĞLU, Ç.; DHAMAL, S.; YEH, S.; SPREI, F.; LIAO, Y.; MARATHE, M.; BARRETT, C. L.; DUBHASHI, D. A synthetic population of Sweden: datasets of agents, households, and activity-travel patterns. Data in Brief, v. 48, 2023.
VOAS, D.; WILLIAMSON, P. An evaluation of the combinatorial optimisation approach to the creation of synthetic microdata. International Journal of Population Geography, v. 6, p. 349-366, 2000.
YAMÉOGO, B.; GASTINEAU, P.; HANKACH, P.; VANDANJON, P. Comparing methods for generating a two-layered synthetic population. Transportation Research Record, v. 2675, p. 136-147, 2020.
YE, X.; KONDURI, K.; PENDYALA, R.; SANA, B.; WADDELL. P. A methodology to match distributions of both household and person attributes in the generation of synthetic populations. In: 88th ANNUAL MEETING OF THE TRANSPORTATION RESEARCH BOARD. Proceedings […]. 2009. Washington, DC: [s.n.], 2009.
ZHANG, J. L.; BRYANT, J.; NISSEN, K. Bayesian small area demography. Survey Methodology, v. 45, n. 1, p. 13-29, 2019.
ZHU, K.; YIN, L.; LIU, K.; LIU, J.; SHI, Y.; LI, X.; ZOU, H.; DU, H. Generating synthetic population for simulating the spatiotemporal dynamics of epidemics. Plos Computational Biology, v. 20, Article e1011810, 2024
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Copyright (c) 2025 Revista Brasileira de Estudos de População

Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.
Os artigos publicados na Rebep são originais e protegidos sob a licença Creative Commons do tipo atribuição (CC-BY). Essa licença permite reutilizar as publicações na íntegra ou parcialmente para qualquer propósito, de forma gratuita, mesmo para fins comerciais. Qualquer pessoa ou instituição pode copiar, distribuir ou reutilizar o conteúdo, desde que o autor e a fonte original sejam propriamente mencionados.