USO DE TÉCNICAS DE APRENDIZADO DE MÁQUINA PARA ESTIMAÇÃO DE GORDURA CORPORAL EM ADULTOS BRASILEIROS

Exportar este item:

Use este identificador para citar ou linkar para este item: https://tedebc.ufma.br/jspui/handle/tede/6815

Tipo do documento:	Dissertação Trabalho sob Sigilo. Motivo: Em processo de publicação em periódico. Prazo para Liberação:12 meses.
Título:	USO DE TÉCNICAS DE APRENDIZADO DE MÁQUINA PARA ESTIMAÇÃO DE GORDURA CORPORAL EM ADULTOS BRASILEIROS
Título(s) alternativo(s):	Use of Machine Learning Techniques for Estimating Body Fat in Brazilian Adults
Autor:	SANTOS, Heloísa Baima da Silva
Primeiro orientador:	FRANÇA, Ana Karina Teixeira da Cunha
Primeiro coorientador:	SANTOS, Alcione Miranda dos
Primeiro membro da banca:	FRANÇA, Ana Karina Teixeira da Cunha
Segundo membro da banca:	SANTOS, Alcione Miranda dos
Terceiro membro da banca:	SOUSA JÚNIOR, Carlos Magno
Quarto membro da banca:	NASCIMENTO, Joelma Ximenes Prado Teixeira
Quinto membro da banca:	BOGÉA, Eduarda Gomes
Resumo:	Considerando a frequência crescente de obesidade no Brasil e no mundo, as limitações do Índice de Massa Corporal (IMC) em diferenciar massa magra de massa gorda, bem como a ausência de um método para avaliar o percentual de gordura corporal (%GC) de forma precisa e acessível, este estudo propôs- se a desenvolver modelos capazes de estimar o %GC de adultos, a partir de dados demográficos e medidas antropométricas simples, através de técnicas de Aprendizado de Máquina (AM). Todas as análises estatísticas e a construção dos modelos foram realizadas na linguagem de programação R®. A população do estudo foi constituída por 7.085 adultos com 22 e 30 anos, pertencentes às coortes de Pelotas-RS de 1993 e de 1982, respectivamente. Os valores do IMC dos participantes do estudo foram calculados e classificados conforme a Organização Mundial da Saúde. Os indivíduos foram categorizados, ainda, com base nos valores de %GC, em obesos (≥ 25% para homens e ≥ 32% para mulheres) e não obesos (≤ 25% para homens e ≤ 32% para mulheres). Após classificação do IMC e %GC, os indivíduos com IMC < 25 kg/m² também foram agrupados em peso normal (IMC < 25kg/m² e ausência de obesidade pelo %GC) e obeso de peso normal (IMC < 25kg/m² e presença de obesidade pelo %GC). Foram consideradas variáveis de entrada: dados demográficos (sexo e idade) e medidas antropométricas (peso, altura e circunferências da cintura (CC), quadril (CQ), punho direito e panturrilha direita). Enquanto o desfecho foi considerado o %GC mensurado pelo método da Absortometria de Raio-X de Dupla Energia (DXA). Para construção dos modelos, foi aplicado o algoritmo Máquina de Vetor de Suporte (Support Vector Machine - SVM) Radial, adotando-se a Regressão Linear (RL) como referência (baseline). A partição dos dados seguiu o método Hold-Out, em que 80% compuseram o conjunto de treino e 20% o conjunto de teste. Exclusivamente no grupo de treino, aplicou-se a técnica de validação cruzada com k partições (k-fold Cross Validation), adotando-se k = 5. Para avaliação do desempenho, foram calculadas as métricas: Erro Médio Absoluto (MAE), Raiz do Erro Quadrático Médio (RMSE), Raiz do Erro Quadrático Médio Normalizado (NRMSE), Erro Percentual Absoluto Médio (MAPE) e Coeficiente de Determinação (R²). Posteriormente, no modelo com melhor desempenho, aplicou-se a função SHAP para seleção das variáveis de maior relevância para construção de duas versões reduzidas: Reduzido 1 (somente com as cinco variáveis mais relevantes com base no cálculo de SHAP - sexo, CC, CQ, altura e peso, em ordem de importância) e Reduzido 2 (incluindo a variável idade). Aplicou-se o gráfico de Bland-Altman e o Coeficiente de Correlação Intraclasse (CCI) para avaliação da concordância entre o %GC estimado pelos modelos e o %GC mensurado pela DXA. A frequência de indivíduos com sobrepeso foi de 26,5% e de obesidade 14,1%, considerando o IMC. Já pelo %GC, 52,1% dos indivíduos foram classificados com obesidade. Destaca-se que, indivíduos obesos de peso normal corresponderam a 17,3% da amostra geral. Todos os modelos de AM tiveram melhores resultados quando comparados à RL, sendo o SVM Radial - Reduzido 2 o que obteve melhor desempenho e concordância (MAE = 2,98; RMSE = 3,72; NRMSE = 7,07; R² = 0,91, MAPE = 13,24% e CCI = 0,95 [IC 95%: 0,947 – 0,957]). Conclui-se que os modelos de AM desenvolvidos, utilizando variáveis demográficas e antropométricas simples, apresentaram alto desempenho e excelente concordância para estimação do %GC de adultos, sendo potencialmente aplicáveis em pesquisas epidemiológicas e em ambientes clínicos, inclusive naqueles com escassez de recursos, especialmente na Atenção Primária à Saúde. Ressalta-se que o modelo SVM Radial – Reduzido 2 mostrou-se preciso e parcimonioso, necessitando de um menor número de variáveis para sua aplicação.
Abstract:	Considering the rising prevalence of obesity in Brazil and worldwide, the limitations of Body Mass Index (BMI) in differentiating lean mass from fat mass, as well as the absence of a precise and accessible method to assess body fat percentage (%BF), this study aimed to develop models capable of estimating %BF in adults, using demographic data and simple anthropometric measures, through Machine Learning (ML) techniques. All statistical analyses and model construction were performed using the R® programming language. The study population consisted of 7,085 adults aged 22 and 30 years, belonging to the 1993 and 1982 Pelotas-RS birth cohorts, respectively. Participants' BMI values were calculated and classified according to the World Health Organization. Individuals were further categorized based on %BF values into obese (≥ 25% for men and ≥ 32% for women) and non-obese (≤ 25% for men and ≤ 32% for women). After BMI and %BF classification, individuals with BMI < 25 kg/m² were also grouped into normal weight (BMI < 25 kg/m² and absence of obesity by %BF) and normalweight obese (BMI < 25 kg/m² and presence of obesity by %BF). Input variables considered were demographic data (sex and age) and anthropometric measures (weight, height, and waist (WC), hip (HC), right wrist, and right calf circumferences). The outcome was defined as the %BF measured by Dual-Energy X-ray Absorptiometry (DXA). For model construction, the Radial Support Vector Machine (SVM) algorithm was applied, adopting Linear Regression (LR) as a baseline. Data partitioning followed the Hold-Out method, with 80% comprising the training set and 20% the test set. Exclusively in the training group, the k-fold Cross-Validation technique was applied, adopting k = 5. To evaluate performance, the following metrics were calculated: Mean Absolute Error (MAE), Root Mean Square Error (RMSE), Normalized Root Mean Square Error (NRMSE), Mean Absolute Percentage Error (MAPE), and Coefficient of Determination (R²). Subsequently, in the best-performing model, the SHAP function was applied to select the most relevant variables for constructing two reduced versions: Reduced 1 (containing only the five most relevant variables based on SHAP calculation – sex, WC, HC, height, and weight, in order of importance) and Reduced 2 (including the variable age). The Bland-Altman plot and Intraclass Correlation Coefficient (ICC) were applied to evaluate the agreement between the %BF estimated by the models and the %BF measured by DXA. The frequency of overweight was 26.5% and obesity 14.1%, considering BMI. However, by %BF, 52.1% of individuals were classified as obese. Notably, normal-weight obese individuals corresponded to 17.3% of the general sample. All ML models yielded better results compared to LR, with the Radial SVM - Reduced 2 achieving the best performance and agreement (MAE = 2.98; RMSE = 3.72; NRMSE = 7.07; R² = 0.91, MAPE = 13.24% and ICC = 0.95 [95% CI: 0.947 – 0.957]). It is concluded that the developed ML models, using simple demographic and anthropometric variables, presented high performance and excellent agreement for estimating %BF in adults, being potentially applicable in epidemiological research and clinical settings, including those with scarce resources, especially in Primary Health Care. It is noteworthy that the Radial SVM – Reduced 2 model proved to be accurate and parsimonious, requiring a smaller number of variables for its application.
Palavras-chave:	composição corporal; aprendizado de máquina; algoritmos; antropometria body composition; machine learning; algorithms; anthropometry
Área(s) do CNPq:	Análise Nutricional de População
Idioma:	por
País:	Brasil
Instituição:	Universidade Federal do Maranhão
Sigla da instituição:	UFMA
Departamento:	COORDENAÇÃO DO CURSO DE NUTRIÇÃO/CCBS
Programa:	PROGRAMA DE PÓS-GRADUAÇÃO EM SAÚDE COLETIVA/CCBS
Citação:	SANTOS, Heloísa Baima da Silva. Uso de técnicas de aprendizado de máquina para estimação de gordura corporal em adultos brasileiros. 2026. 17 f. Dissertação( Programa de Pós-graduação em Saúde Coletiva/CCBS) - Universidade Federal do Maranhão, São Luís, 2026.
Tipo de acesso:	Acesso Aberto
URI:	https://tedebc.ufma.br/jspui/handle/tede/6815
Data de defesa:	11-Fev-2026
Aparece nas coleções:	DISSERTAÇÃO DE MESTRADO - PROGRAMA DE PÓS-GRADUAÇÃO EM SAÚDE COLETIVA

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
HELOÍSA BAIMA DA SILVA SANTOS.pdf	Dissertação de Mestrado	358,23 kB	Adobe PDF	Baixar/Abrir Pré-Visualizar ×

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Universidade Federal do Maranhão

Biblioteca Digital de Teses e Dissertações