Show simple item record

dc.contributor.advisorCybis, Gabriela Bettellapt_BR
dc.contributor.authorSoares, Mayara Bellópt_BR
dc.date.accessioned2024-03-19T05:03:06Zpt_BR
dc.date.issued2023pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/273741pt_BR
dc.description.abstractA modelagem de dados visando agrupamento e classificação em ambientes de alta dimensão e baixo tamanho de amostra (HDLSS - High-dimension low-sample size data) é um desafio em diferentes áreas do conhecimento. Uma alternativa é a utilização de métodos não paramétricos, por permitir uma abordagem de inferência dependendo de poucos pressupostos sobre os dados. Em particular, uma série de métodos de inferência para problemas de agrupamento e classificação baseados em U-estatísticas, implementados no pacote uclust do software R, tem gerado resultados promissores no contexto HDLSS. Buscando tornar essa abordagem melhor adaptada a diferentes estruturas de dados, o foco desta dissertação é propor um método otimizado de classificação dentro desse contexto. A classificação é realizada em duas etapas: primeiro encontramos a distância ponderada que maximiza a separação entre dois grupos de referência, medida pela estatística Bn; e em seguida utilizamos essa distância para classificar novas observações, através de um enfoque comparativo. Estudos de Monte Carlo, no contexto de HDLSS, mostram que o método otimizado apresenta melhores taxas de classificações corretas quando a diferença entre grupos está concentrada em uma fração das componentes do vetor de dados. O uso desta distância otimizada também serve como base para a proposta de um novo teste U otimizado, que verifica se dois grupos de observações são de fato distintos, e também de um novo teste de hipóteses para a classificação. Estudos de simulação mostram que nos cenários simulados, onde o classificador está bem adaptado, ambos os testes apresentam mais poder que os métodos originais. E apresenta uma aplicação dos métodos a um conjunto de dados HDLSS de pacientes de linfoma, no qual o classificador otimizado apresenta resultados favoráveis.pt_BR
dc.description.abstractData modeling for clustering and classification in high dimension and low sample size (HDLSS) environments is a challenge in different areas of knowledge. An alternative is the use of non-parametric methods, because they allow for an inferencial approach depending on a few assumptions about the data. In particular, a series of inferencial methods for clustering and classification problems based on U-statistics, implemented in the Uclust R-package, has generated promising results in the HDLSS context. With the objective of making this approach better adapted to different data structures, this work proposes an optimized classification method within this context. The classification is carried out in two stages: first, we find the weighted distance that maximizes the separation between two reference groups, measured by the Bn statistic; and then, we use this distance to classify new observations, through a comparative approach. Monte Carlo studies, in the HDLSS context, show that the optimized method presents better rates of correct classifications when the difference between groups is concentrated in a few components of the data vector. This optimized distance also serves as the basis for the proposal of a new optimized U test, which verifies whether two groups of observations are in fact distinct, and also for a new hypothesis test for classification. Simulation studies show that in scenarios where the classifier is well adapted, both tests are more powerfull than the original methods. An application of these methods in a HDLSS dataset is presented.en
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoporpt_BR
dc.rightsOpen Accessen
dc.subjectHigh dimension low sample sizeen
dc.subjectTamanho da amostrapt_BR
dc.subjectAgrupamentospt_BR
dc.subjectU-statisticsen
dc.subjectClassifieren
dc.subjectClassificaçãopt_BR
dc.subjectClustering testen
dc.subjectClassification testen
dc.titleClassificação otimizada baseada em U-estatísticaspt_BR
dc.typeDissertaçãopt_BR
dc.contributor.advisor-coValk, Márciopt_BR
dc.identifier.nrb001198229pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Matemática e Estatísticapt_BR
dc.degree.programPrograma de Pós-Graduação em Estatísticapt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2023pt_BR
dc.degree.levelmestradopt_BR


Files in this item

Thumbnail
   

This item is licensed under a Creative Commons License

Show simple item record