Classificação otimizada baseada em U-estatísticas

Soares, Mayara Belló

dc.contributor.advisor	Cybis, Gabriela Bettella	pt_BR
dc.contributor.author	Soares, Mayara Belló	pt_BR
dc.date.accessioned	2024-03-19T05:03:06Z	pt_BR
dc.date.issued	2023	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/273741	pt_BR
dc.description.abstract	A modelagem de dados visando agrupamento e classificação em ambientes de alta dimensão e baixo tamanho de amostra (HDLSS - High-dimension low-sample size data) é um desafio em diferentes áreas do conhecimento. Uma alternativa é a utilização de métodos não paramétricos, por permitir uma abordagem de inferência dependendo de poucos pressupostos sobre os dados. Em particular, uma série de métodos de inferência para problemas de agrupamento e classificação baseados em U-estatísticas, implementados no pacote uclust do software R, tem gerado resultados promissores no contexto HDLSS. Buscando tornar essa abordagem melhor adaptada a diferentes estruturas de dados, o foco desta dissertação é propor um método otimizado de classificação dentro desse contexto. A classificação é realizada em duas etapas: primeiro encontramos a distância ponderada que maximiza a separação entre dois grupos de referência, medida pela estatística Bn; e em seguida utilizamos essa distância para classificar novas observações, através de um enfoque comparativo. Estudos de Monte Carlo, no contexto de HDLSS, mostram que o método otimizado apresenta melhores taxas de classificações corretas quando a diferença entre grupos está concentrada em uma fração das componentes do vetor de dados. O uso desta distância otimizada também serve como base para a proposta de um novo teste U otimizado, que verifica se dois grupos de observações são de fato distintos, e também de um novo teste de hipóteses para a classificação. Estudos de simulação mostram que nos cenários simulados, onde o classificador está bem adaptado, ambos os testes apresentam mais poder que os métodos originais. E apresenta uma aplicação dos métodos a um conjunto de dados HDLSS de pacientes de linfoma, no qual o classificador otimizado apresenta resultados favoráveis.	pt_BR
dc.description.abstract	Data modeling for clustering and classification in high dimension and low sample size (HDLSS) environments is a challenge in different areas of knowledge. An alternative is the use of non-parametric methods, because they allow for an inferencial approach depending on a few assumptions about the data. In particular, a series of inferencial methods for clustering and classification problems based on U-statistics, implemented in the Uclust R-package, has generated promising results in the HDLSS context. With the objective of making this approach better adapted to different data structures, this work proposes an optimized classification method within this context. The classification is carried out in two stages: first, we find the weighted distance that maximizes the separation between two reference groups, measured by the Bn statistic; and then, we use this distance to classify new observations, through a comparative approach. Monte Carlo studies, in the HDLSS context, show that the optimized method presents better rates of correct classifications when the difference between groups is concentrated in a few components of the data vector. This optimized distance also serves as the basis for the proposal of a new optimized U test, which verifies whether two groups of observations are in fact distinct, and also for a new hypothesis test for classification. Simulation studies show that in scenarios where the classifier is well adapted, both tests are more powerfull than the original methods. An application of these methods in a HDLSS dataset is presented.	en
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	por	pt_BR
dc.rights	Open Access	en
dc.subject	High dimension low sample size	en
dc.subject	Tamanho da amostra	pt_BR
dc.subject	Agrupamentos	pt_BR
dc.subject	U-statistics	en
dc.subject	Classifier	en
dc.subject	Classificação	pt_BR
dc.subject	Clustering test	en
dc.subject	Classification test	en
dc.title	Classificação otimizada baseada em U-estatísticas	pt_BR
dc.type	Dissertação	pt_BR
dc.contributor.advisor-co	Valk, Márcio	pt_BR
dc.identifier.nrb	001198229	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Matemática e Estatística	pt_BR
dc.degree.program	Programa de Pós-Graduação em Estatística	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2023	pt_BR
dc.degree.level	mestrado	pt_BR

Ficheros en el ítem

Nombre:: 001198229.pdf
Tamaño:: 780.3Kb
Formato:: PDF
Descripción:: Texto completo

Ver

Este ítem está licenciado en la Creative Commons License

Ciencias Exactas y Naturales (5141)

Estadística (27)

Mostrar el registro sencillo del ítem