Comparing classification methods for point of interest categorization

Corrêa, Maria Cecília Matos

dc.contributor.advisor	Moreira, Viviane Pereira	pt_BR
dc.contributor.author	Corrêa, Maria Cecília Matos	pt_BR
dc.date.accessioned	2022-12-24T05:06:20Z	pt_BR
dc.date.issued	2022	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/253212	pt_BR
dc.description.abstract	Urban geography is of fundamental importance for the understanding of space and the way in which it is transformed. In order to analyse the urban space, detailed land use data is an essential resource. Since 2011 the Brazilian Institute of Geography and Statistics has made available around 78 million records of addresses with land use descriptions in natural language. In this work, we compared different methods to automatically classify these records according to the economic activity they perform based on the short natural language descriptions. These descriptions are short, ambiguous, and often misspelled – posing challenges to classification algorithms. The classification methods we developed include a rule-based classifier that relies on human intervention and four ML classifiers that learn from training data. Our main research question is whether the ML classifiers can achieve a performance that is close to the rule-based classifier’s. The results of our ex periments using 41 classes showed that a classifier built using a state-of-the-art language model was able to achieve results that are not statistically different from the results of the rule-based classifier.	en
dc.description.abstract	A geografia urbana é de fundamental importância para a compreenção do espaço e da maneira como ele se transforma. Para conceber os estudo do espaço urbano, dados detalhados do uso do solo são um recurso essencial. Desde 2011 o Instituto Brasileiro de Geografia e Estatística (IBGE) tem disponibilizado cerca de 78 milhões de registros de endereços com descrição em linguagem natural do uso da terra. Neste trabalho, comparamos diferentes de métodos para classificar esses registros de acordo com a atividade econômica que eles exercem baseados nas curtas descrições em linguagem natural. Essas descrições são curtas, ambíguas e frequentemente possuiem erros ortográficos – apresentando desafios para os algoritmos de classificação. Os métodos de classificação desenvolvidos incluem um classificador baseado em regras heurísticas que necessita de intervenção humana e quatro classificadores de aprendizado de máquina que aprendem a partir dos dados de treinamento. Nossa principal questão é se as abordagens dos classificado res de aprendizado de máquina conseguem atingir uma performance que se aproxima do classificador baseado em regras. A possibilidade de classificar os dados com abordagens de aprendizado de máquina Os resultados dos experimentos usando 41 classes mostraeam que um classificador construído usando um modelo de linguagem de do estado-da-arte foi capaz de alcançar resultados que não são estatisticamente diferentes dos resultados do classificador baseado em regras.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	por	pt_BR
dc.rights	Open Access	en
dc.subject	Aprendizado de máquina	pt_BR
dc.subject	Processamento de linguagem natural	pt_BR
dc.subject	Espaço urbano	pt_BR
dc.title	Comparing classification methods for point of interest categorization	pt_BR
dc.title.alternative	Comparação de métodos de classificação de texto para a categorização de pontos de interesse do CNEFE	en
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.contributor.advisor-co	Bencke, Luciana Regina	pt_BR
dc.identifier.nrb	001154469	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2022	pt_BR
dc.degree.graduation	Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado	pt_BR
dc.degree.level	graduação	pt_BR

Ficheros en el ítem

Nombre:: 001154469.pdf
Tamaño:: 1.152Mb
Formato:: PDF
Descripción:: Texto completo (inglês)

Ver

Este ítem está licenciado en la Creative Commons License

Tesinas de Curso de Grado (36372)

Tesinas Ciencia de la Computación (991)

Mostrar el registro sencillo del ítem