Comparing classification methods for point of interest categorization
dc.contributor.advisor | Moreira, Viviane Pereira | pt_BR |
dc.contributor.author | Corrêa, Maria Cecília Matos | pt_BR |
dc.date.accessioned | 2022-12-24T05:06:20Z | pt_BR |
dc.date.issued | 2022 | pt_BR |
dc.identifier.uri | http://hdl.handle.net/10183/253212 | pt_BR |
dc.description.abstract | Urban geography is of fundamental importance for the understanding of space and the way in which it is transformed. In order to analyse the urban space, detailed land use data is an essential resource. Since 2011 the Brazilian Institute of Geography and Statistics has made available around 78 million records of addresses with land use descriptions in natural language. In this work, we compared different methods to automatically classify these records according to the economic activity they perform based on the short natural language descriptions. These descriptions are short, ambiguous, and often misspelled – posing challenges to classification algorithms. The classification methods we developed include a rule-based classifier that relies on human intervention and four ML classifiers that learn from training data. Our main research question is whether the ML classifiers can achieve a performance that is close to the rule-based classifier’s. The results of our ex periments using 41 classes showed that a classifier built using a state-of-the-art language model was able to achieve results that are not statistically different from the results of the rule-based classifier. | en |
dc.description.abstract | A geografia urbana é de fundamental importância para a compreenção do espaço e da maneira como ele se transforma. Para conceber os estudo do espaço urbano, dados detalhados do uso do solo são um recurso essencial. Desde 2011 o Instituto Brasileiro de Geografia e Estatística (IBGE) tem disponibilizado cerca de 78 milhões de registros de endereços com descrição em linguagem natural do uso da terra. Neste trabalho, comparamos diferentes de métodos para classificar esses registros de acordo com a atividade econômica que eles exercem baseados nas curtas descrições em linguagem natural. Essas descrições são curtas, ambíguas e frequentemente possuiem erros ortográficos – apresentando desafios para os algoritmos de classificação. Os métodos de classificação desenvolvidos incluem um classificador baseado em regras heurísticas que necessita de intervenção humana e quatro classificadores de aprendizado de máquina que aprendem a partir dos dados de treinamento. Nossa principal questão é se as abordagens dos classificado res de aprendizado de máquina conseguem atingir uma performance que se aproxima do classificador baseado em regras. A possibilidade de classificar os dados com abordagens de aprendizado de máquina Os resultados dos experimentos usando 41 classes mostraeam que um classificador construído usando um modelo de linguagem de do estado-da-arte foi capaz de alcançar resultados que não são estatisticamente diferentes dos resultados do classificador baseado em regras. | pt_BR |
dc.format.mimetype | application/pdf | pt_BR |
dc.language.iso | por | pt_BR |
dc.rights | Open Access | en |
dc.subject | Aprendizado de máquina | pt_BR |
dc.subject | Processamento de linguagem natural | pt_BR |
dc.subject | Espaço urbano | pt_BR |
dc.title | Comparing classification methods for point of interest categorization | pt_BR |
dc.title.alternative | Comparação de métodos de classificação de texto para a categorização de pontos de interesse do CNEFE | en |
dc.type | Trabalho de conclusão de graduação | pt_BR |
dc.contributor.advisor-co | Bencke, Luciana Regina | pt_BR |
dc.identifier.nrb | 001154469 | pt_BR |
dc.degree.grantor | Universidade Federal do Rio Grande do Sul | pt_BR |
dc.degree.department | Instituto de Informática | pt_BR |
dc.degree.local | Porto Alegre, BR-RS | pt_BR |
dc.degree.date | 2022 | pt_BR |
dc.degree.graduation | Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado | pt_BR |
dc.degree.level | graduação | pt_BR |
Files in this item
This item is licensed under a Creative Commons License