Show simple item record

dc.contributor.advisorMoreira, Viviane Pereirapt_BR
dc.contributor.authorCorrêa, Maria Cecília Matospt_BR
dc.date.accessioned2022-12-24T05:06:20Zpt_BR
dc.date.issued2022pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/253212pt_BR
dc.description.abstractUrban geography is of fundamental importance for the understanding of space and the way in which it is transformed. In order to analyse the urban space, detailed land use data is an essential resource. Since 2011 the Brazilian Institute of Geography and Statistics has made available around 78 million records of addresses with land use descriptions in natural language. In this work, we compared different methods to automatically classify these records according to the economic activity they perform based on the short natural language descriptions. These descriptions are short, ambiguous, and often misspelled – posing challenges to classification algorithms. The classification methods we developed include a rule-based classifier that relies on human intervention and four ML classifiers that learn from training data. Our main research question is whether the ML classifiers can achieve a performance that is close to the rule-based classifier’s. The results of our ex periments using 41 classes showed that a classifier built using a state-of-the-art language model was able to achieve results that are not statistically different from the results of the rule-based classifier.en
dc.description.abstractA geografia urbana é de fundamental importância para a compreenção do espaço e da maneira como ele se transforma. Para conceber os estudo do espaço urbano, dados detalhados do uso do solo são um recurso essencial. Desde 2011 o Instituto Brasileiro de Geografia e Estatística (IBGE) tem disponibilizado cerca de 78 milhões de registros de endereços com descrição em linguagem natural do uso da terra. Neste trabalho, comparamos diferentes de métodos para classificar esses registros de acordo com a atividade econômica que eles exercem baseados nas curtas descrições em linguagem natural. Essas descrições são curtas, ambíguas e frequentemente possuiem erros ortográficos – apresentando desafios para os algoritmos de classificação. Os métodos de classificação desenvolvidos incluem um classificador baseado em regras heurísticas que necessita de intervenção humana e quatro classificadores de aprendizado de máquina que aprendem a partir dos dados de treinamento. Nossa principal questão é se as abordagens dos classificado res de aprendizado de máquina conseguem atingir uma performance que se aproxima do classificador baseado em regras. A possibilidade de classificar os dados com abordagens de aprendizado de máquina Os resultados dos experimentos usando 41 classes mostraeam que um classificador construído usando um modelo de linguagem de do estado-da-arte foi capaz de alcançar resultados que não são estatisticamente diferentes dos resultados do classificador baseado em regras.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoporpt_BR
dc.rightsOpen Accessen
dc.subjectAprendizado de máquinapt_BR
dc.subjectProcessamento de linguagem naturalpt_BR
dc.subjectEspaço urbanopt_BR
dc.titleComparing classification methods for point of interest categorizationpt_BR
dc.title.alternativeComparação de métodos de classificação de texto para a categorização de pontos de interesse do CNEFE en
dc.typeTrabalho de conclusão de graduaçãopt_BR
dc.contributor.advisor-coBencke, Luciana Reginapt_BR
dc.identifier.nrb001154469pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2022pt_BR
dc.degree.graduationCiência da Computação: Ênfase em Ciência da Computação: Bachareladopt_BR
dc.degree.levelgraduaçãopt_BR


Files in this item

Thumbnail
   

This item is licensed under a Creative Commons License

Show simple item record