Quando, Onde, Quem, O que ou Por que? Um Modelo Híbrido de Classificação de Perguntas para Sistemas de Question Answering

Côrtes, Eduardo Gabriel

dc.contributor.advisor	Barone, Dante Augusto Couto	pt_BR
dc.contributor.author	Côrtes, Eduardo Gabriel	pt_BR
dc.date.accessioned	2019-05-24T02:36:38Z	pt_BR
dc.date.issued	2019	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/194555	pt_BR
dc.description.abstract	Sistemas de Question Answering é um campo de pesquisa das áreas de Recuperação de Informações e Processamento de Linguagem Natural que propõe, de forma autônoma, responder perguntas feitas por humanos em linguagem natural. Uma das principais etapas desses sistemas é a classificação de perguntas, em que o sistema busca identificar o tipo de resposta que a pergunta se refere, facilitando a localização de informações específicas em sua base de dados. Comumente, modelos supervisionados de aprendizado de máquina são empregados nesta tarefa, em que o texto da pergunta é representado através de um vetor de características, como Bag-of-words, Term Frequency-Inverse Document Frequency (TF-IDF) ou word embeddings. Entretanto, a qualidade dos resultados produzidos por esses modelos são dependentes da existência de um grande conjunto de dados anotados para o treinamento, como também recursos computacionais e linguísticos externos. Esses recursos muitas vezes não estão acessíveis, devido a intensos esforços manuais na anotação de conjunto de dados ou pela falta de disponibilidade de recursos de qualidade para línguas não inglesa. Assim, este trabalho propõe uma abordagem híbrida para representação de texto que combina TF-IDF e Word2vec na tarefa de classificação de perguntas para sistemas de QA. Essa abordagem busca prover o tipo de resposta para perguntas em texto, utilizando diferentes tamanhos de conjuntos de treinamento com também sem a utilização de recursos computacionais e linguísticos complexos de serem adquiridos. Os experimentos realizados utilizando as coleções Chave e UIUC traduzida para o português, e variando o tamanho do conjunto de dados para treinamento, mostram estatisticamente que o modelo proposto atinge resultados satisfatório aplicado em diferentes modelos supervisionados.	pt_BR
dc.description.abstract	Question Answering Systems is a field of Information Retrieval and Natural Language Processing that automatically answers questions posed by humans in a natural language. One of the main steps of these systems is the Question Classification, where the system tries to identify the type of question (i.e. if it is related to a person, time or a location) facilitate the generation of a precise answer. Machine learning techniques are commonly employed in tasks where the text is represented as a vector of features, such as Bag-of-words, Term Frequency-Inverse Document Frequency (TF-IDF) or word embeddings. However, the quality of results produced by supervised algorithms is dependent on the existence of a large, domain-dependent training dataset which sometimes is unavailable due to laborintense of manual annotation of datasets or lack of availability of quality resources for non-English languages. In this work, we propose a hybrid model that combines TF-IDF and word embedding to provide the answer type to text questions using small and large training sets. Our experiments using the Chaves and UIUC translated for Portuguese datasets, using several different sizes of training sets, showed statistically that the proposed hybrid model reached promising results applied in different supervised models.	en
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	eng	pt_BR
dc.rights	Open Access	en
dc.subject	Inteligência artificial	pt_BR
dc.subject	Aprendizado : máquina	pt_BR
dc.subject	Processamento : Linguagem natural	pt_BR
dc.title	Quando, Onde, Quem, O que ou Por que? Um Modelo Híbrido de Classificação de Perguntas para Sistemas de Question Answering	pt_BR
dc.type	Dissertação	pt_BR
dc.identifier.nrb	001093827	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.program	Programa de Pós-Graduação em Computação	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2019	pt_BR
dc.degree.level	mestrado	pt_BR

Nome:: 001093827.pdf
Tamanho:: 997.4Kb
Formato:: PDF
Descrição:: Texto completo

Visualizar/abrir

Este item está licenciado na Creative Commons License

Ciências Exatas e da Terra (5371)

Computação (1832)

Mostrar registro simples