Empirical evaluation on approaches to transform tabular data into textual input for QA systems
dc.contributor.advisor | Barone, Dante Augusto Couto | pt_BR |
dc.contributor.author | Bartz, Cassiano Marques | pt_BR |
dc.date.accessioned | 2022-11-25T04:46:29Z | pt_BR |
dc.date.issued | 2022 | pt_BR |
dc.identifier.uri | http://hdl.handle.net/10183/251788 | pt_BR |
dc.description.abstract | Question answering (QA) systems aim to automatically and precisely answer a specific question provided in natural language over a knowledge base. Although there are models that already work well with regular textual knowledge bases for those systems, when it comes to tabular data this scenario changes. Transforming tabular data into a textual in put for a model is a difficult task and this research explores different approaches for this transformation of data by testing on JarvisQA, a prototype QA system which uses BERT pre-trained models to answers questions on top of the Question Answering Benchmark for Scholarly Knowledge (SciQA). SciQA is benchmark developed with the collaboration of researchers from different Universities that leverages the Open Research Knowledge Graph (ORKG).The proposed methodology consists of: (1) creating an approach to gen erate text from tabular data, (2) running JarvisQA using the text generated by the approach as knowledge base for the benchmark questions and (3) perform an empirical evaluation of the results. The analysis on these approaches, their results and the difficulties faced can help researchers dealing with such scenarios. | en |
dc.description.abstract | Sistemas de pergunta e resposta tem como objetivo responder automaticamente e precisamente perguntas específicas feitas em linguagem natural usando uma base de conhecimento. Embora existam modelos que funcionam bem com bases de conhecimento textuais para estes sistemas, quando envolve dados tabulares esse cenário muda. A transformação de dados tabulares em dados de entrada textuais para modelos é uma tarefa difícil e essa pesquisa explora diferentes abordagens para essa transformação, testando em cima do protótipo JarvisQA, que utiliza modelos pré-treinados baseados em BERT para responder as perguntas em cima do benchmark Question Answering Benchmark for Scholarly Knowledge (SciQA). SciQA é um benchmark que foi desenvolvido em colaboração de pesquisadores de diferentes universidades que utiliza o Open Research Knowledge Graph (ORKG). A metodologia proposta é a seguinte: (1) criação de uma abordagem para gerar textos através de dados tabulares, (2) utilizar o texto gerado através da abordagem como base de conhecimento do JarvisQA enquanto respondendo as perguntas do benchmark e (3) executar uma avaliação empírica dos resultados. A análise dessas abordagens, seus resultados e as dificuldades encontradas podem ajudar pesquisadores lidando com tais cenários. | pt_BR |
dc.format.mimetype | application/pdf | pt_BR |
dc.language.iso | por | pt_BR |
dc.rights | Open Access | en |
dc.subject | Linguagem natural | pt_BR |
dc.subject | Question Answering | en |
dc.subject | Bases de dados | pt_BR |
dc.subject | BERT | en |
dc.subject | Dados tabulares | pt_BR |
dc.subject | JarvisQA | en |
dc.subject | SciQA | en |
dc.subject | Inteligência artificial | pt_BR |
dc.subject | ORKG | en |
dc.title | Empirical evaluation on approaches to transform tabular data into textual input for QA systems | pt_BR |
dc.title.alternative | Avaliação empírica em abordagens para transformação de dados tabulares em entrada textual para sistemas de pergunta e resposta | en |
dc.type | Trabalho de conclusão de graduação | pt_BR |
dc.contributor.advisor-co | Côrtes, Eduardo Gabriel | pt_BR |
dc.identifier.nrb | 001153904 | pt_BR |
dc.degree.grantor | Universidade Federal do Rio Grande do Sul | pt_BR |
dc.degree.department | Instituto de Informática | pt_BR |
dc.degree.local | Porto Alegre, BR-RS | pt_BR |
dc.degree.date | 2022 | pt_BR |
dc.degree.graduation | Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado | pt_BR |
dc.degree.level | graduação | pt_BR |
Este item está licenciado na Creative Commons License

-
TCC Ciência da Computação (1074)