Word association retrieval (WAR) : um método probabilístico para recuperação de termos associados em textos multissegmentados
dc.contributor.advisor | Galante, Renata de Matos | pt_BR |
dc.contributor.author | Costa, Jean Felipe Martins da | pt_BR |
dc.date.accessioned | 2022-10-19T04:47:58Z | pt_BR |
dc.date.issued | 2022 | pt_BR |
dc.identifier.uri | http://hdl.handle.net/10183/249995 | pt_BR |
dc.description.abstract | Esta dissertação apresenta o WAR - Word Association Retrieval, um novo método proba bilístico para recuperação de termos associados em textos multissegmentados. O método WAR trabalha com o cenário de recuperação de palavras em um contexto único, permi tindo quantificar a correlação dos termos mesmo estando em segmentos distintos. Este cenário é quando um evento ou processo possui várias etapas de descrições textuais, po dendo assim ser representado de forma tabular, onde cada coluna representa uma etapa (segmento) e o processo total (contexto) é representado em uma linha de uma tabela, ou seja, vários segmentos de um mesmo contexto. Como exemplo de dois segmentos é a capacidade de buscar associações como nos segmentos de texto de descrição inicial com a descrição final, de uma pergunta e a resposta, da descrição de uma consulta médica e a conduta do médico descrita etc. Como em recuperação de informações o método Bag Of Words busca os documentos associados apenas contando as ocorrências. Já o método TF/IDF e suas variações aplicam pesos ponderados nas ocorrências o que por sua vez apresentam resultados melhores. Nas regras de associação temos o algoritmo clássico Apriori que também apenas contabiliza as ocorrências, mas não aplicada pesos pondera dos de associação. Assim o WAR apresenta como solução de pesos ponderados de asso ciação. Este método permite buscar as associações dos termos entre os segmentos de um texto, evitando o overfitting das técnicas modernas e a visão limitada do Apriori. Desta forma, usando lógica de pesos ponderados já aplicado na recuperação de informação nas regras de associação, o método WAR propõe duas matrizes de associação multidimen sionais para termos de todas as fontes para apresentar uma classificação em forma de ranque dos termos em resposta às palavras de pesquisa. O método WAR foi aplicado em uma base de dados artificial como análise prévia e posteriormente na coleção de dados de teleconsulta médica real, e permitiu identificar resultados de associação relevantes pes quisados em vários estágios do processo de atendimento primário à saúde. Assim, com uso da base de prontuários médicos, foi possível retornar uma classificação por meio de uma lista ordenada de termos associados em relação à busca. | pt_BR |
dc.description.abstract | This thesis presents the WAR - Word Association Retrieval, a new probabilistic method for retrieving associated terms in multi-segmented texts. The WAR method works with the scenario of word retrieval in a single context that encompasses categorical data or free text, allowing quantification of the correlation of terms even when in distinct segments. This scenario is when an event or process has several steps of textual descriptions, so it can be represented in a tabular form, where each column represents a step (segment). The full process (context) is described in a row of a table, resulting in several segments of the same context. An example of two segments is the ability to search for associations as: in the text segments of initial description with the final description, of a question and answer, of the description of a medical appointment and the described doctor’s conduct, and etc. As in information retrieval, the Bag Of Words method searches the associated documents just by counting the occurrences. On the other hand, the TF/IDF method and its variations apply weighted occurrences, which in turn present better results. In association rules, we have the classic Apriori algorithm that also only counts occurrences, but does not apply association weights. So the WAR presents as a weighted association weights solution. This method allows searching for the associations of terms between the segments of a text, avoiding the overfitting of modern techniques and the limited vision of Apriori. Thus, using weighted logic already applied in the retrieval of information in association rules, the WAR method proposes two multidimensional association matrices for terms to present a ranking of terms in response to the search words. The WAR was applied to an artificial database for prior analysis and later using a medical teleconsultation database and allowed to identify relevant association results searched at various stages of the primary health care process. Thus, using the medical records database, it was possible to return a classification through an ordered list of terms associated with the search. | en |
dc.format.mimetype | application/pdf | pt_BR |
dc.language.iso | eng | pt_BR |
dc.rights | Open Access | en |
dc.subject | Recuperação de informação | pt_BR |
dc.subject | Term Ranking | en |
dc.subject | Association Rules | en |
dc.subject | Mineração de dados | pt_BR |
dc.subject | Base de dados | pt_BR |
dc.subject | Process Mining | en |
dc.title | Word association retrieval (WAR) : um método probabilístico para recuperação de termos associados em textos multissegmentados | pt_BR |
dc.title.alternative | Word association retrieval (WAR): probabilistic method for associated term retrieval in multi-segmented texts | en |
dc.type | Dissertação | pt_BR |
dc.identifier.nrb | 001151694 | pt_BR |
dc.degree.grantor | Universidade Federal do Rio Grande do Sul | pt_BR |
dc.degree.department | Instituto de Informática | pt_BR |
dc.degree.program | Programa de Pós-Graduação em Computação | pt_BR |
dc.degree.local | Porto Alegre, BR-RS | pt_BR |
dc.degree.date | 2022 | pt_BR |
dc.degree.level | mestrado | pt_BR |
Este item está licenciado na Creative Commons License
-
Ciências Exatas e da Terra (5104)Computação (1758)