Word association retrieval (WAR) : um método probabilístico para recuperação de termos associados em textos multissegmentados
Visualizar/abrir
Data
2022Orientador
Nível acadêmico
Mestrado
Tipo
Outro título
Word association retrieval (WAR): probabilistic method for associated term retrieval in multi-segmented texts
Assunto
Resumo
Esta dissertação apresenta o WAR - Word Association Retrieval, um novo método proba bilístico para recuperação de termos associados em textos multissegmentados. O método WAR trabalha com o cenário de recuperação de palavras em um contexto único, permi tindo quantificar a correlação dos termos mesmo estando em segmentos distintos. Este cenário é quando um evento ou processo possui várias etapas de descrições textuais, po dendo assim ser representado de forma tabular, onde cada coluna representa ...
Esta dissertação apresenta o WAR - Word Association Retrieval, um novo método proba bilístico para recuperação de termos associados em textos multissegmentados. O método WAR trabalha com o cenário de recuperação de palavras em um contexto único, permi tindo quantificar a correlação dos termos mesmo estando em segmentos distintos. Este cenário é quando um evento ou processo possui várias etapas de descrições textuais, po dendo assim ser representado de forma tabular, onde cada coluna representa uma etapa (segmento) e o processo total (contexto) é representado em uma linha de uma tabela, ou seja, vários segmentos de um mesmo contexto. Como exemplo de dois segmentos é a capacidade de buscar associações como nos segmentos de texto de descrição inicial com a descrição final, de uma pergunta e a resposta, da descrição de uma consulta médica e a conduta do médico descrita etc. Como em recuperação de informações o método Bag Of Words busca os documentos associados apenas contando as ocorrências. Já o método TF/IDF e suas variações aplicam pesos ponderados nas ocorrências o que por sua vez apresentam resultados melhores. Nas regras de associação temos o algoritmo clássico Apriori que também apenas contabiliza as ocorrências, mas não aplicada pesos pondera dos de associação. Assim o WAR apresenta como solução de pesos ponderados de asso ciação. Este método permite buscar as associações dos termos entre os segmentos de um texto, evitando o overfitting das técnicas modernas e a visão limitada do Apriori. Desta forma, usando lógica de pesos ponderados já aplicado na recuperação de informação nas regras de associação, o método WAR propõe duas matrizes de associação multidimen sionais para termos de todas as fontes para apresentar uma classificação em forma de ranque dos termos em resposta às palavras de pesquisa. O método WAR foi aplicado em uma base de dados artificial como análise prévia e posteriormente na coleção de dados de teleconsulta médica real, e permitiu identificar resultados de associação relevantes pes quisados em vários estágios do processo de atendimento primário à saúde. Assim, com uso da base de prontuários médicos, foi possível retornar uma classificação por meio de uma lista ordenada de termos associados em relação à busca. ...
Abstract
This thesis presents the WAR - Word Association Retrieval, a new probabilistic method for retrieving associated terms in multi-segmented texts. The WAR method works with the scenario of word retrieval in a single context that encompasses categorical data or free text, allowing quantification of the correlation of terms even when in distinct segments. This scenario is when an event or process has several steps of textual descriptions, so it can be represented in a tabular form, where each column ...
This thesis presents the WAR - Word Association Retrieval, a new probabilistic method for retrieving associated terms in multi-segmented texts. The WAR method works with the scenario of word retrieval in a single context that encompasses categorical data or free text, allowing quantification of the correlation of terms even when in distinct segments. This scenario is when an event or process has several steps of textual descriptions, so it can be represented in a tabular form, where each column represents a step (segment). The full process (context) is described in a row of a table, resulting in several segments of the same context. An example of two segments is the ability to search for associations as: in the text segments of initial description with the final description, of a question and answer, of the description of a medical appointment and the described doctor’s conduct, and etc. As in information retrieval, the Bag Of Words method searches the associated documents just by counting the occurrences. On the other hand, the TF/IDF method and its variations apply weighted occurrences, which in turn present better results. In association rules, we have the classic Apriori algorithm that also only counts occurrences, but does not apply association weights. So the WAR presents as a weighted association weights solution. This method allows searching for the associations of terms between the segments of a text, avoiding the overfitting of modern techniques and the limited vision of Apriori. Thus, using weighted logic already applied in the retrieval of information in association rules, the WAR method proposes two multidimensional association matrices for terms to present a ranking of terms in response to the search words. The WAR was applied to an artificial database for prior analysis and later using a medical teleconsultation database and allowed to identify relevant association results searched at various stages of the primary health care process. Thus, using the medical records database, it was possible to return a classification through an ordered list of terms associated with the search. ...
Instituição
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Programa de Pós-Graduação em Computação.
Coleções
-
Ciências Exatas e da Terra (5129)Computação (1764)
Este item está licenciado na Creative Commons License