Análise de cocitação de autores : aspectos metodológicos e comparação com a análise de cocitação de documentos

Carvalho, Rodrigo Aquino

Visualizar/abrir

Texto completo (7.102Mb)

Data

2019

Autor

Carvalho, Rodrigo Aquino

Orientador

Caregnato, Sonia Elisa

Nível acadêmico

Doutorado

Resumo

A presente pesquisa tem foco na análise de cocitação de autores (ACA) e na análise de cocitação de documentos (DCA). O objetivo geral é avaliar as implicações das escolhas metodológicas para efetuar cada fase de uma ACA e sua comparação com uma DCA. Os objetivos específicos são: i) propor uma forma de estabelecer um ponto de corte para a criação das matrizes; ii) identificar, quantificar, caracterizar e comparar os dados desconsiderados na fase de seleção de autores/documentos; iii) comparar as frequências de cocitação de autores, considerando os primeiros e todos os autores das referências; iv) comparar as frequências da ACA com a DCA; v) comparar os resultados dos agrupamentos considerando o valor da diagonal, matrizes normalizadas e absolutas e técnicas estatísticas de agrupamento; e vi) caracterizar e comparar um agrupamento da ACA. A pesquisa é descritiva, metodológica e cientométrica. Dois conjuntos de dados de referências foram utilizados: corpus principal (17.992 referências de 421 artigos da área da Organização do Conhecimento e Recuperação da Informação – 2015-2016); e corpus secundário (5.771 referências de 151 artigos da área da Organização do Conhecimento – 2011-2015). Três rankings foram criados com os dados do corpus principal: todos os autores das referências (19.590 autores); primeiros autores (9.338) e documentos (1.715 documentos com duas ou mais citações). Dois rankings foram criados com os dados do corpus secundário: todos os autores (5.333); e primeiros autores (2.938). Três matrizes de cocitação foram criadas com os dados do corpus principal: todos os autores (180x180); primeiro autor (72x72) e documentos (109x109). Um agrupamento com 17 autores desenvolvido com dados do corpus secundário foi analisado. Principais resultados: i) indica-se que o ponto de corte para a criação de matrizes de cocitação considere aproximadamente 20% da soma das citações oriundas de documento citantes, desconsiderando dados absolutos de dispersão (autores e documentos citados em apenas um documento citante); ii) as análises de cocitação a partir dos documentos geram maior dispersão do que as dos autores, pois, para dados do corpus principal, a ACA de todos e dos primeiros autores cobrem 79,33% e 61,76% dos citantes, respectivamente, enquanto a DCA cobre 47,74%; iii) quanto à comparação de uso de todos ou dos primeiros autores das referências, os resultados evidenciam que as abordagens lidam com dados de grandezas diferentes, ainda que oriundos da mesma fonte, ou seja, o uso de todos os autores traz ruídos, mas um ranking de citações considerando apenas as posições secundárias demonstra a força das coautorias no corpus; iv) a análise do ranking de documentos demonstra duas situações: a presença de documentos de autoria não pessoal, e a possibilidade de analisar a cocitação de documentos do mesmo autor; v) a análise fatorial das matrizes da ACA (dados absolutos, dados normalizados pelo r de Pearson, Cosseno de Salton e Índice de Jaccard, com zero, citação total, documento citante e cocitação do autor com ele mesmo na diagonal) indicam resultados muito distintos, mas utilizar citação total na diagonal não é uma boa solução, principalmente para normalizar os dados pelo Cosseno e Jaccard, o excesso de zeros nas matrizes interferem no uso do r de Pearson; e vi) a caracterização de um agrupamento de uma ACA (corpus secundário) demonstrou que agregar informações dos citantes e dos documentos dos autores melhora a capacidade informacional e que a identificação dos pares de cocitação nos parágrafos valida os dados das referências. A pesquisa conclui que estudos de cocitação são estudos de contexto e que os dados descartados são significativos para entender o alcance das propostas. Sugere-se o aprofundamento da análise de cluster, o uso do escalonamento multidimensional e a comparação das matrizes de coocorrência com as matrizes de ocorrência em pesquisas metodológicas futuras. ...

Abstract

This study focuses on author cocitation analysis (ACA) and document cocitation analysis (DCA). Its main objective is to evaluate the methodological choices made at each stage of ACA and its comparison with a DCA. The specific objectives are: i) to establish a cut off point for the creation of the matrices; ii) to identify, quantify, characterize and compare data discharged in the selection phase of authors/documents; iii) to compare the frequencies of authors’ cocitation, considering the first and all the authors in the references; iv) to compare the frequencies of ACA and DCA; v) to compare clustering results considering the value of the diagonal, normalized and absolute matrices and statistical techniques of clustering; and vi) characterize and compare a ACA cluster. The research is descriptive, methodological and scientometric in nature. Two sets of citation data were used: the main corpus (17,992 citations from 421 articles from the Knowledge Organization and Information Retrieval area - 2015-2016); and the secondary corpus (5,771 citations from 151 articles in the Knowledge Organization area - 2011-2015). Three rankings were created with data from the main corpus: all authors of the citations (19,590 authors); first authors (9,338) and documents (1,715 documents with two or more citations). Two rankings were created with data from the secondary corpus: all authors (5,333); and first authors (2,938). Three cocitation matrices were created with data from the main corpus: all authors (180x180); first author (72x72) and documents (109x109). A cluster of 17 authors developed with data from the secondary corpus was analyzed. Main results are: i) the cut off point for the creation of cocitation matrices should be approximately 20% of the sum of citations originating from citing documents, disregarding absolute dispersion data (authors and documents cited in only one citing document); ii) the DCA generate a greater dispersion than ACA, since, for data of the main corpus, the ACA of all and the first authors cover 79.33% and 61.76% of the citing documents, respectively, while the DCA covers 47.74%; iii) regarding the comparison of using all or just the first authors, results showed that both strategies deal with data from different magnitudes, although coming from the same source, that is, the use of all the authors brings noise, but a ranking of citations considering only the secondary positions demonstrates the strength of co-authoring in the corpus; iv) the analysis of document ranking demonstrates two situations: the presence of documents of non-personal authorship, and the possibility of analyzing cocitation of documents by the same author; v) the factorial analysis of ACA matrices (absolute data, data normalized by Pearson's r, Salton's cosine and Jaccard index, with zero, total citation, citing document and cocitation of the author with himself on the diagonal) indicate very different results, but using full diagonal citation is not a good solution, mainly to normalize data by Cosine and Jaccard, the excess of zeros in the matrices interfere in the use of the Pearson’s r, as indicated in the literature; and vi) characterization of a cluster of ACA (secondary corpus) showed that adding information from citing documents and authors' documents amplifies the informational capacity and that the identification of the cocitation pairs in the paragraphs validates the data of the references. The research concludes that cocitation studies are context studies and that the data discharged are meaningful to understand the scope of the proposals. We suggest the deepening of the cluster analysis, the use of multidimensional scaling and the comparison of co-occurrence matrices with occurrence matrices in future methodological researche. ...

Instituição

Universidade Federal do Rio Grande do Sul. Faculdade de Biblioteconomia e Comunicação. Programa de Pós-Graduação em Comunicação.

Coleções

Ciências Sociais Aplicadas (6458)

Comunicação e Informação (629)

Outras opções

Mostrar todos os metadados

Estatísticas

Este item está licenciado na Creative Commons License