Uma extensão à teoria da confiabilidade em Geodésia
View/ Open
Date
2020Author
Advisor
Co-advisor
Academic level
Doctorate
Type
Subject
Abstract in Portuguese (Brasil)
Há mais de meio século, a teoria da confiabilidade introduzida por Baarda (1968) tem sido usada como uma prática padrão para o controle de qualidade em geodésia. Embora atenda o rigor matemático e os pressupostos da probabilidade, a teoria foi originalmente desenvolvida para um Data-Snooping que considera uma específica observação como sendo um outlier. Na prática, não sabemos qual observação é um outlier. Se o objetivo do procedimento Data-Snooping é testar cada observação individual quanto à ...
Há mais de meio século, a teoria da confiabilidade introduzida por Baarda (1968) tem sido usada como uma prática padrão para o controle de qualidade em geodésia. Embora atenda o rigor matemático e os pressupostos da probabilidade, a teoria foi originalmente desenvolvida para um Data-Snooping que considera uma específica observação como sendo um outlier. Na prática, não sabemos qual observação é um outlier. Se o objetivo do procedimento Data-Snooping é testar cada observação individual quanto à presença de um outlier, então uma hipótese alternativa mais apropriada seria: “Existe pelo menos um outlier nos dados observados”. Agora, estamos interessados em responder: “Onde?”. A resposta para tal pergunta recai sobre um problema de localizar dentre as hipóteses alternativas aquela que levou à rejeição da hipótese nula, ou seja, estamos interessados em identificar o outlier. Esse problema é conhecido como múltiplas hipóteses alternativas. Embora avanços tenham ocorrido ao longo desse período, as teorias apresentadas até o momento consideram apenas uma única rodada do Data-Snooping, sem qualquer diagnóstico subsequente, como a remoção do outlier. Na prática, entretanto, o Data-Snooping é aplicado de forma iterativa: após a identificação e a eliminação de um possível outlier, os dados são reprocessados e a identificação é reiniciada. Este procedimento é denominado de Data-Snooping Iterativo (DSI). O DSI é, portanto, um caso que envolve não somente múltiplas hipóteses alternativas, mas também múltiplas rodadas de estimação, teste e adaptação. Estimar os níveis de probabilidade associado com DSI é praticamente impossível por aqueles métodos analíticos usualmente empregados em procedimentos mais simples, por exemplo, o teste global do modelo e Data-Snooping de uma única hipótese alternativa. Por essa razão, uma rigorosa e completa teoria da confiabilidade não estava disponível até o momento. Embora grandes avanços tenham ocorrido em meados da década de 1970, como os computadores baseados em microprocessadores, Baarda tinha uma desvantagem: a tecnologia de sua época era insuficiente para que se utilizassem técnicas computacionais inteligentes. Hoje o cenário computacional é completamente diferente da época da teoria da confiabilidade de Baarda. Aqui, seguindo a tendência atual da ciência moderna, usamos o método de Monte Carlo e estendemos a teoria da confiabilidade para o DSI. Neste trabalho, demonstramos que a estimação depende do teste e da adaptação e, portanto, o DSI é, na verdade, um estimador. Até o presente momento, a escolha do número de simulações de Monte Carlo tem sido avaliada somente em função da precisão. Assim, levantou-se uma questão: como podemos encontrar um número ótimo de experimentos Monte Carlo em termos de acurácia? Aqui, usamos eventos com probabilidades conhecidas para avaliar a acurácia do Método de Monte Carlo. Os resultados mostraram que, dentre os números de experimentos testados, m = 200, 000 forneceu suficiente precisão numérica, com erro relativo menor que 0.1%. A estatística de teste associada ao DSI é o valor extremo dos resíduos dos mínimos quadrados normalizados. É bem conhecido na literatura que valores críticos desse teste não podem ser derivados de distribuições conhecidas, mas devem ser calculados numericamente por meio do método de Monte Carlo. Este trabalho fornece os primeiros resultados sobre o valor crítico baseado em Monte Carlo inserido em diferentes cenários de correlação entre as estatísticas de teste. Testamos se o aumento do nível de significância conjunto, ou redução do valor crítico, melhora a identificabilidade do outlier. Os resultados mostraram que quanto menor o valor crítico, ou maior o nível de significância conjunto, maior é a probabilidade de correta detecção, e menor é o MDB. Porém, essa relação não é válida em termos de identificação. Observamos que, quando o efeito de todas as observações na taxa de falsa exclusão (Erro Tipo III) diminui, é possível encontrar o menor outlier identificável (MIB). A razão disso é que o efeito da correlação entre os resíduos torna-se insignificante para uma certa magnitude de outlier, o que aumenta a probabilidade da correta identificação. ...
Abstract
For more than half a century, the reliability theory introduced by Baarda (1968) has been used as a standard practice for quality control in geodesy and surveying. Although the theory meets mathematical rigor and probability assumptions, it was originally developed for a Data-Snooping which assumes a specific observation as a suspect outlier. In other words, only one single alternative hypothesis is in play. Actually, we do not know which observation is an outlier. Since the Data-Snooping consi ...
For more than half a century, the reliability theory introduced by Baarda (1968) has been used as a standard practice for quality control in geodesy and surveying. Although the theory meets mathematical rigor and probability assumptions, it was originally developed for a Data-Snooping which assumes a specific observation as a suspect outlier. In other words, only one single alternative hypothesis is in play. Actually, we do not know which observation is an outlier. Since the Data-Snooping consists of screening each individual measurement for an outlier, a more appropriate alternative hypothesis would be: “There is at least one outlier in the observations”. Now, we are interested to answer: “Where?”. The answer to this question lies in a problem of locating among the alternative hypotheses the one that led to the rejection of the null hypothesis. Therefore, we are interested in identifying the outlier. Although advances have occurred over that period, the theories presented so far consider only one single round of the Data-Snooping procedure, without any subsequent diagnosis, such as removing the outlier. In fact, however, Data-Snooping is applied iteratively: after identification and elimination of the outlier, the model is reprocessed, and outlier identification is restarted. This procedure of iterative outlier elimination is known as Iterative Data-Snooping (IDS). Computing the probability levels associated with IDS is virtually impossible to those analytical methods usually employed in conventional tests, such as, overall model test and Data-Snooping of only one single alternative hypothesis. Because of this, a rigorous and complete reliability theory was not yet available. Although major advances occurred in the mid-1970s, such as microprocessorbased computers, Baarda had a disadvantage: the technology of his time was insufficient to use intelligent computational techniques. Today, the computational scenario is completely different from the time of Baarda’s theory of reliability. Here, following the current trend of modern science, we can use intelligent computing and extend the reliability theory when the DSI is in play. We show that the estimation depends on the test and the adaptation and, therefore, the IDS is, in fact, an estimator. Until the present, no study has been conducted to evaluate empirically the accuracy of the Monte Carlo for quality control purposes in geodesy. Generally, only the degree of dispersion of the Monte Carlo is considered. Thus, an issue remains: how can we find the optimal number of Monte Carlo experiments for quality control purpose? Here, we use an exact theoretical reference probabilities to answer this question. We find that that the number of experiments m = 200, 000 can provide consistent results with sufficient numerical precision for outlier identification, with a relative error less than 0.1%. The test statistic associated with IDS is the extreme normalised least-squares residual. It is well-known in the literature that critical values (quantile values) of such a test statistic cannot be derived from well-known test distributions but must be computed numerically by means of Monte Carlo. This paper provides the first results on the Monte Carlo-based critical value inserted into different scenarios of correlation between outlier statistics. We also tested whether increasing the level of the family-wise error rate, or reducing the critical values, improves the identifiability of the outlier. The results showed that the lower critical value, or the higher the family-wise error rate, the larger the probability of correct detection, and the smaller the MDB. However, this relationship is not valid in terms of identification. We also highlight that an outlier becomes identifiable when the contributions of the observations to the wrong exclusion rate (Type III error) decline simultaneously. In this case, we verify that the effect of the correlation between outlier statistics on the wrong exclusion rate becomes insignificant for a certain outlier magnitude, which increases the probability of identification. ...
Institution
Universidade Federal do Rio Grande do Sul. Centro Estadual de Pesquisas em Sensoriamento Remoto e Meteorologia. Programa de Pós-Graduação em Sensoriamento Remoto.
Collections
-
Exact and Earth Sciences (5129)Remote Sensing (295)
This item is licensed under a Creative Commons License