Instance selection in digital soil mapping : a study case in Rio Grande do Sul, Brazil
View/ Open
Date
2015Type
Subject
Abstract
A critical issue in digital soil mapping (DSM) is the selection of data sampling method for model training. One emerging approach applies instance selection to reduce the size of the dataset by drawing only relevant samples in order to obtain a representative subset that is still large enough to preserve relevant information, but small enough to be easily handled by learning algorithms. Although there are suggestions to distribute data sampling as a function of the soil map unit (MU) boundaries ...
A critical issue in digital soil mapping (DSM) is the selection of data sampling method for model training. One emerging approach applies instance selection to reduce the size of the dataset by drawing only relevant samples in order to obtain a representative subset that is still large enough to preserve relevant information, but small enough to be easily handled by learning algorithms. Although there are suggestions to distribute data sampling as a function of the soil map unit (MU) boundaries location, there are still contradictions among research recommendations for locating samples either closer or more distant from soil MU boundaries. A study was conducted to evaluate instance selection methods based on spatially-explicit data collection using location in relation to soil MU boundaries as the main criterion. Decision tree analysis was performed for modeling digital soil class mapping using two different sampling schemes: a) selecting sampling points located outside buffers near soil MU boundaries, and b) selecting sampling points located within buffers near soil MU boundaries. Data was prepared for generating classification trees to include only data points located within or outside buffers with widths of 60, 120, 240, 360, 480, and 600m near MU boundaries. Instance selection methods using both spatial selection of methods was effective for reduced size of the dataset used for calibrating classification tree models, but failed to provide advantages to digital soil mapping because of potential reduction in the accuracy of classification tree models. ...
Abstract in Portuguese (Brasil)
Uma questão crítica no mapeamento digital de solos é a seleção do método de amostragem dos dados para treinamento do modelo preditivo. Uma abordagem emergente aplica a seleção de instâncias (observações) para reduzir o tamanho do conjunto de dados, selecionando amostras relevantes para obter um subconjunto representativo, o qual seja grande o suficiente para preservar as informações pertinentes, mas pequeno o suficiente para ser facilmente manipulado pelos algoritmos de aprendizagem. Embora exi ...
Uma questão crítica no mapeamento digital de solos é a seleção do método de amostragem dos dados para treinamento do modelo preditivo. Uma abordagem emergente aplica a seleção de instâncias (observações) para reduzir o tamanho do conjunto de dados, selecionando amostras relevantes para obter um subconjunto representativo, o qual seja grande o suficiente para preservar as informações pertinentes, mas pequeno o suficiente para ser facilmente manipulado pelos algoritmos de aprendizagem. Embora existam sugestões para distribuir a amostragem de dados em função da proximidade de limites de unidades de mapeamento de solos (UM), ainda existem contradições entre as recomendações de pesquisa para localizar amostras mais perto ou mais distantes desses limites. Foi realizado um estudo para avaliar os métodos de seleção de instâncias com base na coleta de dados espacialmente explícita usando a localização em relação aos limites de mapa de solo como o principal critério. Realizou-se análise de árvore de decisão para a modelagem de mapeamento digital de classes de solo usando dois esquemas de amostragem diferentes: a) selecionando pontos de amostragem localizados fora das áreas marginais aos limites das UM e b) selecionando pontos de amostragem situados dentro das áreas marginais aos limites das UM. Os dados foram preparados para a geração de árvores de classificação para incluir somente dados pontuais localizados dentro ou fora de faixas com larguras de 60, 120, 240, 360, 480 e 600m ao redor dos limites de UM. Ambos os métodos de seleção de instâncias foram eficazes para reduzir o tamanho do conjunto de dados usado para calibração de árvores de classificação, mas não trouxeram vantagens para o mapeamento digital de classes de solos. ...
In
Ciência rural. Santa Maria. Vol. 45, n. 9 (set. 2015), p. 1592-1598
Source
National
Collections
-
Journal Articles (40361)Agricultural Sciences (3971)
This item is licensed under a Creative Commons License