Variable selection strategies for nearest neighbor imputation methods used in remote sensing based forest inventory

Abstract

We examined the problem of selecting predictor variables for Nearest Neighbor (NN) imputation in remote sensing based forest inventory. Eighty-three variables were calculated from Airborne Laser Scanning data and aerial images, with responses being either dominant height or a set of five common stand attributes. Three different approaches were compared with select predictor variables. Analyses were repeated with three different NN imputation methods using a varying number of predictor variables. Results indicated that variable selection is justified, but it must be done properly. The most accurate method to select predictors was to minimize error using Simulated Annealing. For a single response, the most accurate imputation method was Random Forest proximity matrix-based imputation, whereas Most Similar Neighbor was the most accurate for five responses. An optimization-based distance metric also worked well. We also examined the degree to which different imputation methods are prone to overfitting as well as how to properly do crossvalidation in NN imputation. Résumé. On a examiné la problématique de la sélection des variables prédictives dans la procédure d’imputation par la méthode du plus proche voisin dans le contexte des inventaires forestiers réalisés par télédétection. Quatre-vingt trois variables ont été calculées à partir de données SLA (scanneur laser aéroporté) et d’images aériennes, les réponses étant soit la hauteur dominante ou un ensemble de cinq attributs courants de peuplement. Trois approches différentes ont été comparées pour la sélection des variables prédictives. Les analyses ont été répétées à l’aide de trois méthodes différentes d’imputation par le plus proche voisin en utilisant un nombre variable de variables prédictives. Les résultats ont montré que la sélection variable est justifiée, mais que celle-ci doit être faite correctement. La méthode la plus précise pour sélectionner les variables prédictives consistait à minimiser l’erreur à l’aide de la technique de recuit simulé. Pour une réponse unique, la méthode d’imputation la plus précise était l’imputation basée sur la matrice de proximité de type « Random Forest » (forêt aléatoire) alors que la méthode la plus précise pour les cinq réponses était la méthode d’imputation par le voisin le plus semblable « Most Similar Neighbor ». Une mesure de distance basée sur une méthode d’optimisation a également donné de bons résultats. On a aussi étudié la propension des différentes méthodes d’imputation au sur-ajustement de même que la façon d’exécuter correctement une validation croisée dans le contexte de l’imputation par le plus proche voisin. [Traduit par la Rédaction]

Extracted Key Phrases

6 Figures and Tables

Cite this paper

@inproceedings{Packalen2012VariableSS, title={Variable selection strategies for nearest neighbor imputation methods used in remote sensing based forest inventory}, author={Petteri Packalen and Hailemariam Temesgen and Matti Maltamo}, year={2012} }