The University of Southampton
University of Southampton Institutional Repository

A domain outlier robust design and smooth estimation approach

A domain outlier robust design and smooth estimation approach
A domain outlier robust design and smooth estimation approach
Outliers that commonly occur in business sample surveys can have large impacts on domain estimates. The authors consider an outlier-robust design and smooth estimation approach, which can be related to the so-called “Surprise stratum” technique [Kish, “Survey Sampling,” Wiley, New York (1965)]. The sampling design utilizes a threshold sample consisting of previously observed outliers that are selected with probability one, together with stratified simple random sampling from the rest of the population. The domain predictor is an extension of the Winsorization-based estimator proposed by Rivest and Hidiroglou [Rivest and Hidiroglou, “Outlier Treatment for Disaggregated Estimates,” in “Proceedings of the Section on Survey Research Methods,” American Statistical Association (2004), pp. 4248–4256], and is similar to the estimator for skewed populations suggested by Fuller [Fuller, Statistica Sinica 1991;1:137–158]. It makes use of a domain Winsorized sample mean plus a domain-specific adjustment of the estimated overall mean of the excess values on top of that. The methods are studied in theory from a design-based perspective and by simulations based on the Norwegian Research and Development Survey data. Guidelines for choosing the threshold values are provided.

Il est fréquent d'observer des valeurs aberrantes dans les enquêtes d'entreprises et celles-ci peuvent avoir des impacts majeurs dans les estimations d'un domaine. Les auteurs considèrent un plan de sondage robuste par rapport à la présence de valeurs aberrantes et une approche d'estimation lisse qui peuvent être reliées à la technique dite de la <<strate surprise>> (voir Kish, 1965). Le plan de sondage utilise un échantillon à seuil qui consiste à combiner toutes les valeurs aberrantes déjà observées à un échantillon aléatoire simple stratiflé pour le reste de la population. Le prédicteur du domaine est une généralisation de l'estimateur avec regroupement frontalier proposé par Rivest et Hidiroglou (2004) et il est similaire à l'estimateur pour les populations asymétriques suggéré par Fuller (1991). Il utilise la moyenne échantillonnage avec regroupement frontalier en plus d'un ajustement, spécifique au domaine, de la valeur estimée de la moyenne globale des valeurs excédentaires. Ces méthodes sont étudiées théoriquement d'un point de vue du plan de sondage et par des simulations basées sur les données provenant d'une enquete norvégienne sur la recherche et le développement. Des recommandations pour choisir les valeurs de seuillage sont aussi proposées.
domain estimation, outlier robust, threshold sample, winsorization, prediction, primary 62D05, secondary 62G35
0319-5724
147-164
Zhang, Li-Chun
a5d48518-7f71-4ed9-bdcb-6585c2da3649
Hagesaether, Nina
7349d7cd-c6f4-4c85-9d7c-6c3ed1814242
Zhang, Li-Chun
a5d48518-7f71-4ed9-bdcb-6585c2da3649
Hagesaether, Nina
7349d7cd-c6f4-4c85-9d7c-6c3ed1814242

Zhang, Li-Chun and Hagesaether, Nina (2011) A domain outlier robust design and smooth estimation approach. Canadian Journal of Statistics, 39 (1), 147-164. (doi:10.1002/cjs.10095).

Record type: Article

Abstract

Outliers that commonly occur in business sample surveys can have large impacts on domain estimates. The authors consider an outlier-robust design and smooth estimation approach, which can be related to the so-called “Surprise stratum” technique [Kish, “Survey Sampling,” Wiley, New York (1965)]. The sampling design utilizes a threshold sample consisting of previously observed outliers that are selected with probability one, together with stratified simple random sampling from the rest of the population. The domain predictor is an extension of the Winsorization-based estimator proposed by Rivest and Hidiroglou [Rivest and Hidiroglou, “Outlier Treatment for Disaggregated Estimates,” in “Proceedings of the Section on Survey Research Methods,” American Statistical Association (2004), pp. 4248–4256], and is similar to the estimator for skewed populations suggested by Fuller [Fuller, Statistica Sinica 1991;1:137–158]. It makes use of a domain Winsorized sample mean plus a domain-specific adjustment of the estimated overall mean of the excess values on top of that. The methods are studied in theory from a design-based perspective and by simulations based on the Norwegian Research and Development Survey data. Guidelines for choosing the threshold values are provided.

Il est fréquent d'observer des valeurs aberrantes dans les enquêtes d'entreprises et celles-ci peuvent avoir des impacts majeurs dans les estimations d'un domaine. Les auteurs considèrent un plan de sondage robuste par rapport à la présence de valeurs aberrantes et une approche d'estimation lisse qui peuvent être reliées à la technique dite de la <<strate surprise>> (voir Kish, 1965). Le plan de sondage utilise un échantillon à seuil qui consiste à combiner toutes les valeurs aberrantes déjà observées à un échantillon aléatoire simple stratiflé pour le reste de la population. Le prédicteur du domaine est une généralisation de l'estimateur avec regroupement frontalier proposé par Rivest et Hidiroglou (2004) et il est similaire à l'estimateur pour les populations asymétriques suggéré par Fuller (1991). Il utilise la moyenne échantillonnage avec regroupement frontalier en plus d'un ajustement, spécifique au domaine, de la valeur estimée de la moyenne globale des valeurs excédentaires. Ces méthodes sont étudiées théoriquement d'un point de vue du plan de sondage et par des simulations basées sur les données provenant d'une enquete norvégienne sur la recherche et le développement. Des recommandations pour choisir les valeurs de seuillage sont aussi proposées.

This record has no associated files available for download.

More information

e-pub ahead of print date: 24 February 2011
Published date: March 2011
Keywords: domain estimation, outlier robust, threshold sample, winsorization, prediction, primary 62D05, secondary 62G35
Organisations: Statistical Sciences Research Institute

Identifiers

Local EPrints ID: 345168
URI: http://eprints.soton.ac.uk/id/eprint/345168
ISSN: 0319-5724
PURE UUID: aac8e84c-be6e-4e13-a9c9-a6ea9a40dc75
ORCID for Li-Chun Zhang: ORCID iD orcid.org/0000-0002-3944-9484

Catalogue record

Date deposited: 12 Nov 2012 09:58
Last modified: 15 Mar 2024 03:45

Export record

Altmetrics

Contributors

Author: Li-Chun Zhang ORCID iD
Author: Nina Hagesaether

Download statistics

Downloads from ePrints over the past year. Other digital versions may also be available to download e.g. from the publisher's website.

View more statistics

Atom RSS 1.0 RSS 2.0

Contact ePrints Soton: eprints@soton.ac.uk

ePrints Soton supports OAI 2.0 with a base URL of http://eprints.soton.ac.uk/cgi/oai2

This repository has been built using EPrints software, developed at the University of Southampton, but available to everyone to use.

We use cookies to ensure that we give you the best experience on our website. If you continue without changing your settings, we will assume that you are happy to receive cookies on the University of Southampton website.

×