Optimal Distributed Subsampling for Maximum Quasi-Likelihood Estimators with Massive Data

摘要:

Nonuniform subsampling methods are effective to reduce computational burden and maintain estimation efficiency for massive data. Existing methods mostly focus on subsampling with replacement due to its high computational efficiency. If the data volume is so large that nonuniform subsampling probabilities cannot be calculated all at once, then subsampling with replacement is infeasible to implement. This paper solves this problem using Poisson subsampling. We first derive optimal Poisson subsampling probabilities in the context of  quasi-likelihood estimation under the A- and L-optimality criteria. For a practically implementable algorithm with approximated optimal subsampling probabilities, we establish the consistency and asymptotic normality of the resultant estimators. To deal with the situation that the full data are stored in different blocks or at multiple locations, we develop a distributed subsampling framework, in which statistics are computed simultaneously on smaller partitions of the full data. Asymptotic properties of the resultant aggregated estimator are investigated. We illustrate and evaluate the proposed strategies through numerical experiments on simulated and real data sets.

附注:

多媒体技术和现代通讯技术的快速发展,大大提高了人们收集和存储数据的能力。随着这些数据不断地以指数级的速度增加,人们进入了大数据时代。数据是信息的载体,如何从数据中提取有用的信息,一直是统计学和数据科学的核心研究课题。这些海量的数据给统计分析带来了新的挑战。尽管大多数统计分析方法可以直接应用于这些大数据,然而由于现有计算机的计算速度和计算能力的限制,进行统计分析时往往耗时很长,甚至陷入计算上的死循环。

对大数据进行统计分析时需要面对两个挑战性问题,其一是数据量过大,无法将整个数据集存入一个计算机中;其二是尽管数据量适中,然而计算耗时过长,无法得到统计分析的结果。为了克服这两个挑战性问题,针对大数据集的统计分析方法大致可以分为如下两类:第一类是所谓的并行计算方法,首先将整个大数据集分成若干个子数据集,对每个子数据集单独计算,最后把这些子数据集的计算结果有机地结合在一起,得到整个数据集的推断结果。第二类分析方法是子抽样方法,从整个数据集中巧妙地抽取一组有效的子样本,仅对子样本进行统计分析得出推断结果,这样可以大大节省计算时间。

子抽样方法的关键是对不同的数据点指定不同的入样概率,也就是说,针对一个统计推断问题,让携带信息量大、能够提高该统计推断准确度的数据点有更高的入样概率。值得注意的是,目前的大多数子抽样研究工作都是基于一些特定的模型,很显然这些模型很难适合一个复杂的大数据集。因而,尽可能降低对全数据集的模型约束,研究更一般估计的抽样技术更具有实用价值。

拟似然估计是估计方程估计中广泛采用的一般估计方法,该方法仅仅要求响应变量的若干阶矩已知,这就大大降低了对响应变量一致性的要求。本论文利用并行计算和分布计算的优势,对存储在不同计算机上的数据集分别抽取子样,将每个子样本得到的估计巧妙地融合在一起,形成全数据集的最优近似估计,解决了大数据背景下通过无放回分布式抽样技术提高拟似然估计精度的问题。

访问链接