郭旭,现任北京师范大学统计学院副教授,博士生导师。研究方向为大范围推断、高维数据分析、模型设定检验、半参数分析和因果推断等。
近日,郭旭老师在统计学顶级期刊《Journal of the American Statistical Association》发表论文“Threshold selection in feature screening for error rate control”。在科学研究中,一个关键的问题是如何挑选出对响应变量有影响的自变量。当自变量维数非常高时,特征筛选是一种有效的策略。但在实际操作中,阈值的选择会极大地影响特征筛选的效果。常规的硬阈值选择方法无法保证所有重要自变量已被选入,同时很可能会选入很多噪声变量。本文对此提出一种数据驱动的阈值选择方法。核心想法是利用样本分割来构造一系列具有对称性的统计量并利用统计量的对称性来近似错误发现的个数。文章论证所提方法能够在渐近意义下控制错误发现率和其他错误率,同时能够将所有重要变量选入。文章以三个重要的特征筛选方法为例来说明所提阈值选择方法。数值结果也都进一步说明了本方法的有效性。
Journal of the American Statistical Association是统计学界最权威杂志之一,主要发表统计学的重要成果和进展。