主讲人:Prof. Jun S Liu(Department of Statistics, Harvard University)
时间:2025年4月24日(周四)16:00-17:30 地点:数学院院南楼N219
【报告摘要】Mirror statistic (or knockoff statistic) is a key component for most p-value-free feature selection methods. However, it is unclear how to choose the best statistic when additional prior information or covariate information is available. In this paper, we first describe a large class of possible choices of mirror statistics and derive an optimal form of mirror statistic inspired by the two-stage formula proposed in Li and Fithian (2021). Theoretically, we demonstrate the power advantage of this optimal form by considering the Rare/Weak signal model. With prior information, evenly splitting the data into two halves is no longer the most efficient way. Building upon the optimal form of the mirror statistic, we investigate how the splitting ratio affects the power of a feature selection procedure and introduce the Adaptive-Data-Splitting (ADS) approach. Both simulations and real data examples show that ADS performs significantly better than the original equal-splitting.
【报告人简介】刘军1985年于北京大学获数学学士学位;1991年在美国芝加哥大学获统计学博士学位;自2000年起,一直担任美国哈佛大学统计系终身教授至今。他曾任哈佛生物统计系兼职教授;任斯坦福大学统计系助理教授、副教授、终身教授(1994-2004);北京大学数学学院长江讲座教授、并获国家杰出青年基金(B类);还曾任美国统计协会会刊联席主编及多个国际一流统计杂志副编等职。他于2015年领导创建清华大学统计学研究中心,并任名誉主任。2024年7月以筹建发展委员会主任身份领导在清华大学创建统计与数据科学系。
刘军于1995年获得美国国家科学基金会的CAREER奖,同年被斯坦福大学评选为Terman Fellow;2000年获得国际贝叶斯学会的Mitchell最佳论文奖;2002年被国际数理统计学会选为Medallion Lecturer;2004年被国际伯努利学会选为Bernoulli Lecturer;2008年被剑桥大学选为Kuwait Lecturer。刘军教授于2002年获得北美五大统计协会联合颁发的“考普斯会长奖”(COPSS Presidents' Award,公认为国际统计学界的最高荣誉);2004、2005年分别成为美国数理统计学会和美国统计学会会士(Fellow);2010年获得世界华人数学家大会的晨兴应用数学金奖(三年一度,不超过45岁);2012年获得泛华统计协会杰出成就奖;2014年被ISI评为论文高频引用的数学家;2016年获得泛华统计协会许宝騄奖(三年一度,不超过50岁);2017年获得Jerome Sacks 杰出交叉学科贡献奖(一年一位); 2022年当选国际计算生物学会会士(Fellow)。截至2024年9月,刘军教授在各类国际顶尖学术杂志及书刊上发表论文300余篇和一本专著, 被引用近8万7千余次(Google scholar)。
在统计理论方面,刘军教授参与创立了序贯蒙特卡洛和粒子滤波方法;对马尔可夫链蒙特卡洛(MCMC)方法的设计构建了重要理论框架,提出了可以大幅提高MCMC抽样和最优化算法效率的若干新技术,并广泛应用这些理论和方法于工程学、生物信息学、大数据分析、个性化医疗等许多领域。在生物信息学方面,刘军教授是国际上为数不多的将贝叶斯模型和MCMC方法成功应用于该领域的统计学家之一。由刘军教授提出的“Gibbs保守串抽样和指针”是到目前为止生物学者寻找DNA和蛋白序列中精巧模式的两种最流行算法,在了解基因调控和蛋白同源性方面有非常成功的应用。近年来,刘军教授投入对统计学习理论和方法的研究。利用逆回归方法在高维非参数模型变量选择及预测、高维复杂分类逻辑回归模型构造和预测、高维贝叶斯模型选择及预测等方面取得一系列突破性进展,对大数据处理方面有深远影响。