王小宁老师团队在《统计研究》发表论文:基于BP神经网络的伪设计样本融合研究
Published:
随着量化研究热度上升,非概率抽样成为数据调查的重要方式之一。然而,在量化研究中,非概率样本多被用于定性分析中。融合概率样本及非概率样本进行统计推断,可以减少样本浪费,提高估计的精度,具有重要的现实意义。目前的样本融合方法多采用为非概率样本设计伪权重的方法,调整非概率样本结构使其更加贴近于总体结构,从而可以与概率样本融合进行定量分析。但这一方法面临着大数据时代数据维度变高的挑战,基于Logistic回归的倾向得分法生成的伪权重在处理高维数据时会出现性能下降的问题。故本文将BP神经网络引入非概率样本的权重构造中,并在估计倾向得分构造初始权重后,采用最短距离法进一步进行权重的校准。结果显示,对该方法相比于基于Logistic回归的伪设计方法具有更高的估计精度。
论文题目:基于BP神经网络的伪设计样本融合研究
论文摘要:由于实施简单、样本收集快速,非概率抽样已经成为获取数据的重要方式之一,但非概率样本代表性往往无法得到验证,样本无法多次利用,从而造成了数据资源浪费的问题。融合概率样本及非概率样本进行统计推断可以进一步提升估计的精度,减少数据资源的浪费。由此,本文采用伪设计样本融合思路,提出基于BP神经网络的伪设计样本融合方法,创新性地将BP神经网络引入非概率样本权重构造中,并采用最短距离法对倾向得分生成的初始权重进行二次校准。根据实验结果显示,本文提出的方法可以获得更高精度的估计结果,在协变量维数较高的情况下仍能保持良好的估计精度。本文不仅为网络时代下海量的高维样本融合分析提供了一个切实的方法,并且为概率样本与非概率样本融合领域的研究提供了一种新的思路。
作者介绍
王小宁,现为中国传媒大学数据科学与智能媒体学院副教授,大语言模型智能体书卷侠(scholarhero.cn)负责人,硕士生导师,中国商业统计学会理事,中国人民大学中国调查与数据中心研究员,中国商业统计学会人工智能分会秘书长,统计之都秘书长,中国人民大学统计学博士,研究方向为大语言模型、抽样设计、统计机器学习和文本挖掘。主持或参与多项社科、教育部和国家统计局项目,发表SCI和CSSCI论文20余篇,主持或参与多项社会调查项目。
王佳琪,北京师范大学在读研究生,主要研究方向包括多源样本融合、数字经济等。