近日,北京师范大学中国基础教育质量监测协同创新中心陈平副教授与美国华盛顿大学教育学院王纯副教授合作,在心理测量学期刊Psychometrika在线发表题为“Using EM algorithm for finite mixtures and reformed supplemented EM for MIRT calibration”的理论文章。北京师范大学为论文第一完成单位,陈平副教授是论文第一作者和通讯作者。
多维项目反应理论(MIRT)对被试潜在特质与测验题目间的关系进行多维表征,近年来在心理/教育测量领域得到广泛关注。采用合适参数估计方法对MIRT模型的结构参数(包括题目参数和潜在特质分布参数)及其标准误(SEs)进行准确估计至关重要。边际极大似然/最大期望算法(MMLE-EM)作为最具代表性的MIRT参数估计方法,一般假设潜在特质服从正态分布。而对于测量实践中经常出现的非正态数据,能灵活、准确返真任意潜在特质分布的有限混合EM算法(EM-FM)则更为合适。
但在实现EM-FM算法时却一直存在两个尚未得到充分讨论的研究问题:(1)EM循环中处理量尺不确定性问题的最佳时间;(2)EM-FM框架下合理的SE估计算法。针对问题一,文章研究比较两种重新量尺化方案:在每个EM 循环后重新量尺化(方案1)和在最后一个EM循环结束后量尺化(方案2)。针对问题二,文章对更新后的补充EM算法(USEM)进行修改以适应EM-FM框架下所有模型参数(包括题目参数和潜在权重)的SE估计,还提出一种启发式方案来解决EM-FM所特有的SE估计挑战,并对这种启发式方案的理论性质进行分析。
模拟结果表明:(1)相对于方案2,方案1在不影响估计精度的前提下可以提高收敛速度(Figs. 1 and 2);(2)当样本量相对较大(比如,2000)时,所有模型参数的SEs都可以得到比较准确的估计(Fig. 3)。研究成果不仅完善MIRT参数估计方法的理论体系,而且为多维自适应测验的题库建设与维护奠定参数估计基础。实践方面,成果也可为国家基础教育质量监测数据的多维分析提供新思路。比如,在使用多维模型对国家监测数据进行分析时,采用方案1可以节省参数估计的时间;当维度数较多时,使用启发式方案可为每名学生提供准确的SE信息。
Figure 1. RMSE results of the two rescaling schemes under all conditions when R = 0. Note: 0 = normal, 1 = the first dimension is skewed, 2 = the first two dimensions are skewed, 3 = all three dimensions are skewed.
Figure 2. Mean number of EM cycles and mean computation time (in seconds) for running EM-FM across all valid replications for the two rescaling schemes under all conditions.
Figure 3. The empirical histogram estimates of distributions under the conditions of “N=2000,R=0,and W=0”, “N=2000,R=0.5,and W=2” and “N=2000,R=0.8,and W=3”. Note that the solid lines are the probability density curves drawn based on the simulated θs.
Psychometrika是国际心理测量协会的官方杂志,主要发表对心理学、教育、社会科学和行为科学中行为数据进行评价的统计方法、数学技术与前沿理论类成果。这项研究得到国家自然科学基金面上项目(32071092)和中国基础教育质量监测协同创新中心基础教育质量监测科研基金项目(2019-01-082-BZK01和2019-01-082-BZK02)的资助。
文章链接:https://link.springer.com/article/10.1007/s11336-021-09745-6。