当前位置：文档库 › 大学英语机考条件下随机生成试卷的概化理论研究

大学英语机考条件下随机生成试卷的概化理论研究

①

王天剑

(贵州财经大学外国语学院,贵州贵阳550004)

摘要:机考卷子一般通过对题库中的题目进行随机组合生成。概化理论工具软件mGENOVA实证结果显示:考生与试题的交互效应对成绩的影响远远高于考生对成绩的影响;考试的概化系数和可靠性指数远远低于理想

水平;在合理范围内调整试题数量和赋分权重能使概化系数和可靠性指数得到一定提高,但未能达到理想水平。

随机组卷导致了不同考生试卷的非等值性,因而降低了测量信度。

关键词:大学英语;机考;概化理论

中图分类号:G449文献标识码:A文章编号:1009-1513(2018)01-0089-04

脏

一、引言

随着四、六级英语机考的逐渐推广,大学英语学期考试方式也开始向无纸化方向转变。机考或者无纸化考试可以节约资源,节省阅卷工作量。借助题库和工具软件,计算机系统能够随机生成大量不同内容试卷,使学生难以在考场中抄袭他人答案。但机考也有潜在问题。例如机房软硬件的稳定性、学生对键盘操作的熟练度,以及对机考的心理反应(如焦虑、恐惧等),都可能影响考试结果[1]。更主要的问题是试卷很难真正同质。无论什么样的题库,同类试题之间所谓的“同质”、“等值”仅是相对而言。据笔者调研,不少高校大学英语机考依托的是任课教师命题创建的题库。由于缺乏严格质量监控,这些题库在机考中随机组合生成的试卷,同质性尤其值得怀疑。试卷同质性越小,测试信度越低。考查同质性和信度,离不开现代高级测量理论。

概化理论是一种教育、心理和行为测量理论。它是在方差分析与经典测量技术基础上,逐步发展而来的理论体系[2]。按照经典测量理论,测量结果包括真分数与误差。利用方差分析,概化理论进一步将误差区分为不同来源成分,计算各自比重,并估算概化系数和可靠性指数。两种指标类似于经典测量的信度,其中概化系数旨在衡量,测量结果用于跟据某种特质将对象排序时的稳定性(相对测量信度);可靠性指数旨在衡量,测量结果用于考查对象某种特质绝对水平时的可靠性(绝对测量信度)[3]。

概化分析包括G研究(概化研究)和D研究(决策研究)两部分。前者可在观测全域上展示各种方差来源及其比重;后者可在概化全域上,借助G研究的方差比重,通过调整测量条件(如样本、任务、评分员、侧面关系、权重等),展示信度变化,从而提供优化测量设计的信息[4-5]。因其在测量中的重要价值,概化理论被誉为三大高级测量理论之一(另外两种是经典测量理论及项目反应理论)。概化分析可分为一元概化分析和多元概化分析。前者用于单变量(univariate)研究,后者用于多变量(multivariate)研究。

近年来,国外和国内有不少研究采用概化理论考查语言测试的质量[6-7],但是以外语机考信度为对象的概化研究尚不多见。面对不断推广的机考,有必要对其进行概化分析,及时发现问题并予以解决。以下采用多元概化分析,考查大学英语机考的信度。

第20卷第1期五邑大学学报(社会科学版)Vol.20No.1 2018年02月Journal of Wuyi University(Social Sciences Edition)Feb.,2018

①收稿日期:2017-10-15

基金项目:本文为2016年贵州省教育科学规划课题“概化理论在大学英语测试可靠度评价中的应用研究”(批准号:2016B236)的部分成果。

作者简介:王天剑(1968—),男,河南南阳人,博士,教授,主要从事教育测量研究。