测试的偏见

最后更新:

教育考试被考虑有偏见的如果测试设计,或结果的解释和使用方式,系统缺点某些群体的学生超过其他人,如学生的颜色,来自低收入家庭的学生,学生并不精通英语,或不流利的学生在某些文化习俗和传统。识别测试偏差需要测试开发人员和教育工作者确定为什么一组学生在特定测试中比另一组学生表现更好或更差。例如,是因为小组成员的特点,测试他们的环境,还是测试设计和问题的特点?随着公立学校的学生群体变得越来越多样化,考试在决定个人成功或获得机会方面扮演着越来越重要的角色,偏见的问题——以及如何消除偏见——变得越来越重要。

有一些测试偏差的一般类别:

  • 建构效度偏差指的是一个测试是否准确地测量了它被设计用来测量的东西。例如,在智力测试中,正在学习英语的学生可能会遇到他们没有学过的单词,因此测试结果可能反映出他们相对较弱的英语技能,而不是他们的学术或智力能力。
  • 内容效度偏差当一组学生的考试内容比另一组学生的考试内容相对困难时。当一个学生小组的成员,如不同的少数群体,没有获得相同的机会学习被测试的材料时,就会发生这种情况,当评分对一个群体不公平时(例如,在一个群体的文化中有意义的答案被认为是不正确的),或者是因为语言或文化差异,问题的措辞对某些学生来说是不熟悉的。试题选择偏见,是这种偏见的一个子类,指的是使用更适合某一群体语言和文化经历的单个测试项目。
  • 预测效度偏见(或偏见criterion-related有效性)指一项测试在预测某一学生群体未来表现方面的准确性。例如,如果一项测试能同样好地预测所有学生的未来学业和考试成绩,那么它就被认为是“公正的”。

测试偏差是与问题密切相关的考试的公平性即:,测试结果的社会应用是否有不公平的有利或不利某些学生群体的后果?大学入学考试常常引起人们对考试偏见和考试公平的关注,因为考试在决定进入高等教育机构,特别是精英学院和大学方面发挥着重要作用。例如,女学生的得分往往低于男学生(可能是因为测试设计中的性别偏见),尽管女学生在大学中平均成绩往往更高(这可能表明预测效度偏见的证据)。

再举一个例子,有证据表明家庭收入和大学入学考试成绩之间存在一致联系,平均而言,高收入学生的得分高于低收入学生。学生可以通过辅导或考试辅导大幅提高成绩的事实,增加了社会经济不公平的感觉,因为备考课程和服务对许多学生来说可能过于昂贵。(对偏见和不公平的担忧是“可选考试”或“弹性考试”的大学录取政策趋向的一个促成因素。)

以下是其他可能导致测试偏差的因素的几个有代表性的例子:

  • 如果开发测试的工作人员在人口统计学或文化上不能代表将要参加测试的学生,那么测试项目可能会反映出无意的偏见。例如,如果测试开发人员主要是白人、中上阶层男性,那么由于文化上的疏忽,测试结果可能会对人口统计学上相似的测试者有利,而对其他测试者不利。
  • Norm-referenced测试如果“规范过程”不包括所有受测子组的代表性样本,则可能会有偏差。例如,如果测试开发人员在最初的比较组(用于确定测试中使用的规范)中没有包括语言、文化和社会经济多样化的学生,那么结果测试可能会潜在地对被排除的组不利。
  • 某些考试形式可能会以牺牲其他学生为代价,对某些学生群体产生固有的偏见。例如,有证据表明,计时的多项选择测试可能更倾向于男性的某些思维风格,而不是女性的,比如愿意冒险猜测正确答案或反映黑白逻辑而不是微妙逻辑的问题。
  • 语言测试的选择问题可以引入偏见,例如,如果惯用文化词语“旧情人”或“食宿的比较”——这也许是陌生的,刚移民的学生可能还没有精通英语或美国文化引用。
  • 如果考试提及特定学生群体不熟悉的文化细节,则可能被认为是有偏见的。例如,一个刚从加勒比海移民过来的学生可能从来没有经历过冬天、下雪或与下雪有关的学校停课,因此可能会被要求描述一个下雪天经历的问答题所困扰。
  • 文化偏见测试的另一个方面涉及到在特殊教育项目中黑人学生,特别是黑人男性学生的过多代表。例如,令人关切的是,用于识别残疾学生的测试,包括智力测试,由于固有的种族和文化偏见,将黑人学生误认为有学习障碍。

改革

测量误差,测试中的一定程度的偏见和不公平性可能是不可避免的。测试偏见和不公平性的不可避免性是许多测试开发商和测试专家谨慎的原因是根据单一测试结果进行重要的教育决策。教育和心理测试标准 - 美国教育研究协会,美国心理协会和全国教育委员会联合开发的一套拟议指导方针 - 包括“在小学或中学教育,决定或表征中的建议这将对测试接受者产生重大影响,不应自动在单一分数的基础上进行。“

考虑到测试结果在学生的重要决策中继续被广泛使用,测试开发人员和专家已经确定了一些策略,可以减少,如果不能消除,测试偏见和不公平。一些有代表性的例子包括:

  • 努力实现测试开发人员的多样性,培训测试开发人员和评分人员,让他们意识到潜在的文化、语言和社会经济偏见。
  • 由接受过识别文化偏见培训的专家和具有不同文化和语言背景的亚群体代表审查测试材料。
  • 确保用于开发规范参照测试的标准化过程和样本量包括不同的学生亚群体,并且足够大,构成一个有代表性的样本。
  • 消除产生最大种族和文化表现差距的项目,选择产生最小差距的项目——一种被称为“黄金法则”的技术。(但是,考虑到在任何特定的测试人群中可能代表的种族、民族和文化群体的数量,这一特定战略可能在后勤上难以实现)。
  • 筛选和删除那些更有可能冒犯某些群体的条目、参考文献和术语。
  • 将试题翻译成考生的母语或使用口译人员翻译试题。
  • 包括更多“基于表现”的项目,以限制语言和词汇选择在测试表现中的作用。
  • 采用多种评估方法来确定学业成就和进步,并避免使用考试成绩,排除其他信息,以作出有关学生的重要决定。