学位论文 > 优秀研究生学位论文题录展示

客观结构化临床考试中标准化病人评分效应的初步研究

作　者: 郭伟英
导　师: 于晓松
学　校: 中国医科大学
专　业: 社会医学与卫生事业管理
关键词: 客观结构化临床考试标准化病人多面Rasch模型评分员效应
分类号:
类　型: 硕士论文
年　份: 2010年
下　载: 200次
引　用: 1次
阅　读: 论文下载

内容摘要

前言客观结构化临床考试(Objective Structured Clinical Examination, OSCE)是目前国际公认的评价临床能力最好的方法,被国内外很多医学院校广泛的用于临床能力的评估,一些国家将其应用于医师资格准入考试中。OSCE包括标准化病人(Standardized Patients, SP)考站,其信度和效度受由其组成部分(病例、标准化病人、评价量表等)所引起的多种潜在测量误差的影响,包括不适当的病例内容,SP在病例中不准确、不稳定的模拟及SP作为评分者引起的各种评分者误差(Rater Effect)等。评分者效应,又称评分者误差(Rater Error),是评分者在使用评价量表进行测评时所产生的误差,包括评分者宽容效应、评分者不一致性以及评分者偏差等。随着OSCE的广泛应用,越来越多的学者尝试运用现代教育测量学的方法,分析影响OSCE的潜在测量误差。项目反应理论中的多面Rasch模型(Many Facets Rasch Model, MFRM)能够对标准化病人侧面、考生侧面、题目侧面进行分析,剔除评分过程中的主观因素,在主观评分的客观化分析中具有广泛的应用前景。本研究拟将多面Rasch模型引入OSCE中,将考生、标准化病人,题目难度作为侧面,估计考生临床能力,分析标准化病人评分的评分员误差以及评价量表的应用情况等,为OSCE原始成绩的应用、标准化病人的培训、评价量表的使用、OSCE的质量控制提供科学依据。资料来源与研究方法本研究以参加中国医科大学2009届五年制本科临床医学专业毕业考试中客观结构化临床考试评价的标准化病人为研究对象,并且参加此次考试的考生同为研究对象。考试于2009年5月11日至5月22日在中国医科大学附属第一医院临床技能培训中心进行。参加评价的标准化病人共23人,其中男7人,女16人；参加考试的五年制临床医学本科毕业生共352人,其中男154人,女198人。运用FACETS3.64.0编写语句创建多面Rasch模型,对考试数据进行分析。结果一、数据与模型拟合度数据与模型拟合较好。二、MFRM总体分析结果最严格的标准化病人为SP21,最宽松的标准化病人为SP27；交流能力测试题最难的题目为第9题是否解释做体格检查的原因,明确解释发现的体征及得出的结论,最简单的题目为第1、2题,考生是否友好的与标准化病人交流,以及是否有礼貌的对待标准化病人。三、对标准化病人侧面的分析(一)标准化病人评分宽严程度的MFRM分析结果SP21的宽严程度值是0.74 logits (SE=0.03),是最严格的标准化病人,SP27的宽严程度值是-1.351ogits (SE=0.04),是最宽松的标准化病人。标准化病人之间在宽严程度上存在很大差异。OSCE的管理者可以根据准化病人评分的宽严特点安排标准化病人的分组,将宽松的标准化病人与严格的标准化病人安排到同一组,以均衡标准化病人的宽严程度,减少其对考生原始成绩的影响,使得原始分数更接近于考生的真实值。(二)标准化病人评分整体自身一致性的MFRM分析结果23个标准化病人infit值域为0.5～4.16,其中SP10、SP33、SP31的infit值分别为4.16、1.9、1.52,infit值大于1.5,属于自身一致性较差的标准化病人；SP24、SP8、SP15的infit值等于0.5属于自身过于一致的标准化病人；其他标准化病人infit值均在0.5～1.5之间,自身一致性较好。1、评分自身一致性较差的标准化病人以SP10和SP33为例,根据FACETS提供的misfitting评分表进一步了解评分不一致的根源,即SP10、SP33究竟是在对哪个考生的哪道题目评分时出现了哪种性质的不一致的评定结果。(1)标准化病人10。SP10在对题目4评分时,给出超过模型预期值两个标准差以外的异常分数40个,在评价题目8时,给出超过模型预期值两个标准差以外的异常分数36个。由此可推断SP10对评价量表第4题和第8题的理解不好,不能应用此题目准确的评价考生的能力,为考试的准确性带来了影响。(2)标准化病人33。例如,SP33在对259号考生第10题的表现评分时,给出了0分,但是按照该标准化病人自身的宽严程度,对于这个能力水平的考生,模型期望SP33对此考生此题目评分2.7分,实际评分与模型期望分之间偏离了3.6个标准差,属于一个异常的评分结果。2、评分过于一致的标准化病人标准化病人24,8,15的infit值均为0.5,均评价了90名考生,但是三位标准化病人很少使用等级0和等级4,大部分评定使用等级1,2,3,呈现了趋中效应。四、对考生侧面的分析352名考生的交流能力估计值范围为：-1.1～1.13logits,全距为2.24logits,其中能力最高的考生为156号,能力值为1.1 logits (SE=0.17),能力最低的考生为268号,能力值为-1.13 logits (SE=0.13)。以标准化病人评分较为一致的146号考生以及标准化病人评分争议性最大的121号考生为例,对121号考生评价的6个标准化病人中,有5位偏差分为负数。五、对题目侧面的分析交流能力测试题最难的题目为第9题是否解释做体格检查的原因,明确解释发现的体征及得出的结论,最简单的题目为第1、2题,考生是否友好的与标准化病人交流,以及是否有礼貌的对待标准化病人。结论1.总体来说,本次考试难度适中,RUCIS量表适合评价本研究中临床医学本科毕业生交流能力。2.标准化病人评分宽严程度差别较大。可以根据标准化病人的宽严程度考虑将较为严格的标准化病人与较为宽松的标准化病人搭配在同一个考试组以增加考试的公平性。3.个别标准化病人需加强其在评分等级以及评价量表中个别题目的理解上的训练。4.评价量表中个别难度较大的题目需要改进,标准化病人理解不好的题目表述需要改进。

客观结构化临床考试中标准化病人评分效应的初步研究

内容摘要

全文目录

相似论文