学位论文 > 优秀研究生学位论文题录展示

特征选择方法对英文作文自动评分性能影响的研究

作 者: 崔爱国
导 师: 姚建民
学 校: 苏州大学
专 业: 计算机技术
关键词: 自动作文评分 特征提取 向量空间模型 boosting 线性回归
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 47次
引 用: 3次
阅 读: 论文下载
 

内容摘要


英文作文自动评分是一项使用计算机进行作文评分的新技术。该项技术的研究起始于20世纪60年代。至今已经有多个国家开发出针对英文的作文自动评分系统,如E-rater等等。在目前中国此方面正属于研究之中。在当代大学英语四、六级考试是一项规模宏大的标准化考试。考试阅卷工作量大,很难保证阅卷评分的准确性和客观性,随着参考人数的增多,这一问题日显突出。面向大学英语写作的自动作文评分研究存在不少难题,如:评分标准、针对性、通用性等。自动评分要以人工评分为准,并结合写作教学理论;评分要考虑中国学生写作特点,使评价具有针对性。目前的自动化考试系统对客观题目均实现了自动判分,但对作文的自动评分仍有待研究。本文从语料库中抽取同一主题的作文作为系统的语料,根据作文分值的不同,将不同分值的作文划分到不同的类别。文中用到了两种不同的方法来实现对作文的评分——Boosting算法和线性回归方法。抽取相关作文的特征,根据提取的特征,利用向量空间模型来表示每一篇作文,然后利用TF-IDF、IG和CHI方法对抽取的特征进行筛选,删除作文中比所设阈值小的特征,再利用三种文本分类算法(朴素贝叶斯、K近邻和支持向量机)来作为分量分类器。文中用Boosting算法、线性回归的方法,对待测作文进行分类,得出作文的最后类别或分值。通过实验表明,不同的特征提取方法,对最终的结果存在不同影响,线性回归的评分结果比boosting方法稍好,进一步证明了该方法的可行性。

全文目录


摘要  3-4
Abstract  4-8
第一章 引言  8-12
  1.1 本文研究的背景和意义  8-9
  1.2 本文的创新之处  9-10
  1.3 本文的工作任务  10
  1.4 本文的组织结构  10-12
第二章 自动作文评分及本文的实现  12-21
  2.1 自动作文评分的概述  12-14
    2.1.1 自动作文评分的工作原理  12
    2.1.2 自动作文评分的流程  12-13
    2.1.3 自动作文评分的优点  13-14
  2.2 自动作文评分的发展状况  14-17
    2.2.1 国外发展现状  14-16
    2.2.2 国内发展现状  16-17
  2.3 相关自动作文评分的比较  17-18
  2.4 本文的实现  18-19
  2.5 本章小结  19-21
第三章 英文作文的特征提取与表示  21-31
  3.1 英文作文特征的提取方法  21-24
    3.1.1 TF-IDF  21-22
    3.1.2 IG  22-23
    3.1.3 CHI  23-24
  3.2 英文作文的表示及划分  24-30
  3.3 本章小结  30-31
第四章 Boosting 算法在作文评分中的应用  31-48
  4.1 分类器介绍  31-41
    4.1.1 模式识别与分类器技术简介  31-32
    4.1.2 K 近邻  32-33
    4.1.3 朴素贝叶斯  33-36
    4.1.4 支持向量机  36-39
    4.1.5 分类器融合概述  39-41
  4.2 Boosting 概述  41-42
  4.3 AdaBoost 方法  42-44
  4.4 实验结果与分析  44-47
    4.4.1 性能评价标准  44-46
    4.4.2 实验结果  46-47
  4.5 本章小结  47-48
第五章 线性回归应用于作文自动评分  48-56
  5.1 一元线性回归  48-51
    5.1.1 相关系数  49-50
    5.1.2 方差分析和F 检验  50
    5.1.3 残差分析  50-51
  5.2 多元线性回归  51-53
  5.3 实验结果  53-54
  5.4 本章小结  54-56
第六章 总结与展望  56-58
  6.1 论文总结  56
  6.2 研究展望  56-58
参考文献  58-62
攻读学位期间公开发表的论文  62-63
致谢  63

相似论文

  1. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  2. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  3. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  4. Q学习在基于内容图像检索技术中的应用,TP391.41
  5. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  6. 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
  7. 空间交会接近视觉测量方法研究,TP391.41
  8. 图像实时采集、存储与处理方法研究,TP391.41
  9. 唇读中的特征提取、选择与融合,TP391.41
  10. 多币种纸币处理技术的研究与实现,TP391.41
  11. 基于停用词处理的汉语语音检索方法,TP391.1
  12. 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
  13. 基于图像的路面破损识别,TP391.41
  14. 移动机器人视觉检测和跟踪研究,TP242.62
  15. 高光谱与高空间分辨率遥感图像融合算法研究,TP751
  16. 基于随机森林的植物抗性基因识别方法研究,Q943
  17. 基于图像处理技术的烟叶病害自动识别研究,S435.72
  18. 基于视觉的番木瓜外观品质检测技术研究,S667.9
  19. 基于SVM分类算法的主题爬虫研究,TP391.3
  20. 羊绒与羊毛纤维鉴别系统的研究,TS101.921
  21. 红外图像目标识别及跟踪技术研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com