学位论文 > 优秀研究生学位论文题录展示
特征选择方法对英文作文自动评分性能影响的研究
作 者: 崔爱国
导 师: 姚建民
学 校: 苏州大学
专 业: 计算机技术
关键词: 自动作文评分 特征提取 向量空间模型 boosting 线性回归
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 47次
引 用: 3次
阅 读: 论文下载
内容摘要
英文作文自动评分是一项使用计算机进行作文评分的新技术。该项技术的研究起始于20世纪60年代。至今已经有多个国家开发出针对英文的作文自动评分系统,如E-rater等等。在目前中国此方面正属于研究之中。在当代大学英语四、六级考试是一项规模宏大的标准化考试。考试阅卷工作量大,很难保证阅卷评分的准确性和客观性,随着参考人数的增多,这一问题日显突出。面向大学英语写作的自动作文评分研究存在不少难题,如:评分标准、针对性、通用性等。自动评分要以人工评分为准,并结合写作教学理论;评分要考虑中国学生写作特点,使评价具有针对性。目前的自动化考试系统对客观题目均实现了自动判分,但对作文的自动评分仍有待研究。本文从语料库中抽取同一主题的作文作为系统的语料,根据作文分值的不同,将不同分值的作文划分到不同的类别。文中用到了两种不同的方法来实现对作文的评分——Boosting算法和线性回归方法。抽取相关作文的特征,根据提取的特征,利用向量空间模型来表示每一篇作文,然后利用TF-IDF、IG和CHI方法对抽取的特征进行筛选,删除作文中比所设阈值小的特征,再利用三种文本分类算法(朴素贝叶斯、K近邻和支持向量机)来作为分量分类器。文中用Boosting算法、线性回归的方法,对待测作文进行分类,得出作文的最后类别或分值。通过实验表明,不同的特征提取方法,对最终的结果存在不同影响,线性回归的评分结果比boosting方法稍好,进一步证明了该方法的可行性。
|
全文目录
摘要 3-4 Abstract 4-8 第一章 引言 8-12 1.1 本文研究的背景和意义 8-9 1.2 本文的创新之处 9-10 1.3 本文的工作任务 10 1.4 本文的组织结构 10-12 第二章 自动作文评分及本文的实现 12-21 2.1 自动作文评分的概述 12-14 2.1.1 自动作文评分的工作原理 12 2.1.2 自动作文评分的流程 12-13 2.1.3 自动作文评分的优点 13-14 2.2 自动作文评分的发展状况 14-17 2.2.1 国外发展现状 14-16 2.2.2 国内发展现状 16-17 2.3 相关自动作文评分的比较 17-18 2.4 本文的实现 18-19 2.5 本章小结 19-21 第三章 英文作文的特征提取与表示 21-31 3.1 英文作文特征的提取方法 21-24 3.1.1 TF-IDF 21-22 3.1.2 IG 22-23 3.1.3 CHI 23-24 3.2 英文作文的表示及划分 24-30 3.3 本章小结 30-31 第四章 Boosting 算法在作文评分中的应用 31-48 4.1 分类器介绍 31-41 4.1.1 模式识别与分类器技术简介 31-32 4.1.2 K 近邻 32-33 4.1.3 朴素贝叶斯 33-36 4.1.4 支持向量机 36-39 4.1.5 分类器融合概述 39-41 4.2 Boosting 概述 41-42 4.3 AdaBoost 方法 42-44 4.4 实验结果与分析 44-47 4.4.1 性能评价标准 44-46 4.4.2 实验结果 46-47 4.5 本章小结 47-48 第五章 线性回归应用于作文自动评分 48-56 5.1 一元线性回归 48-51 5.1.1 相关系数 49-50 5.1.2 方差分析和F 检验 50 5.1.3 残差分析 50-51 5.2 多元线性回归 51-53 5.3 实验结果 53-54 5.4 本章小结 54-56 第六章 总结与展望 56-58 6.1 论文总结 56 6.2 研究展望 56-58 参考文献 58-62 攻读学位期间公开发表的论文 62-63 致谢 63
|
相似论文
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
- 空间交会接近视觉测量方法研究,TP391.41
- 图像实时采集、存储与处理方法研究,TP391.41
- 唇读中的特征提取、选择与融合,TP391.41
- 多币种纸币处理技术的研究与实现,TP391.41
- 基于停用词处理的汉语语音检索方法,TP391.1
- 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 移动机器人视觉检测和跟踪研究,TP242.62
- 高光谱与高空间分辨率遥感图像融合算法研究,TP751
- 基于随机森林的植物抗性基因识别方法研究,Q943
- 基于图像处理技术的烟叶病害自动识别研究,S435.72
- 基于视觉的番木瓜外观品质检测技术研究,S667.9
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 羊绒与羊毛纤维鉴别系统的研究,TS101.921
- 红外图像目标识别及跟踪技术研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|