学位论文 > 优秀研究生学位论文题录展示
基于SVM的新闻报道特征新事件检测研究
作 者: 周淑贤
导 师: 刘震宇
学 校: 中南林业科技大学
专 业: 计算机应用技术
关键词: 新事件检测 支持向量机 向量空间模型
分类号: TP18
类 型: 硕士论文
年 份: 2011年
下 载: 37次
引 用: 0次
阅 读: 论文下载
内容摘要
随着因特网的普及,新闻网页已经成为人们获取信息的一个主要来源之一。但面对浩瀚的信息量,人们需要借助某种方式来快速、准确地搜集自己感兴趣的信息。话题检测与追踪(Topic Detection and Tracking, TDT)是一项为了应对信息海量的问题而展开的研究。美国1996年开始组织有关研究机构进行TDT测评,新事件检测(New Event Detection, NED)作为其关键子任务之一,研究的主要内容是怎样通过新事件检测系统检测出事件的第一篇新闻报道。国内相关研究虽起步较晚,但由于话题检测与追踪在信息检索、文本分类等相关领域的实际应用价值,其相关研究已成为信息处理领域的热点。基本的新事件检测系统主要分为文本表示、文本的比较与文本分类与时间窗口选择等几大模块。本文在国内外研究的基础上,以文本形式的中文新闻数据流为处理对象,对自然语言处理技术中时间信息的统一表达、地名的规范化处理、人名库的有效建立方等方面作了改进。特别地,考虑到新闻报道趋向于尽早将报道要义告知读者的特点,本文提出了位置信息这一概念,并在此基础之上通过可加函数和可乘函数对Okapi相似比较函数进行改进。文本的分类方面,本文中采用的支持向量机(Support Vector Machine, SVM)的方法有坚实的数学基础,是机器学习领域关注度相当高的一种方法,尤其是在无监督情形下有着良好的鲁棒性,已被成功的应用于模式识别及回归问题的分析。本文对从中新网、新华网等大型网站收集的含有20个主题的14295篇新闻文档分别采用核回归法(kernel regression)、最近邻域方法(nearest neighbor method)和支持向量机法(Linear-kernel SVM、RBF-kernel SVM)等方法进行新事件检测,通过对采用基本NED系统和改进后的NED系统进行实验得出的检测代价系数进行对比,得到三种方法对应的代价系数分别降低了4.9%、7.3%和13.1%。由此说明了NED系统在应用了基于新闻语料特征改进的向量空间模型和采用体现了词汇位置信息的Okapi相似比较函数后,采用SVM方法进行文本分类较之以核回归方法和最近邻域方法进行分类,NED系统的性能提升更加有效。
|
全文目录
摘要 4-5 Abstract 5-9 1 绪论 9-14 1.1 研究背景和意义 9-10 1.1.1 新事件检测的研究背景 9 1.1.2 新事件检测的研究意义 9-10 1.2 新事件检测的研究状况 10-13 1.2.1 国外的研究现状 10-11 1.2.2 国内的研究现状 11-13 1.3 本文所做的主要工作 13-14 2 新事件检测基本模型 14-22 2.1 引言 14 2.2 文本表示 14-15 2.2.1 文档的预处理 14-15 2.2.2 文本的表示模型 15 2.3 文档的特征提取 15-17 2.3.1 文本特征选择 15-16 2.3.2 特征权重的计算 16-17 2.4 文档的比较 17-18 2.5 新事件的判定 18-20 2.5.1 滑动时间窗口 18-19 2.5.2 基本的NED算法 19-20 2.6 评测标准 20-21 2.7 本章小结 21-22 3 新事件检测改进模型 22-36 3.1 引言 22 3.2 文档表示的规范化 22 3.3 基于新闻语料特征的文档表示 22-29 3.3.1 时间信息的统一表达 22-24 3.3.2 地名的表示 24-27 3.3.3 人名、机构名的表示 27-28 3.3.4 词汇位置信息的表示 28-29 3.4 文档的比较 29-32 3.5 SVM方法分类 32-35 3.6 本章小结 35-36 4 实验设计与结果分析 36-52 4.1 引言 36 4.2 实验准备 36-37 4.2.1 语料来源 36-37 4.2.2 语料分类 37 4.3 实验过程 37-44 4.3.1 文档的预处理 37-39 4.3.2 文档的特征提取 39-43 4.3.3 文档基于SVM方法分类 43-44 4.4 实验结果 44-47 4.5 实验比较及分析 47-51 4.5.1 实验比较 47-50 4.5.2 实验分析 50-51 4.6 本章小结 51-52 总结与展望 52-54 总结 52-53 问题与展望 53-54 参考文献 54-60 附录 60-61 致谢 61
|
相似论文
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 音乐结构自动分析研究,TN912.3
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 基于停用词处理的汉语语音检索方法,TP391.1
- 基于图像的路面破损识别,TP391.41
- 基于支持向量机的故障诊断方法研究,TP18
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
- 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
- 基于机器学习的入侵检测系统研究,TP393.08
- 支持向量机回归在短期电力负荷预测中的应用研究,TM715;F224
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
- 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
- 城市污水处理厂中A~2O工艺过程的建模研究,X703
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论
© 2012 www.xueweilunwen.com
|