学位论文 > 优秀研究生学位论文题录展示
中文新闻情感分类系统的研究与实现
作 者: 石振梁
导 师: 吴国仕
学 校: 北京邮电大学
专 业: 计算机科学与技术
关键词: 情感分类 语义指向 机器学习 中文新闻 文档级别
分类号: TP393.09
类 型: 硕士论文
年 份: 2011年
下 载: 98次
引 用: 0次
阅 读: 论文下载
内容摘要
网络新闻以及时、全面的特点成为现代主要的信息载体,是人们生活中不可或缺的主要信息来源。网络新闻的表达形式多样化,内容的情感倾向也各不相同,所表达的情感倾向有正面的,也有负面的。因此网络舆情监督日益重要,对网络文本观点性内容的自动情感分析成为近期文本信息处理的一个研究热点,而其中的核心技术就是文本情感分类。文本中涉及到情感分类的对象一般有词汇、句子、段落以及篇章。而汉语语言的复杂性往往使词汇、句子及文本的情感检测研究面临很多的困难。为此,本文主要研究中文新闻文本的情感分类,分别在句子级别和文档级别进行了下述创新性研究工作。首先,构建中文新闻的语料库,构建情感词极性词典。其次,句子级别的情感分类的研究。本文给出了三个句子级别的情感分类模型:句法分析模型:第一步,收集包含主题词和情感词配对修辞关系的句法路径模板,存入数据库;第二步,输入分句块,构建基于依赖关系语法树,从句法角度判断是否存在修饰关系。基于向量空间分析模型:以主题词为中心,分别向前向后计算情感词和主题词的向量距离,以向量距离为基础计算情感得分。强力模型:查找主题词和情感词及二义词,从而确定情感倾向。再次,文档级别的情感分类的研究。文档级别的情感分类研究,是在句子级别的基础上开展的,本文给出了三个文档级别的情感分类模型:基于语义指向模型:主要包括预处理步骤、情感词否定词综合处理步骤、主题词和情感词综合处理步骤、主题词和情感词权重处理步骤。SVM模型:采用SVM算法,依次进行特征提取,SVM训练,将待测集进行句子级别的情感分析,再用SVM训练好的model样本进行计算。强力模型:查找文档中是否存在主题词和情感词,从而确定情感倾向。将各模型分别通过已经构建好的中文新闻语料库进行测试,不同级别的情感分类的不同模型,性能各有优劣,其中句子级别中的句法分析模型和文档级别中的基于语义指向模型都表现出了很高的性能水平。
|
全文目录
摘要 4-6 ABSTRACT 6-10 第一章 绪论 10-17 1.1 研究背景及意义 10 1.2 文本情感分类的基本概念 10-11 1.3 文本情感分类的研究现状 11-15 1.3.1 国外研究现状 11-13 1.3.2 国内研究现状 13-14 1.3.3 中文新闻情感分类存在的问题 14-15 1.4 本文的研究工作 15-16 1.5 本文的组织结构 16-17 第二章 句子级别的情感分类研究 17-39 2.1 句子级别情感分类的流程 17-21 2.1.1 句子预处理 17-18 2.1.2 主观句识别 18-19 2.1.3 主观句情感分类 19-21 2.2 句子级别情感分类的算法研究 21-30 2.2.1 算法概述 21-22 2.2.2 最大熵(ME)算法模型 22-25 2.2.3 朴素贝叶斯(NB)算法模型 25-28 2.2.4 改进的基于句法路径的语法树算法模型 28-30 2.3 句子级别情感分类的建模 30-38 2.3.1 模型概述 30-31 2.3.2 句法分析模型 31-34 2.3.3 基于向量空间分析模型 34-37 2.3.4 强力模型 37-38 2.4 本章小结 38-39 第三章 文档级别的情感分类的研究 39-62 3.1 文档级别情感分类的流程 39-40 3.2 文档级别情感分类的算法研究 40-47 3.2.1 算法概述 40-41 3.2.2 点互信息(PMI)算法模型 41-43 3.2.3 支持向量机(SVM)算法模型 43-47 3.3 文档级别情感分类的建模 47-61 3.3.1 模型概述 47 3.3.2 改进的基于语义指向模型 47-56 3.3.3 SVM模型 56-59 3.3.4 强力模型 59-61 3.4 本章小结 61-62 第四章 情感分类系统的设计 62-68 4.1 设计概述 62-63 4.1.1 研究动机及意义 62 4.1.2 需求分析 62-63 4.2 情感分类系统流程 63-65 4.2.1 句子级别情感分类流程 63-64 4.2.2 文档级别情感分类流程 64-65 4.3 情感分类系统架构 65-66 4.4 情感分类系统接口设计 66-67 4.4.1 句子级别情感分类系统接口设计 66 4.4.2 文档级别情感分类系统接口设计 66-67 4.5 本章小结 67-68 第五章 情感分类系统的实现 68-77 5.1 红黑词典的构建 68-70 5.1.1 构建标准 68 5.1.2 具体构建 68-70 5.2 中文新闻语料库的构建 70-71 5.2.1 句子级别语料库的构建 70-71 5.2.2 文档级别语料库的构建 71 5.3 实验平台的搭建 71-74 5.3.1 数据源的准备 71-73 5.3.2 工程的建立 73 5.3.3 情感倾向结果的输出 73-74 5.4 实验流程 74-76 5.4.1 句子级别情感分类的实验操作 74-75 5.4.2 文档级别情感分类的实验操作 75-76 5.5 本章小结 76-77 第六章 情感分类系统的结果分析 77-83 6.1 性能指标 77 6.2 实验及结果分析 77-79 6.2.1 句子级别实验及结果分析 77-78 6.2.2 文档级别实验及结果分析 78-79 6.3 模型比较 79-81 6.4 影响模型精度的因素 81-82 6.5 本章小结 82-83 第七章 总结与展望 83-86 7.1 总结 83-84 7.2 展望 84-86 参考文献 86-89 致谢 89-90 攻读学位期间发表的学术论文 90
|
相似论文
- 基于数据分布特征的文本分类研究,TP391.1
- 《摩诃僧祗律》范围副词研究,H141
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
- Android恶意软件静态检测方案的研究,TP309
- 面向情感的电影背景音乐分类方法研究,TP391.1
- 监督主题模型的研究与应用,TP391.1
- 基于失真效应的图像质量评价与分类,TP391.41
- 基于学习的逆向运动学人体运动合成,TP391.41
- 基于内容的网页恶意代码检测的研究与实现,TP393.092
- 学术主页信息抽取系统的研究,TP393.092
- 社会化网络中的推荐算法及其应用,TP391.3
- 数据挖掘在邮件反垃圾系统中的应用,TP393.098
- 基于自学习的社会关系抽取的研究,TP391.1
- 基于统计与图模型的若干机器学习算法及其应用,TP181
- P2P流量识别方法研究,TP393.06
- 基于粗糙集和SVM的国防生综合素质测评方法研究,E075
- 基于SIFT特征和SVM的场景分类,TP391.41
- 基于稀疏编码与机器学习的图像内容识别算法研究,TP391.41
- 随机森林特征选择,TP311.13
- 互联网流量应用基准分类技术的研究,TP393.06
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com
|