学位论文 > 优秀研究生学位论文题录展示
领域间适应性情感分类方法研究
作 者: 杨文让
导 师: 李培峰
学 校: 苏州大学
专 业: 计算机应用技术
关键词: 情感分类 领域适应 特征选择 质心迁移 聚类
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 45次
引 用: 0次
阅 读: 论文下载
内容摘要
随着Internet的迅速发展与普及,网络上出现了越来越多的主观性言论。对于这些主观性文本的分析和挖掘,传统的基于主题的文本分类方法已经无法满足需求。因此,人们开始关注并研究这些主观性文本的情感分类。情感分类是一个领域相关问题,在一个领域训练的分类模型通常很难应用于另一个领域。如果针对每个领域都训练一个分类模型需要大量的标注数据。而标注数据的获得,需要耗费大量的时间和精力,代价非常高昂。因此,领域适应情感分类的研究具有很重要的应用价值。针对领域适应性情感分类,本文的主要研究和贡献如下:(1)针对不同领域特征统计分布的差异,提出了一种新的结合特征相似度计算的领域间特征选择方法,通过这种方法可以选择出在两个领域中具有相似统计分布的情感特征,从而提高了分类效果。(2)提出了基于质心迁移的领域间情感分类方法,该方法利用源领域的标注文本对目标领域的大量未标注文本进行分类,选择一部分可信度高的文本加入到训练集,同时去除源领域中距离目标领域测试集质心较远的文本,通过迭代逐渐缩小两个领域间的质心距离,减小领域间差异。实验表明,该方法能够显著提高分类的效果。(3)由于同一领域内文本可能具有不同的特征,而不同领域的文本也可能具有一定相似的特征,本文提出将两个领域的文本进行聚类,针对每个小类中的测试文本分别进行分类的方法。这种方法同样能够减少领域间的差异,提高分类的效果。
|
全文目录
中文摘要 4-5 Abstract 5-9 第一章 绪论 9-18 1.1 研究背景及意义 9-10 1.2 情感分类研究现状 10-15 1.2.1 词/短语级别情感分类研究现状 11-12 1.2.2 句子级别情感分类研究现状 12-13 1.2.3 篇章级别情感分类研究现状 13-15 1.3 情感分析应用系统 15 1.4 跨领域情感分类 15-16 1.5 本文的研究工作 16-17 1.6 论文组织 17-18 第二章 相关知识 18-27 2.1 文本表示模型 18-19 2.2 预处理 19-20 2.3 文本分类方法 20-23 2.3.1 朴素贝叶斯 20-21 2.3.2 K 最近邻 21-22 2.3.3 支持向量机 22-23 2.4 FCE 23-24 2.5 实验结果评测指标 24 2.6 实验语料和基准系统 24-26 2.7 本章小结 26-27 第三章 领域间适应性情感分类中的特征选择 27-36 3.1 引言 27 3.2 系统框架 27 3.3 主客观句分类 27-30 3.3.1 主客观语句的定义 28 3.3.2 主客观语句的分类 28-30 3.4 种子特征的选取 30-31 3.5 特征的扩充 31-32 3.6 实验结果与分析 32-34 3.7 领域相似度的度量 34-35 3.8 本章小结 35-36 第四章 基于质心迁移的领域间适应性情感分类 36-47 4.1 引言 36 4.2 直接迁移的缺点 36-37 4.3 基于质心迁移的领域间适应性情感分类 37-42 4.3.1 整体框架 37-39 4.3.2 源领域中文本的去除 39 4.3.4 目标领域文本的加入 39-42 4.4 实验结果与分析 42-45 4.5 本章小结 45-47 第五章 基于聚类的领域间适应性情感分类 47-56 5.1 引言 47 5.2 聚类方法概述 47-49 5.3 常用聚类算法 49-51 5.4 算法流程 51-53 5.5 实验结果与分析 53-55 5.6 本章小结 55-56 第六章 总结与展望 56-58 6.1 本文研究总结 56-57 6.2 展望 57-58 参考文献 58-63 攻读学位期间公开发表的论文 63-64 致谢 64-65
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 图像分割中阴影去除算法的研究,TP391.41
- 唇读中的特征提取、选择与融合,TP391.41
- 基于图分割的文本提取方法研究,TP391.41
- 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
- 高血压前期证候特征研究,R259
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- K-均值聚类算法的研究与改进,TP311.13
- 大学生综合素质测评研究,G645.5
- 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
- 21个荷花品种遗传多样性的ISSR分析,S682.32
- 基于聚类分析的P2P流量识别算法的研究,TP393.02
- 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
- 桃杂交后代(F1)幼苗光合效能评价,S662.1
- 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
- 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
- 基于变异粒子群的聚类算法研究,TP18
- K-means聚类优化算法的研究,TP311.13
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 基于遗传算法和粗糙集的聚类算法研究,TP18
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|