学位论文 > 优秀研究生学位论文题录展示
基于增量学习的自适应话题追踪技术研究
作 者: 郑燕
导 师: 鲁燃
学 校: 山东师范大学
专 业: 计算机应用技术
关键词: 自适应话题追踪 命名实体 反馈报道 特征扩展 动态阈值
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 68次
引 用: 0次
阅 读: 论文下载
内容摘要
话题追踪是话题检测与追踪的一项子任务,目的是监控新闻报道流,识别出与已知话题相关的后续报道,是实现舆情监测不可或缺的一部分。本文主要针对传统话题追踪存在的问题做出改进,提出一种基于反馈报道的自适应话题追踪方法,并成功应用到舆情监测系统中。主要研究内容包括:1、深入研究话题追踪的关键技术,总结了话题追踪中存在的难点话题追踪中最主要的两个关键技术为文本表示方法及文本分类方法。通过分析话题的特点,发现一个话题随着时间的推移,其话题核心会不断变化,而且话题检测过程中初始聚出的话题相关报道比较少,给话题追踪造成很大的困难,因此话题模型的动态调整必不可少。2、基于命名实体改进向量空间模型,提高话题模型的准确性由于命名实体对于区分不同话题比一般的名词、动词等其他一般词语有更大的作用,因此在构建话题模型时,对命名实体的权重做了调整。本文选取了一种利用切词系统切词后的词性标识进行命名实体的识别,在特征抽取过程中对识别出的命名实体做权重调整,实验证明改进后的话题模型能更好的表示一个话题。3、提出一种基于反馈报道的话题模型特征扩展方法针对话题具有动态演化的特点,利用收集到的反馈报道,抽取反馈报道中权重较高的特征项对初始话题模型进行特征扩展,并对已存在的特征项进行权重调整,实现了话题模型动态调整,改善话题漂移造成的话题追踪准确率下降问题。4、利用动态阈值收集反馈报道,减少反馈报道中的噪声数据由于反馈报道的准确性关系着后续话题追踪的效率,有效避免反馈报道中的噪声数据至关重要,因此本文采用动态阈值收集反馈报道,该阈值的设定涉及多个参数,其中将已经收集到的反馈报道与初始话题模型的相似度作为基数,并加入相关报道和总报道的比例,有效调整阈值,防止阈值过高造成的漏报率上升,最后利用一个系数将阈值在此基础上调高,防止噪声数据。5、在前面所做研究基础上提出一种基于反馈报道的自适应话题追踪方法本文将基于命名实体的向量空间模型、话题模型的特征扩展以及收集反馈报道时的阈值动态设定引入到自适应话题追踪,改善了传统话题追踪存在的问题,有效解决了话题漂移造成的话题追踪效率下降问题,实验证明该方法提高了话题追踪的效率。6、将本文提出的自适应话题追踪方法应用到舆情监测系统,提高了舆情监测系统中热点追踪模块的效率设计并实现了舆情监测系统,实现了舆情监测中的信息采集、舆情分析和舆情呈现三大模块,并将本文提出的自适应话题追踪方法应用到热点追踪子模块,改善了系统的总体性能。
|
全文目录
目录 4-6 摘要 6-8 ABSTRACT 8-10 第一章 绪论 10-19 1.1 研究背景及意义 10-12 1.1.1 研究背景 10-11 1.1.2 研究意义 11-12 1.2 研究现状 12-16 1.2.1 国外研究现状 12-14 1.2.2 国内研究现状 14-16 1.3 基本概念介绍 16-17 1.3.1 话题追踪概述 16 1.3.2 话题的概念 16 1.3.3 事件的概念 16 1.3.4 报道的概念 16-17 1.3.5 主题的概念 17 1.4 本文内容及结构 17-19 1.4.1 本文主要工作 17 1.4.2 文章结构安排 17-19 第二章 话题追踪相关技术 19-29 2.1 话题追踪特点分析 19 2.2 增量学习方法简介 19-21 2.2.1 基于信息来源的反馈信息分类 20-21 2.2.1.1 相关反馈简介 20 2.2.1.2 伪反馈简介 20 2.2.1.3 隐式反馈简介 20-21 2.3 命名实体概述 21 2.3.1 命名实体的概念 21 2.3.2 命名实体抽取方法简介 21 2.4 话题模型表示方法 21-24 2.4.1 布尔模型简介 21-22 2.4.2 语言模型简介 22-23 2.4.3 向量空间模型简介 23-24 2.5 文本分类方法概述 24-29 2.5.1 Rocchio 文本分类算法 24-25 2.5.2 K 近邻文本分类算法 25-26 2.5.3 贝叶斯分类算法 26 2.5.4 支持向量机分类算法 26-29 第三章 基于反馈报道的自适应话题追踪方法 29-42 3.1 影响话题追踪的因素 29-30 3.2 基于命名实体权重调整的向量空间模型 30-31 3.2.1 基于切词系统的命名实体抽取方法 30 3.2.2 基于命名实体的话题模型表示方法 30-31 3.3 基于反馈报道的话题模型特征扩展 31-32 3.3.1 特征扩展方法概述 31 3.3.2 特征扩展的实现流程 31-32 3.3.3 特征扩展的理论分析 32 3.4 文本分类中的动态阈值设定 32-33 3.4.1 动态阈值的设定公式 33 3.4.2 阈值设定公式解析 33 3.5 自适应话题追踪方法描述 33-36 3.5.1 传统话题追踪的特点及流程 33-34 3.5.2 自适应话题追踪的特点 34-35 3.5.3 自适应话题追踪实现流程 35-36 3.6 实验设计与结果分析 36-41 3.6.1 实验设计 36-37 3.6.1.1 实验环境及平台 36 3.6.1.2 实验语料集 36 3.6.1.3 实验评测指标 36-37 3.6.2 具体实验方案 37-39 3.6.2.1 话题模型表示方法实验设计与分析 37-38 3.6.2.2 话题模型特征扩展方法实验设计与分析 38 3.6.2.3 动态阈值设定方法实验设计与分析 38-39 3.6.3 实验结果与分析 39-41 3.7 本章小结 41-42 第四章 自适应话题追踪在舆情监测系统中的应用 42-49 4.1 系统总体设计方案 42-44 4.1.1 系统功能简介 42 4.1.2 系统整体框架 42-44 4.2 系统子模块简介 44-48 4.2.1 信息采集模块实现流程 44 4.2.2 话题检测模块实现流程 44-45 4.2.3 热点话题追踪模块实现流程 45-46 4.2.4 话题热度计算实现流程 46-47 4.2.5 话题倾向性分析实现流程 47 4.2.6 舆情呈现模块实现流程 47-48 4.3 舆情系统的应用研究价值 48 4.4 本章小结 48-49 第五章 总结与展望 49-51 5.1 所做主要工作 49-50 5.2 研究展望 50-51 参考文献 51-54 已发表学术论文 54 参加科研项目 54-55 致谢 55
|
相似论文
- 基于聚类的英汉人名消歧研究,TP391.1
- 汉语嵌套命名实体识别方法研究,TP391.1
- 基于规则的Web文本信息抽取技术的研究,TP391.1
- 应用于搜索引擎的人物分类系统设计与实现,TP391.3
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 基于本体的医学命名实体识别技术研究,TP391.1
- 基于CRF的命名实体和关系的联合抽取,TP391.4
- 基于MapReduce的分布式文本数据过滤技术研究与系统实现,TP391.1
- 铁谱图像分割与磨粒特征提取技术研究,TP391.41
- 网络性能数据采集与分析方法的研究,TP393.06
- 基于云计算平台的电信业务支撑系统中调度技术的研究,TN915.09
- 基于二型模糊集的图像阀值分割方法研究,TP391.41
- 基于密度聚类的神经模糊系统建模及其在混沌时间序列预测中的应用,TP11
- 基于动态阈值的网络流量异常检测方法研究与实现,TP393.06
- 机刻字符自动识别技术的研究,TP391.41
- 多画面智能监控系统中运动目标检测的研究,TP391.41
- 移动机器人在SLAM中数据关联方法的研究,TP242
- 基于地形特征的移动机器人定位,TP242
- 基于视觉注意模型的图像检索技术研究,TP391.41
- Ad hoc无线自组网的研究,TN929.5
- 利用NOAA/AVHRR资料分析21年长江中下游地区云量时空分布与演变特征,P426.5
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|