学位论文 > 优秀研究生学位论文题录展示
面向微博数据的命名实体识别研究与实现
作 者: 荀晶
导 师: 刘辉林
学 校: 东北大学
专 业: 计算机软件与理论
关键词: 命名实体识别 微博 半监督 KNN分类器 CRFs模型
分类号: TP393.092
类 型: 硕士论文
年 份: 2013年
下 载: 8次
引 用: 0次
阅 读: 论文下载
内容摘要
随着微博日趋流行,它已经成为一种新型的信息发布和传播的社交媒介。截止到2012年12月底,新浪微博的注册用户已达5亿多。微博数据也随之增多,其中包含大量对组织或个人有价值的信息。从而对微博进行信息抽取、分析以及自然语言处理成为当前研究热点。命名实体识别作为这些研究的基础工作就显得尤为重要,但当前针对微博数据的命名实体识别研究还很不成熟,传统的命名实体识别方法在微博数据上无法获得令人满意的结果,从而阻碍后续工作的进行。本文主要研究微博数据上命名实体识别任务。微博数据的一些特有属性导致了传统模型的失效,究其根本主要有以下四点原因:一是每条微博篇幅短小,包含信息量有限,对于命名实体识别来说,难以充分融合大量相关信息;二是微博中充斥了大量噪音数据,加上模型抗噪能力差的问题,导致模型在训练时发生“过拟合”现象;三是对于微博的研究往往缺乏大量完备的训练语料导致模型训练不足,为获取训练数据需要耗费大量的人力资源;四是微博数据具有信息更新速度快的特点,模型适应能力差导致发生模型“欠拟合”现象。经实验表明,传统命名实体识别方法在微博数据上F1值会下降20%之多。为了解决上述问题,本文综合了多种技术实现了微博数据上命名实体识别任务,获得结果的准确率、召回率及F1值分别为:83.7%、79.8%、81.8%。该结果相对传统方法有了很大的提高。本文从以下几个方面克服了传统模型在微博数据上的劣势:一是建立了一个半监督命名实体识别框架,将预测结果连同之前的训练数据重复训练模型解决了缺乏训练数据的问题,同时使模型更加能够适应数据时常更新的环境;二是在CRFs模型的基础上结合了一个KNN分类器,从而能够充分利用微博序列的全局信息和每条微博的局部信息,提高了结果的准确率和召回率;三是半监督框架中添加了对数据进行规范化的模块完成去噪和数据规范处理操作,而且为了对命名实体结果进行优化,还增加了一个实体归一化模块,在修正命名实体结果的同时,获得共指关系集合为后续工作提供了便利。
|
全文目录
摘要 5-6 Abstract 6-10 第1章 绪论 10-18 1.1 研究背景及应用 10-11 1.2 研究任务及国内外发展情况 11-12 1.3 中文微博数据上命名实体识别研究的难点 12-14 1.3.1 中文命名实体识别研究的难点 12-13 1.3.2 微博数据上命名实体识别研究的难点 13-14 1.4 研究重点及目标 14-15 1.5 文章结构安排 15-18 第2章 命名实体识别相关方法 18-24 2.1 命名实体识别结果的评价 18-19 2.2 基于规则的方法 19 2.3 基于统计的方法 19-22 2.3.1 隐马尔可夫模型 20-21 2.3.2 最大熵模型 21-22 2.4 规则和统计相结合的方法 22-23 2.5 tweets上命名实体识别的研究 23 2.6 本章小结 23-24 第3章 基于CRFS模型的命名实体识别 24-34 3.1 图模型 25-27 3.1.1 有向图模型 25-26 3.1.2 无向图模型 26-27 3.2 条件随机场 27-29 3.3 CRFs参数估计 29-32 3.3.1 极大似然估计 29 3.3.2 迭代缩放法 29-31 3.3.3 L-BFGS算法 31-32 3.4 模型预测 32-33 3.5 基于CRFs中文命名实体识别 33 3.6 本章小结 33-34 第4章 特征选择 34-44 4.1 字典的建立 34-38 4.2 可用特征 38-41 4.2.1 当前词特征 39-41 4.2.2 当前词上下文特征 41 4.3 特征选择 41-42 4.4 微博特征 42-43 4.5 本章小结 43-44 第5章 新浪微博上命名实体识别的实现 44-56 5.1 命名实体识别 45-50 5.1.1 KNN分类器 46-47 5.1.2 半监督命名实体识别框架的实现 47-50 5.2 数据规范化 50-51 5.3 实体归一化 51-54 5.3.1 实体归一化算法 52-53 5.3.2 实体归一化对命名实体识别结果的修正 53-54 5.4 本章小结 54-56 第6章 实验与结论 56-64 6.1 微博数据获取 56-57 6.2 基于半监督框架的微博上命名实体识别结果 57-60 6.3 数据规范化的结果及影响 60-61 6.4 实体归一化的结果及影响 61-62 6.5 本章小结 62-64 第7章 总结与展望 64-66 7.1 总结 64-65 7.2 展望 65-66 参考文献 66-68 致谢 68
|
相似论文
- 风险视角下新浪微博融资行为研究,F49
- 当代广告舆论化现象研究,G206
- 微博:草根话语权的假象,G206
- 人工免疫分类和异常识别算法的改进,R392.1
- 基于微博构建的公共领域研究,G206
- 应用层协议识别和还原方法的研究与实现,TP393.08
- 论微博的公民话语权,G206
- 从都市报微博看都市报的数字化转型,G216.2
- 汉语嵌套命名实体识别方法研究,TP391.1
- SZ公司微博营销策略研究,F274
- 基于半监督在线学习的跟踪算法研究,TP391.41
- 基于CT影像的肺裂计算机辅助检测方法研究,TP391.41
- 基于点击数据和搜索结果片断的命名实体挖掘,TP391.3
- 基于半监督回归的多模型在线软测量系统研究,TP274
- 中国网络粉丝群体研究,G206
- 半监督学习方法研究,TP181
- “围脖”·围观·围堵,G206
- 带缺失数据的半监督图学习,TP181
- 基于移动互联网的中医健康信息服务系统的设计与实现,TP393.09
- 基于子空间的人脸识别算法研究,TP391.41
- 中文命名实体识别与歧义消解研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|