学位论文 > 优秀研究生学位论文题录展示
基于树型条件随场的特定域事件提取方法研究
作 者: 陈志虎
导 师: 辜希武
学 校: 华中科技大学
专 业: 计算机应用技术
关键词: 事件提取 条件随机场模型 向量空间模型 文本分类
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 6次
引 用: 0次
阅 读: 论文下载
内容摘要
事件提取是指把非结构化文本中出现的事件的时间,地点,事件主体和事件的具体内容提取出来。随着垂直搜索引擎的出现,事件提取作为信息提取的一个研究方面,近年来成为研究的热点,并被应用到信息提取的许多领域,如信息检索、垂直搜索引擎等。本论文主要针对web上存在的大量简历类型的网页,研究如何利用文本分类技术自动识别简历并下载;并在此基础上进一步研究如何利用条件随机场从非结构化的简历文本提取出结构化的事件信息。论文首先对当前常用的分类方法和事件提取模型进行了总结和回顾,比较和研究了当前文本分类和事件提取研究的进展、各自常用的方法和模型。其次,本文结合社会标注及传统的文档向量模型技术提出了一种融合社会标注和文本词频的新的文档向量表示模型,利用新的模型构建文档的表示并结合传统的文本分类方法可有效地提高分类精度。最后,通过分析简历信息具有层次结构这一特点,利用树型条件随机场来建模简历文本中的层次化信息,并实现了基于树型条件随机场提取简历文本中事件的原型系统。本文还针对所提出的融合社会标注及文本词频的向量模型和基于树型条件随机场的事件提取算法做了大量的文本分类实验和事件提取实验。实验结果显示,本文所提出的方法针对特定领域的文本分类及事件提取具有较好的效果。
|
全文目录
摘要 4-5 Abstract 5-8 1 绪论 8-14 1.1 课题研究背景 8 1.2 课题研究的目的和意义 8-9 1.3 国内外相关技术研究现状 9-13 1.4 论文的主要研究内容 13-14 2 相关理论概述 14-26 2.1 向量空间模型概述 14-16 2.2 文本分类的概述 16-21 2.3 概率图模型的概述 21-24 2.4 条件随机场的概述 24-25 2.5 本章小结 25-26 3 基于树型条件随机场的简历信息提取的方法研究 26-42 3.1 简历事件提取系统框架 26-28 3.2 结合社会标注的文本分类方法研究 28-33 3.3 基于树型条件随机场的简历事件提取研究 33-37 3.4 简历事件提取具体实现 37-41 3.5 本章小结 41-42 4 实验与分析 42-46 4.1 简历数据集获取 42 4.2 实验分析评价方法 42-43 4.3 实验结果及性能分析 43-45 4.4 本章小结 45-46 5 总结与展望 46-48 5.1 全文总结 46 5.2 进一步的研究方向 46-48 致谢 48-49 参考文献 49-55 附录1 攻读硕士学位期间参与项目 55
|
相似论文
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 基于停用词处理的汉语语音检索方法,TP391.1
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 基于数据分布特征的文本分类研究,TP391.1
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
- 应用于搜索引擎的人物分类系统设计与实现,TP391.3
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 网络教育新闻文本分类系统的设计与实现,TP391.1
- Web新闻热点发现系统的设计与实现,TP393.09
- 基于支持向量机的水电故障分类器的设计与实现,TV738
- Web信息语义特征获取技术,TP391.1
- 学位论文预审分配管理系统研究,G311
- 基于支持向量机的文本分类研究,TP391.1
- 文本分类和聚类若干模型的研究,TP391.1
- 产品名实体识别及规范化研究,TP391.1
- 深度网爬虫及更新策略研究,TP391.3
- 中文领域术语自动获取方法的研究,TP391.1
- 概率主题模型及其在关联文本分类中的应用研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|