学位论文 > 优秀研究生学位论文题录展示
基于Internet的商业信息抽取
作 者: 刘彦宏
导 师: 金培权
学 校: 中国科学技术大学
专 业: 计算机应用技术
关键词: 商业信息 竞争情报 信息抽取 关系抽取 命名实体识别
分类号: TP399-C2
类 型: 硕士论文
年 份: 2010年
下 载: 117次
引 用: 0次
阅 读: 论文下载
内容摘要
Internet上数据量急剧膨胀使其成为企业竞争情报获取的重要来源,然而如何从这个信息海洋中找到企业所需要的情报成为困扰企业竞争情报获取的难题。商业信息抽取作为解决这一难题的重要手段,其抽取结果的好坏对最终竞争情报的形成有着重要的影响。本文对Web环境上的商业信息抽取技术进行了研究,主要关注两个方面:商业信息中的关系抽取和实体抽取。针对抽取对象的不同特征,研究不同的技术方法,以提高抽取的召回率和准确率。其中关系信息抽取以职位关系抽取为例,分析了职位关系实例在网页中的呈现特征,设计了基于结构特征的职位关系抽取算法;实体抽取以机构名识别为例,基于语言学中语法对语义的依赖关系和共生性词场两个观点,提出了语义隐马尔可夫模型的机构名识别算法。两个算法有效改善了商业信息抽取效果,同时也为其它商业信息抽取提供了参考。本文的主要贡献主要有:(1)提出了基于Web的职位关系抽取算法。职位关系反映了一个人在一个组织所占据的职位,是一种重要的竞争情报。本文分析了网页中职位关系实例的特征,并利用结构化系数和结构化文件片断对这些特征进行描述,最后利用模式匹配的方法从结构化文件片断中抽取出职位关系。实验结果表明算法达到了准确率超过96%、召回率超过87%的较好结果。(2)提出了基于语义隐马尔可夫模型的中文机构名识别算法。语义隐马尔可夫模型的构建以语言学中的语法对语义的依赖关系和共生性词场两个重要观点为理论依据。一个句子可以看作是一个词的序列,这个序列背后隐含着一个语义序列,且语义序列决定了句子的组成。我们首先对机构名及其上下文中的词进行语义标注,然后构建语义隐马尔可夫模型。在机构名上下文选择时利用共生性词场现象来决定上下文的边界。事实上,算法试图利用机构名与其上下文之间的语义关联性来提高机构名识别的效果。实验表明算法改善了机构名识别效果,而且普适性更好。
|
全文目录
摘要 4-5 Abstract 5-9 第一章 绪论 9-19 1.1 研究背景与意义 9-10 1.2 商业信息与竞争情报 10-12 1.3 商业信息抽取的国内外研究现状 12-16 1.3.1 国外研究现状 12-14 1.3.2 国内研究现状 14-16 1.4 本文的主要工作 16 1.5 本文的组织结构 16-19 第二章 信息抽取技术 19-27 2.1 前言 19 2.2 信息抽取研究简史 19-20 2.3 信息抽取的研究内容 20-22 2.3.1 命名实体识别 21 2.3.2 实体关系抽取 21-22 2.3.3 指代消解 22 2.3.4 事件识别 22 2.4 信息抽取系统 22-25 2.4.1 国外信息抽取系统 23-24 3.4.2 国内信息抽取系统 24-25 2.5 信息抽取的评测 25-26 2.6 本章小结 26-27 第三章 基于Web 的职位关系抽取 27-45 3.1 引言 27-28 3.2 关系抽取研究 28-29 3.3 职位关系抽取框架 29-30 3.4 获取结构化文件片断 30-34 3.4.1 结构化系数和结构化文件片断 30-32 3.4.2 句子抽取 32 3.4.3 候选实例获取 32-33 3.4.4 结构化文件片断 33-34 3.5 抽取职位关系 34-39 3.5.1 标准模式生成 34-37 3.5.2 抽取职位关系三元素 37-39 3.6 实验与分析 39-43 3.6.1 实验设置 39-40 3.6.2 实验结果 40-43 3.7 本章小结 43-45 第四章 基于语义隐马尔可夫模型的中文机构名识别 45-57 4.1 引言 45 4.2 机构名识别 45-46 4.3 语言学中的两个观点 46-47 4.4 机构名语义环境及分类 47-50 4.4.1 机构名及其上下文语境分析 47-48 4.4.2 机构名及其上下文分类 48-50 4.5 基于语义马尔可夫模型的机构名识别算法 50-54 4.6 实验与分析 54-55 4.7 本章小结 55-57 第五章 总结与展望 57-59 5.1 本文工作总结 57-58 5.2 下一步工作展望 58-59 参考文献 59-63 致谢 63-64 在读期间发表的学术论文与取得的研究成果 64
|
相似论文
- 领域实体属性及事件抽取技术研究,TP391.1
- 时间表达式识别与归一化研究,TP391.1
- LT省公司竞争情报管理研究,F272
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 基于模糊综合分析法的企业竞争对手评价系统,F272
- 网页属性抽取的方法研究,TP391.1
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 构件垂直搜索引擎的关键技术研究,TP391.3
- 面向教育新闻的主题爬虫设计与实现,TP391.3
- 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
- 学术主页信息抽取系统的研究,TP393.092
- 基于中国式人际关系的竞争情报获取研究,F272
- 基于本体的医学命名实体识别技术研究,TP391.1
- 基于CRF的命名实体和关系的联合抽取,TP391.4
- 主题搜索引擎关键技术研究,TP391.3
- 基于点击数据和搜索结果片断的命名实体挖掘,TP391.3
- 基于自学习的社会关系抽取的研究,TP391.1
- 一种基于动态学习框架的全自动网页结构化数据抽取方法,TP393.092
- 基于自然语言打印机人机交互方法研究与实现,TP11
- 基于丰富特征和多核学习的蛋白质关系抽取,Q51
- 面向概念查询的生物医学多文档摘要技术研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 在其他方面的应用
© 2012 www.xueweilunwen.com
|