学位论文 > 优秀研究生学位论文题录展示

基于Internet的商业信息抽取

作　者: 刘彦宏
导　师: 金培权
学　校: 中国科学技术大学
专　业: 计算机应用技术
关键词: 商业信息竞争情报信息抽取关系抽取命名实体识别
分类号: TP399-C2
类　型: 硕士论文
年　份: 2010年
下　载: 117次
引　用: 0次
阅　读: 论文下载

内容摘要

Internet上数据量急剧膨胀使其成为企业竞争情报获取的重要来源,然而如何从这个信息海洋中找到企业所需要的情报成为困扰企业竞争情报获取的难题。商业信息抽取作为解决这一难题的重要手段,其抽取结果的好坏对最终竞争情报的形成有着重要的影响。本文对Web环境上的商业信息抽取技术进行了研究,主要关注两个方面:商业信息中的关系抽取和实体抽取。针对抽取对象的不同特征,研究不同的技术方法,以提高抽取的召回率和准确率。其中关系信息抽取以职位关系抽取为例,分析了职位关系实例在网页中的呈现特征,设计了基于结构特征的职位关系抽取算法;实体抽取以机构名识别为例,基于语言学中语法对语义的依赖关系和共生性词场两个观点,提出了语义隐马尔可夫模型的机构名识别算法。两个算法有效改善了商业信息抽取效果,同时也为其它商业信息抽取提供了参考。本文的主要贡献主要有:(1)提出了基于Web的职位关系抽取算法。职位关系反映了一个人在一个组织所占据的职位,是一种重要的竞争情报。本文分析了网页中职位关系实例的特征,并利用结构化系数和结构化文件片断对这些特征进行描述,最后利用模式匹配的方法从结构化文件片断中抽取出职位关系。实验结果表明算法达到了准确率超过96%、召回率超过87%的较好结果。(2)提出了基于语义隐马尔可夫模型的中文机构名识别算法。语义隐马尔可夫模型的构建以语言学中的语法对语义的依赖关系和共生性词场两个重要观点为理论依据。一个句子可以看作是一个词的序列,这个序列背后隐含着一个语义序列,且语义序列决定了句子的组成。我们首先对机构名及其上下文中的词进行语义标注,然后构建语义隐马尔可夫模型。在机构名上下文选择时利用共生性词场现象来决定上下文的边界。事实上,算法试图利用机构名与其上下文之间的语义关联性来提高机构名识别的效果。实验表明算法改善了机构名识别效果,而且普适性更好。

全文目录

摘要  4-5
Abstract  5-9
第一章绪论  9-19
  1.1 研究背景与意义  9-10
  1.2 商业信息与竞争情报  10-12
  1.3 商业信息抽取的国内外研究现状  12-16
    1.3.1 国外研究现状  12-14
    1.3.2 国内研究现状  14-16
  1.4 本文的主要工作  16
  1.5 本文的组织结构  16-19
第二章信息抽取技术  19-27
  2.1 前言  19
  2.2 信息抽取研究简史  19-20
  2.3 信息抽取的研究内容  20-22
    2.3.1 命名实体识别  21
    2.3.2 实体关系抽取  21-22
    2.3.3 指代消解  22
    2.3.4 事件识别  22
  2.4 信息抽取系统  22-25
    2.4.1 国外信息抽取系统  23-24
    3.4.2 国内信息抽取系统  24-25
  2.5 信息抽取的评测  25-26
  2.6 本章小结  26-27
第三章基于Web 的职位关系抽取  27-45
  3.1 引言  27-28
  3.2 关系抽取研究  28-29
  3.3 职位关系抽取框架  29-30
  3.4 获取结构化文件片断  30-34
    3.4.1 结构化系数和结构化文件片断  30-32
    3.4.2 句子抽取  32
    3.4.3 候选实例获取  32-33
    3.4.4 结构化文件片断  33-34
  3.5 抽取职位关系  34-39
    3.5.1 标准模式生成  34-37
    3.5.2 抽取职位关系三元素  37-39
  3.6 实验与分析  39-43
    3.6.1 实验设置  39-40
    3.6.2 实验结果  40-43
  3.7 本章小结  43-45
第四章基于语义隐马尔可夫模型的中文机构名识别  45-57
  4.1 引言  45
  4.2 机构名识别  45-46
  4.3 语言学中的两个观点  46-47
  4.4 机构名语义环境及分类  47-50
    4.4.1 机构名及其上下文语境分析  47-48
    4.4.2 机构名及其上下文分类  48-50
  4.5 基于语义马尔可夫模型的机构名识别算法  50-54
  4.6 实验与分析  54-55
  4.7 本章小结  55-57
第五章总结与展望  57-59
  5.1 本文工作总结  57-58
  5.2 下一步工作展望  58-59
参考文献  59-63
致谢  63-64
在读期间发表的学术论文与取得的研究成果  64

基于Internet的商业信息抽取

内容摘要

全文目录

相似论文