学位论文 > 优秀研究生学位论文题录展示

人物言论抽取与跟踪技术研究

作 者: 陈小陆
导 师: 李生;郑德权
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 事件抽取 言论抽取 话题跟踪 最大熵模型
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 48次
引 用: 0次
阅 读: 论文下载
 

内容摘要


面对互联网信息量的不断扩张,用户迫切地需要自动化的信息获取工具来帮助在海量的信息源中迅速找到和获得真正所需的信息。本文围绕人物言论的抽取与跟踪这一课题展开研究,探讨如何根据用户所感兴趣的某一话题,或者和用户所感兴趣的某一人物言论相关的话题,跟踪到一系列人(人物,团体或机构)所发表的关于此话题的言论,并对其进行识别和抽取。本文从言论的自动识别与抽取,和相关言论的话题跟踪两个关键环节进行深入研究。本文将新闻报道中每次出现的人物言论,看作是一个特殊的事件类型,即言论事件。对于言论事件的识别问题,本研究建立了一个规模适当的针对言论事件的语料库资源,采用机器学习的方法对候选言论进行判别。本文从上下文信息、事件核心元素以及元素间依赖等几个方面给出描述言论事件的特征。并通过对比实验的结果,分析了训练语料的规模和特征的选择对基于最大熵模型的分类方法性能的显著影响。最后,本文采用半自动构建的优化的触发词集,当训练语料的规模达到350篇新闻报道,总计716个正例,160个反例时,系统的F值得到了87.8%的最好结果。在跟踪设计中本文采用了基于查询向量的跟踪设计,分析了不同的相似度计算方法和相应的阈值调整对于系统的漏报率、误报率以及整体归一化开销的影响。并通过对比实验分析,在使用Weighted Sum相似度计算方法的情况下,采用最优的查询扩展策略并进行阈值调整,系统归一化开销得到了0.3908的最好结果。

全文目录


摘要  4-5
Abstract  5-8
第1章 绪论  8-20
  1.1 课题研究的背景和意义  8-9
  1.2 事件抽取的研究现状与分析  9-13
    1.2.1 会议驱动  9-10
    1.2.2 基于模式匹配的事件抽取  10-12
    1.2.3 基于机器学习的事件抽取  12-13
  1.3 话题跟踪的研究现状与分析  13-18
    1.3.1 话题和报道的表示模型  14-15
    1.3.2 相似度的计算方法  15-16
    1.3.3 话题跟踪算法  16-18
  1.4 本文的主要研究内容和组织结构  18-20
第2章 言论的自动识别与抽取  20-37
  2.1 语料库资源  20-26
    2.1.1 ACE 的语料资源  20-24
    2.1.2 言论事件语料资源的建立  24-26
  2.2 建立候选言论事件集  26-28
  2.3 言论事件的二元判别  28-31
    2.3.1 基于最大熵模型的二元分类  28-30
    2.3.2 言论事件特征的选择  30-31
  2.4 言论事件的抽取  31-33
  2.5 试验结果与分析  33-36
    2.5.1 评价方法  33
    2.5.2 语料库规模与特征的贡献度  33-35
    2.5.3 特征参数的选择  35-36
  2.6 本章小结  36-37
第3章 相关言论的跟踪  37-44
  3.1 话题和报道的VSM 表示  37-38
  3.2 权重的计算  38
  3.3 相似度计算  38-39
  3.4 基于查询向量的跟踪设计  39-41
  3.5 实验结果与分析  41-43
    3.5.1 评测方法  41-42
    3.5.2 相似度算法的选择与阈值  42-43
    3.5.3 查询扩展策略  43
  3.6 本章小结  43-44
第4章 人物言论抽取与跟踪系统的设计与实现  44-51
  4.1 系统的结构设计  44-46
  4.2 系统的实现及运行成果  46-49
  4.3 系统性能分析  49-51
结论  51-53
参考文献  53-58
致谢  58

相似论文

  1. 领域实体属性及事件抽取技术研究,TP391.1
  2. 汉语框架自动识别中的歧义消解,TP391.1
  3. 基于自学习的社会关系抽取的研究,TP391.1
  4. 基于最大熵模型的中文网页分类器设计和实现,TP393.092
  5. 基于最大熵模型的中文实体关系自动抽取研究,TP391.1
  6. 基于语义分析的汉语短语识别方法研究,TP391.43
  7. 统计机器翻译中层次短语翻译模型的研究与实现,TP391.2
  8. 基于拼音标注的中文分词算法研究,TP391.1
  9. 网络中文事件自动检测技术研究,TP393.09
  10. 最大熵模型的语义句法分析在问答系统中的应用研究,TP391.1
  11. 基于话题检测与跟踪的话题搜索技术研究,TP391.3
  12. 句子级中文事件抽取关键技术研究,TP391.1
  13. 产品名实体识别及规范化研究,TP391.1
  14. 电子商务中针对产品的摘要挖掘技术研究,TP391.1
  15. 框架元素语义核心词自动识别研究,TP391.1
  16. 蛋白质二级结构特征分析与相互作用预测,Q51
  17. 武警部队舆情监测系统设计和实现,TP393.09
  18. 术语自动抽取技术的研究与应用,TP391.1
  19. 中文信息处理关键问题的研究,TP391.1
  20. 面向金融领域的中文问句语义块分析方法,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com