学位论文 > 优秀研究生学位论文题录展示

主谓关系识别与主题相关性计算技术研究

作 者: 杨旭
导 师: 张俐
学 校: 东北大学
专 业: 计算机软件与理论
关键词: 主题相关性计算 主谓关系 搭配分析 领域知识库 广告推荐系统
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 21次
引 用: 0次
阅 读: 论文下载
 

内容摘要


近年来,随着社会的不断发展和科学技术的不断进步,信息飞速增长。信息爆炸带来了电子文档的快增长,文档的检索、分类和管理变得越来越困难。传统的文本处理技术使用两个文档的相似性去代替两个文档的主题相关性,但是很多情况下相似未必相关,相关也不一定相似。本文研究的文档主题相关性计算技术正是实现文档关系的自动判别的关键技术。主题相关性计算,是指通过某种手段去计算给定的两个文档在内容主题上的相关程度。大量的研究表明,一个包含大量实体及其领域背景的大规模汉语领域知识库对许多技术包括相关性计算的改善都具有很重要的价值。词与词之间的关系分析是获取领域知识的重要途径。本文首先研究的主谓关系获取技术对获取领域知识是很有帮助的。本文定义的主谓关系就是指在一个名词作为一个句子主语的前提下,另外一个动词可以同时作为这个句子的谓语动词。本文在传统的统计搭配分析技术的基础上引入了启发性规则和句法信息分析主谓关系。主题相关性计算技术是本文研究的主要内容。本文首先把向量空间模型(VSM)应用到主题相关性计算中,使用余弦相似度计算的方法进行相关性计算。针对向量空间模型本身存在重要特征常被大量判别能力较弱的特征湮没的问题,本文使用基于tf idf阈值的关键词抽取算法对文档进行关键词抽取。为了解决不同特征之间存在的潜在匹配关系,本文引入同义词词林,计算向量的语义相似度和改进的语义相似度。最后本文引入了领域知识库,通过计算文本之间的领域分布特性,改善主题相关性计算技术。本文把主题相关性计算技术应用到广告推荐系统中进行改进对比实验,实验表明,使用领域知识库的相关性计算方法取得了显著效果。

全文目录


摘要  5-6
Abstract  6-11
第1章 引言  11-17
  1.1 研究背景  11-12
  1.2 研究现状  12-15
    1.2.1 搭配发现  12
    1.2.2 主题相关性计算  12-13
    1.2.3 广告自动推荐技术  13-15
  1.3 本文主要工作  15-16
  1.4 本文组织结构  16-17
第2章 相关资源介绍  17-21
  2.1 人民日报语料库  17-18
    2.1.1 概述  17
    2.1.2 格式说明  17-18
    2.1.3 例子  18
  2.2 同义词词林  18-19
  2.3 领域知识库  19-21
第3章 主谓关系识别技术  21-27
  3.1 传统搭配技术  21
  3.2 主谓关系的概念  21-22
  3.3 启发性规则  22-23
    3.3.1 传统统计方法的问题分析  22
    3.3.2 启发性规则  22-23
  3.4 句法信息  23
  3.5 实验  23-25
    3.5.1 统计方法的实验结果  24-25
    3.5.2 改进方法的实验结果  25
  3.6 讨论  25-26
  3.7 本章小结  26-27
第4章 主题相关性计算技术研究  27-61
  4.1 主题相关性计算概念  27
  4.2 余弦相似度计算  27-31
    4.2.1 向量空间模型概述  27-28
    4.2.2 特征权重计算  28-29
    4.2.3 余弦相似度计算  29-31
  4.3 基于tf_idf阈值的关键词抽取  31-35
    4.3.1 余弦相似度计算方法问题分析  31-32
    4.3.2 关键词抽取相关工作  32-33
    4.3.3 基于tf_idf阈值过滤的关键词抽取  33-35
    4.3.4 基于tf_idf关键词抽取的主题相关性计算  35
  4.4 基于同义词词林的词语相似度计算  35-41
    4.4.1 余弦相似度计算方法问题分析  35-36
    4.4.2 词语相似度计算概述  36
    4.4.3 相关工作介绍  36-38
    4.4.4 基于同义词词林的词语相似度计算  38-41
  4.5 语义相关性计算  41-44
  4.6 改进的语义相关性计算  44-47
  4.7 领域相关性计算  47-51
    4.7.1 语义相关性计算存在的问题  47-48
    4.7.2 领域知识库  48-49
    4.7.3 领域相关性计算  49-51
  4.8 主题相关性技术在广告推荐系统中应用  51-54
    4.8.1 广告推荐系统概述  51-52
    4.8.2 系统框架描述  52-53
    4.8.3 demo系统介绍  53-54
  4.9 实验  54-59
    4.9.1 测试数据  54
    4.9.2 评测方法  54-55
    4.9.3 基于VSM余弦相似度计算的相关性计算  55-56
    4.9.4 基于关键词抽取的相关性计算  56
    4.9.5 基于语义相似度计算的相关性计算  56-57
    4.9.6 改进的语义相似度计算  57-58
    4.9.7 领域相关性计算  58-59
  4.10 本章小结  59-61
第5章 结论  61-63
  5.1 本文的结论  61
  5.2 未来工作展望  61-63
参考文献  63-67
致谢  67-69
攻读硕士学位期间发表的论文  69-71
攻读硕士学位期间参加的科研项目  71

相似论文

  1. 基于语料库的中国大学生英语迂回使役构式的习得研究,H319
  2. 基于本体的教学领域知识库研究,TP391.1
  3. 基于语义Web的金融信息服务模式探讨,H313
  4. 基于本体的ERP实施知识库构建与管理研究,TP182
  5. 基于MAS的远程教育系统领域知识库的研究,TP399-C1
  6. 基于课程知识的教学测验辅导系统研究与应用,TP391.6
  7. 基于语义属性的与格形式名词之句子成分归类特征识别分析,H212
  8. Web正文信息抽取与面向层次结构的分类技术研究,TP391.1
  9. 面向应用需求的异构服务组装方案及关键技术研究,TP311.52
  10. 基于Ontology的领域知识库层次分类体系的构建,TP18
  11. 基于ontology的领域知识库的构建与集成实现,TP182
  12. 基于受限域常问问答库的中文问答系统研究,TP319
  13. ICAI中知识点关系的研究及其应用,G434
  14. 基于Web和数据挖掘的智能教学系统模型的研究与设计,TP311.52
  15. 基于知网构建化工领域文本分类模型研究,TP391.1
  16. 受限域中文问答系统中答案抽取的研究,TP391.1
  17. 受限域中文问答系统问句分析研究,TP391.1
  18. 基于FPGA的数字图像处理基本算法研究与实现,TP391.41
  19. 用于检索的人脸特征提取与匹配算法研究,TP391.41
  20. 基于FPGA的高速图像预处理技术的研究,TP391.41
  21. 2D人脸模板保护算法研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com