学位论文 > 优秀研究生学位论文题录展示

基于领域概念体系的学术论文主题提取

作 者: 谭翀
导 师: 陈跃新
学 校: 国防科学技术大学
专 业: 软件工程
关键词: 都柏林核元数据集 领域概念体系 领域词典 术语共现 术语关系提取 篇章特征分析 主题提取 主题结构
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 32次
引 用: 0次
阅 读: 论文下载
 

内容摘要


本文通过对人类认知模型的分析,提出了学术论文的主题提取系统模型。该系统模型分为构建领域概念体系和主题提取二个模块,构建领域概念体系的目的是使计算机具备领域知识,主题提取是使计算机能分析论文并提取主题。为了构建领域概念体系,本文探讨了建立领域词典和基于术语共现的术语关系提取相结合的途径,提出了基于术语共现的术语关系提取算法。通过分析论文中术语的共现关系,借用向量空间模型(VSM)理论和潜在语义分析(LSA)理论,用以表示和改良术语关系矩阵。并提出了三种关系提取算法。为改良提取结果,本课题还提出了二次关系提取算法。实验证明了这些算法的有效性。随后本文通过模仿人类对论文主题的提取过程,提出了基于篇章特征分析的主题结构提取算法。实验证明了该算法比单纯的基于词频统计的提取算法更有效。

全文目录


摘要  10-11
ABSTRACT  11-12
第1章 绪论  12-18
  1.1 课题背景  12-16
    1.1.1 都柏林核元数据  12-13
    1.1.2 信息提取  13-14
    1.1.3 语义web与领域本体  14-15
    1.1.4 语言知识库  15-16
  1.2 课题研究目的、内容和主要工作  16-17
    1.2.1 课题的主要工作  16-17
  1.3 文章结构  17-18
第2章 学术论文和都柏林核元数据  18-28
  2.1 学术论文及其特点  18-22
    2.1.1 学术论文及其分类  18
    2.1.2 学术论文的特征  18-19
    2.1.3 学术论文的结构分析  19-20
    2.1.4 学术论文中的词频  20-22
  2.2 学术论文的都柏林核元数据  22-26
  2.3 小结  26-28
第3章 学术论文主题提取系统模型  28-42
  3.1 系统模型的相关概念  28-30
    3.1.1 概念、术语和字词短语  28-29
    3.1.2 主题、主题词和主题结构  29-30
  3.2 系统模型设计  30-31
  3.3 领域概念体系  31-35
    3.3.1 领域概念体系的结构  31-33
    3.3.2 领域概念体系的术语关系  33-34
    3.3.3 领域概念体系的构建  34-35
  3.4 领域词典  35-41
    3.4.1 WordNet、HowNet和领域本体MeSH  35-38
    3.4.2 领域词典的结构  38-41
  3.5 小结  41-42
第4章 基于术语共现的术语关系提取算法  42-62
  4.1 术语关系提取流程  42-43
  4.2 文档的特征向量描述  43-50
    4.2.1 向量空间模型  43-44
    4.2.2 Item-Term矩阵和Term-Term关系矩阵  44-47
    4.2.3 Term-Term关系矩阵改良  47-50
      4.2.3.1 潜在语义分析  47-50
      4.2.3.2 改良关系矩阵  50
  4.3 术语关系提取算法  50-55
    4.3.1 全关联关系提取算法  51-52
    4.3.2 单关联关系提取算法  52-53
    4.3.3 部分关联关系提取算法  53-54
    4.3.4 二次关系提取算法  54-55
  4.4 算法试验与评估  55-61
    4.4.1 试验数据  55-57
    4.4.2 关系提取结果分析  57-59
      4.4.2.1 全关联关系提取结果分析  57-58
      4.4.2.2 单关联关系提取结果分析  58
      4.4.2.3 部分关联关系提取结果分析  58
      4.4.2.4 结果比较分析  58-59
    4.4.3 二次关系提取结果分析  59-61
    4.4.4 试验结论  61
  4.5 小结  61-62
第5章 基于篇章特征分析的主题结构提取算法  62-76
  5.1 主题结构提取流程  62-63
  5.2 术语选取  63-71
    5.2.1 文档预处理  63-64
    5.2.2 分词与句法分析  64-71
  5.3 计算术语重要度  71-73
  5.4 生成主题结构  73-74
  5.5 实验分析与评估  74-75
  5.6 小结  75-76
第6章 结束语  76-78
  6.1 工作总结  76
  6.2 主要创新点  76-77
  6.3 研究展望  77-78
致谢  78-79
参考文献  79-84
附录 攻读硕士期间发表的论文  84

相似论文

  1. 灰姑娘的在场与缺席,J905
  2. 领域词典的构建及其在语法分析中的应用,TP391.1
  3. 基于领域词典的汉语语块分析的研究,TP391.1
  4. 大学生英语写作中汉语主题结构迁移现象研究,H319
  5. 基于Web挖掘的信息提取与推荐相关研究,TP393.09
  6. 连贯在英语阅读教学中的作用,H319
  7. 基于对话的主题提取研究,TP391.1
  8. 中文问答系统中问句理解和相似度计算的研究与实现,TP391.1
  9. 面向文本的主题挖掘技术与实现,TP391.1
  10. 《马氏文通》语用平面探微,H13
  11. 基于语义的Web主题提取的研究,TP391.1
  12. 认知心理因素对中国英语学习者主题结构迁移的影响研究,H319
  13. 英语写作连贯的新旧信息契约和主题结构研究,H315
  14. 中学几何教学主题结构分析,G633.6
  15. 论《一个青年艺术家的肖像》中的“顿悟”技巧,I561
  16. 论环境艺术设计方案写作,J50
  17. 基于网页分块的主题搜索引擎的研究与实现,TP391.3
  18. 《野棕榈》中主题与结构之完美统一,I712.074
  19. 中英文学术段落连贯性的对比研究,H05
  20. 存现句的主题结构和信息结构,H146.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com