学位论文 > 优秀研究生学位论文题录展示

基于自学习的社会关系抽取的研究

作 者: 黄屹
导 师: 王崇文
学 校: 北京理工大学
专 业: 计算机科学与技术
关键词: 关系抽取 社会关系 支持向量机 最大熵模型 机器学习
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 68次
引 用: 0次
阅 读: 论文下载
 

内容摘要


互联网和社交网络的快速发展,使得人们越来越需要一种途径从大规模的数据中搜索到所需的信息,搜索引擎技术的发展从一定程度上解决了文本内容直接检索的问题,但是却无法满足人们对社会关系搜索的需求,如何从互联网的文本数据中提取出社会关系网络,是目前亟待解决的难题,也是实体关系抽取(Entity Relation Extraction)所要研究的问题之一。为解决这一问题,本文首先构建了社会关系类型体系和语料库,并将关系抽取问题作为一个模式分类问题,采用了基于监督的机器学习算法加以解决。在语料库的构建过程中,本文参考了ACE评测会议的标注并加以扩展,定义了六种社会关系类型,接着从互联网上搜集格式化语料并加以标注。本文根据社会关系的特点,制定了合适的规则进行特征抽取,依据特征抽取的结果分别采用了支持向量机(SVM)和最大熵模型进行了关系抽取的实验,实验结果表明支持向量机算法的更适合社会关系抽取任务。同时针对待处理的关系类型和未标注的语料库,本文提出基于无监督的关系种子抽取算法,该算法无需大量的已标注语料作为初始训练集合,利用了搜索引擎索引和处理海量数据的特点和优势,抽取具有代表性的人物社会关系网络,通过在已定义的六种社会关系类型上加以实验,获得了较好的抽取效果。最后,本文介绍了中文社会关系抽取平台的设计和实现,包括语料预处理,特征抽取和算法模块。该平台实现了对关系抽取任务通用模块的抽象和封装,使得研究人员可以专注于抽取算法的研究和改进。

全文目录


摘要  5-6
Abstract  6-9
第1章 绪论  9-21
  1.1 本论文研究的目的和意义  9
  1.2 国内外研究现状及发展趋势  9-17
    1.2.1 关系抽取的研究历史  10-12
    1.2.2 监督学习的关系抽取  12-15
    1.2.3 无监督的关系抽取  15-17
  1.3 研究所面临的主要问题  17-18
    1.3.1 关系类型体系构建的问题  17
    1.3.2 标注语料库的匮乏  17-18
    1.3.3 中文关系抽取研究的不足  18
  1.4 本文的主要研究内容  18-21
第2章 关系抽取的准备工作  21-31
  2.1 引言  21
  2.2 社会关系的发现  21-23
  2.3 关系文本库的建设  23-29
    2.3.1 关系文本库的来源  23-24
    2.3.2 关系文本库的处理  24-26
    2.3.3 关系文本库的标注  26-27
    2.3.4 关系文本库的格式  27-29
  2.4 本章小结  29-31
第3章 基于有监督的社会关系抽取  31-43
  3.1 引言  31
  3.2 关系模型的建立  31-36
    3.2.1 关系体系的特征研究  31-34
    3.2.2 特征抽取的方法  34-36
  3.3 算法设计  36-38
    3.3.1 支持向量机算法  36-37
    3.3.2 最大熵模型算法  37-38
  3.4 实验方案和结果分析  38-42
    3.4.1 实验数据  38-39
    3.4.2 评测标准  39-40
    3.4.3 实验结果  40-41
    3.4.4 结果分析与结论  41-42
  3.5 本章小结  42-43
第4章 基于无监督的社会关系抽取  43-51
  4.1 引言  43
  4.2 算法流程  43-44
  4.3 算法设计  44-48
    4.3.1 查询构造  44-45
    4.3.2 查询扩展  45-47
    4.3.3 查询结果  47
    4.3.4 答案抽取  47-48
  4.4 实验结果与分析  48-49
    4.4.1 实验数据  48
    4.4.2 实验结果与分析  48-49
  4.5 本章小结  49-51
第5章 社会关系搜索平台的设计和实现  51-55
  5.1 引言  51
  5.2 平台的设计方案  51-54
    5.2.1 数据预处理模块  52-53
    5.2.2 算法输入模块  53-54
  5.3 本章小结  54-55
结论  55-57
参考文献  57-61
致谢  61

相似论文

  1. 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
  2. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  3. 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
  4. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  5. 音乐结构自动分析研究,TN912.3
  6. 基于三维重建的焊点质量分类方法研究,TP391.41
  7. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  8. 领域实体属性及事件抽取技术研究,TP391.1
  9. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  10. 人物言论抽取与跟踪技术研究,TP391.1
  11. 基于SVM的中医舌色苔色分类方法研究,TP391.41
  12. 基于图像的路面破损识别,TP391.41
  13. 基于支持向量机的故障诊断方法研究,TP18
  14. 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
  15. 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
  16. 基于车载3D加速传感器的路况监测研究,TP274
  17. 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
  18. 汉语框架自动识别中的歧义消解,TP391.1
  19. 基于数据分布特征的文本分类研究,TP391.1
  20. 基于机器学习的入侵检测系统研究,TP393.08
  21. 支持向量机回归在短期电力负荷预测中的应用研究,TM715;F224

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com