学位论文 > 优秀研究生学位论文题录展示
基于自学习的社会关系抽取的研究
作 者: 黄屹
导 师: 王崇文
学 校: 北京理工大学
专 业: 计算机科学与技术
关键词: 关系抽取 社会关系 支持向量机 最大熵模型 机器学习
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 68次
引 用: 0次
阅 读: 论文下载
内容摘要
互联网和社交网络的快速发展,使得人们越来越需要一种途径从大规模的数据中搜索到所需的信息,搜索引擎技术的发展从一定程度上解决了文本内容直接检索的问题,但是却无法满足人们对社会关系搜索的需求,如何从互联网的文本数据中提取出社会关系网络,是目前亟待解决的难题,也是实体关系抽取(Entity Relation Extraction)所要研究的问题之一。为解决这一问题,本文首先构建了社会关系类型体系和语料库,并将关系抽取问题作为一个模式分类问题,采用了基于监督的机器学习算法加以解决。在语料库的构建过程中,本文参考了ACE评测会议的标注并加以扩展,定义了六种社会关系类型,接着从互联网上搜集格式化语料并加以标注。本文根据社会关系的特点,制定了合适的规则进行特征抽取,依据特征抽取的结果分别采用了支持向量机(SVM)和最大熵模型进行了关系抽取的实验,实验结果表明支持向量机算法的更适合社会关系抽取任务。同时针对待处理的关系类型和未标注的语料库,本文提出基于无监督的关系种子抽取算法,该算法无需大量的已标注语料作为初始训练集合,利用了搜索引擎索引和处理海量数据的特点和优势,抽取具有代表性的人物社会关系网络,通过在已定义的六种社会关系类型上加以实验,获得了较好的抽取效果。最后,本文介绍了中文社会关系抽取平台的设计和实现,包括语料预处理,特征抽取和算法模块。该平台实现了对关系抽取任务通用模块的抽象和封装,使得研究人员可以专注于抽取算法的研究和改进。
|
全文目录
摘要 5-6 Abstract 6-9 第1章 绪论 9-21 1.1 本论文研究的目的和意义 9 1.2 国内外研究现状及发展趋势 9-17 1.2.1 关系抽取的研究历史 10-12 1.2.2 监督学习的关系抽取 12-15 1.2.3 无监督的关系抽取 15-17 1.3 研究所面临的主要问题 17-18 1.3.1 关系类型体系构建的问题 17 1.3.2 标注语料库的匮乏 17-18 1.3.3 中文关系抽取研究的不足 18 1.4 本文的主要研究内容 18-21 第2章 关系抽取的准备工作 21-31 2.1 引言 21 2.2 社会关系的发现 21-23 2.3 关系文本库的建设 23-29 2.3.1 关系文本库的来源 23-24 2.3.2 关系文本库的处理 24-26 2.3.3 关系文本库的标注 26-27 2.3.4 关系文本库的格式 27-29 2.4 本章小结 29-31 第3章 基于有监督的社会关系抽取 31-43 3.1 引言 31 3.2 关系模型的建立 31-36 3.2.1 关系体系的特征研究 31-34 3.2.2 特征抽取的方法 34-36 3.3 算法设计 36-38 3.3.1 支持向量机算法 36-37 3.3.2 最大熵模型算法 37-38 3.4 实验方案和结果分析 38-42 3.4.1 实验数据 38-39 3.4.2 评测标准 39-40 3.4.3 实验结果 40-41 3.4.4 结果分析与结论 41-42 3.5 本章小结 42-43 第4章 基于无监督的社会关系抽取 43-51 4.1 引言 43 4.2 算法流程 43-44 4.3 算法设计 44-48 4.3.1 查询构造 44-45 4.3.2 查询扩展 45-47 4.3.3 查询结果 47 4.3.4 答案抽取 47-48 4.4 实验结果与分析 48-49 4.4.1 实验数据 48 4.4.2 实验结果与分析 48-49 4.5 本章小结 49-51 第5章 社会关系搜索平台的设计和实现 51-55 5.1 引言 51 5.2 平台的设计方案 51-54 5.2.1 数据预处理模块 52-53 5.2.2 算法输入模块 53-54 5.3 本章小结 54-55 结论 55-57 参考文献 57-61 致谢 61
|
相似论文
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 音乐结构自动分析研究,TN912.3
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- 领域实体属性及事件抽取技术研究,TP391.1
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 人物言论抽取与跟踪技术研究,TP391.1
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 基于支持向量机的故障诊断方法研究,TP18
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
- 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
- 基于车载3D加速传感器的路况监测研究,TP274
- 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
- 汉语框架自动识别中的歧义消解,TP391.1
- 基于数据分布特征的文本分类研究,TP391.1
- 基于机器学习的入侵检测系统研究,TP393.08
- 支持向量机回归在短期电力负荷预测中的应用研究,TM715;F224
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|