学位论文 > 优秀研究生学位论文题录展示
异构信息源的领域人物信息抽取研究
作 者: 周婷
导 师: 刘秉权
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 异构信息源 信息抽取 文本分类 特征选择
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 72次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网的社会的各个方面的渗透,个人信息越来越多地出现在网上。人物搜索引擎作为互联网技术的一部分,近几年刚刚兴起,而针对某一特定领域的人物搜索也是一项新生事物,对其研究还不成熟。目前高校教师的教学水平和研究水平越来越受到关注,高校教师的信息搜索需求也越来越大,本文以高校计算机专业的教师的信息抽取为应用背景,对异构信息源的领域人物信息抽取进行研究,并实现了一个高校计算机专业的教师人物志系统。本文重点对以下问题进行了研究:首先,本文采用基于主题爬虫的方法来获取人物信息网页和从搜索引擎返回的结果网页中识别出包含人物信息的网页两种方式来获取数据源,将该网页识别问题看作一个网页分类问题,根据网页的结构特征和网页的内容特征提取网页的特征,运用SVM模型进行分类。为了提高分类的时间效率,提出了两种特征选择方法,即特征项对类的贡献度以及SVM训练权重的特征选择方法。其次,根据包含人物信息网页的特点,本文对包含人物信息的网页进行分类。在分类方法上,结合网页的结构特征和内容特征,提出了基于规则与机器学习相结合的方法进行网页分类。在处理多记录网页的分类上,本文采用了基于HTML标签密度与基于内容的分类方法。在处理单记录网页的分类上,基于网页结构进行特征提取,并使用了SVM模型设计分类器,实验结果显示基于规则与基于网页结构特征的分类器取得了比较好的效果。第三,本文在对包含人物信息的网页进行分类的基础上,提出了基于规则的人物属性抽取方法。首先构造领域人物信息抽取的触发词库,同时根据领域人物信息提取的特点以及基于网页结构的人物信息网页的类别特点构造人物属性信息抽取的规则库,人物的属性信息抽取即建立在网页类别、触发词库与规则库以及属性自身的特点的基础上。实验显示人物属性抽取取得了比较好的结果。最后,本文将异构信息源的领域人物信息抽取方法应用到高校计算机专业的教师的信息抽取中,并实现了一个高校计算机教师人物志系统,该系统收集了全国120所高校总计4134名教师的信息,实现了按照多种方式查询教师的信息。
|
全文目录
摘要 4-5 Abstract 5-10 第1章 绪论 10-18 1.1 课题研究的背景和意义 10-12 1.2 国内外研究现状 12-16 1.2.1 文本分类技术 12-13 1.2.2 信息抽取技术 13-16 1.3 研究内容及论文结构安排 16-18 第2章 包含领域人物信息的网页判别 18-33 2.1 引言 18-19 2.2 数据源的获取 19-22 2.2.1 通过主题爬虫获取数据源 19-21 2.2.2 通过网页分类获取数据源 21-22 2.3 网页分类相关技术介绍 22-25 2.3.1 向量空间模型 22-24 2.3.2 支持向量机 24-25 2.4 基于网页内容和网页结构的网页表示 25-26 2.4.1 基于网页内容的网页表示 25-26 2.4.2 基于网页结构的网页表示 26 2.5 特征选择 26-29 2.5.1 基于文档频率的特征选择 27 2.5.2 基于 SVM 训练权重的特征选择 27 2.5.3 基于特征项对类的贡献度的特征选择 27-29 2.6 实验及结果 29-32 2.6.1 评价指标 29-30 2.6.2 实验数据集 30 2.6.3 基于网页结构与网页内容的实验及结果 30-31 2.6.4 三种特征选择方法的实验及结果 31 2.6.5 特征选择前后的实验及结果 31-32 2.7 本章小结 32-33 第3章 基于网页结构的人物信息网页的分类 33-43 3.1 引言 33 3.2 人物信息网页分类 33-38 3.2.1 多记录人物信息网页 34-35 3.2.2 单记录人物信息网页 35-37 3.2.3 人物信息网页分类统计 37-38 3.3 基于规则的方法识别多记录网页 38-39 3.3.1 基于标签密度识别多记录有格式网页 38 3.3.2 基于特征词识别多记录自由格式网页 38-39 3.4 基于网页结构识别单记录网页 39-41 3.4.1 网页预处理 39-40 3.4.2 网页表示 40-41 3.5 人物信息网页分类实验及结果 41-42 3.6 本章小结 42-43 第4章 基于网页结构的人物信息抽取 43-56 4.1 引言 43 4.2 人物属性信息抽取过程 43-45 4.3 候选信息块的获取 45-46 4.3.1 基于主题与网页文本内容的相似度提取候选信息块 45-46 4.3.2 网页去噪 46 4.4 基于规则的抽取器设计 46-50 4.4.1 触发词库的建立 46-47 4.4.2 抽取规则库的建立 47-50 4.5 基于网页结构和规则的人物信息抽取 50-53 4.5.1 多记录有格式网页的抽取 50 4.5.2 多记录自由格式网页的抽取 50-51 4.5.3 单记录有格式网页的抽取 51 4.5.4 单记录自由格式网页的抽取 51-52 4.5.5 单记录半结构网页的抽取 52-53 4.6 实验及结果分析 53-55 4.6.1 评价指标 53 4.6.2 实验结果 53-54 4.6.3 错误分析 54-55 4.7 本章小结 55-56 第5章 高校计算机人物志系统的设计与实现 56-65 5.1 引言 56 5.2 系统总体架构设计 56-59 5.2.1 数据处理与存储 56-57 5.2.2 教师人物志系统设计模块 57-59 5.3 数据来源 59-60 5.4 数据库设计 60-61 5.5 系统功能模块 61-64 5.5.1 检索功能 61-63 5.5.2 查询结果排序功能 63-64 5.5.3 用户交互接口 64 5.5.4 管理员操作模块 64 5.6 本章小结 64-65 结论 65-67 参考文献 67-71 攻读学位期间发表的学术论文 71-73 致谢 73
|
相似论文
- 领域实体属性及事件抽取技术研究,TP391.1
- 时间表达式识别与归一化研究,TP391.1
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 唇读中的特征提取、选择与融合,TP391.41
- 语音情感识别的特征选择与特征产生,TP18
- 基于数据分布特征的文本分类研究,TP391.1
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
- 车辆识别系统动态特征选择算法的研究与实现,TP391.41
- 基于AdaBoost算法的人脸识别研究,TP391.41
- 网页属性抽取的方法研究,TP391.1
- 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 网络教育新闻文本分类系统的设计与实现,TP391.1
- 构件垂直搜索引擎的关键技术研究,TP391.3
- 一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53
- 面向教育新闻的主题爬虫设计与实现,TP391.3
- 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
- 学术主页信息抽取系统的研究,TP393.092
- 主题搜索引擎关键技术研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|