学位论文 > 优秀研究生学位论文题录展示
垂直搜索中信息属性抽取和分类模型研究与实现
作 者: 安增文
导 师: 徐杰锋
学 校: 中国石油大学
专 业: 计算机科学与技术
关键词: 信息抽取 文本分类 人工神经网络
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 41次
引 用: 0次
阅 读: 论文下载
内容摘要
随着网络的普及和发展,互联网已经成为人们生活、学习、工作、娱乐的重要途径。互联网作为信息载体,近年来以惊人的速度在增长,信息量以TB计算,拥有上千万个网站、数十亿的用户,而且这个数量还在不断的增长。Web的发展改进了人们的生活方式,越来越多的人通过网络来发布信息和搜索信息。由于Web信息抽取可以将网络上网页的主题内容提取出来,并以统一的结构形式存储,因此整个互联网将会变成一个巨大的数据库,从而为互联网上海量数据的再利用提供了可能,构建垂直搜索引擎就是应用之一。与主题相关的Web文本信息的抽取是影响垂直搜索性能的关键技术,垂直搜索中的Web信息抽取是从具有相同主题、分散存放、表现各异的半结构化信息中抽取出特定的结构化信息,重新形成结构良好、便于检索和表示的数据,因而Web信息抽取技术成为当今研究的热点。本文对基于神经网络的信息抽取方法进行研究,分析其缺陷,并提出改进方法。文中对改进方法进行了详细阐述,并通过实验验证该方法的可行性。改进的方面有:1)在过滤原则中加入了相关度计算,即将每行文本的文字内容与标题的相关度作为神经网络的一个训练参数。2)在对页面文档进行信息统计前,先将网页代码中书写不规范的代码行进行合并,以提高算法的处理效率。3)采用BP神经网络作为训练模型,依靠其多次反复修改权值和阈值的特性,获得更合理的阈值。另外,本文在改进算法的基础上结合文本分类知识设计了一个信息抽取和分类模型,并在此模型的基础上实现了一个信息抽取和分类系统。该系统主要实现如何将Web文档中的正文内容抽取出来,并根据抽取结果对被抽取Web文档进行分类。
|
全文目录
摘要 4-5 Abstract 5-8 第一章 绪论 8-12 1.1 研究背景 8-9 1.2 研究现状 9-10 1.3 本文研究内容 10-11 1.4 本文组织结构 11-12 第二章 理论基础和相关技术 12-24 2.1 Web 信息抽取概述 12-13 2.2 Web 信息抽取方法 13-18 2.2.1 基于自然语言理解的方法 13-14 2.2.2 基于HTML 结构的信息抽取方法 14-16 2.2.3 基于包装器归纳方式的信息抽取方法 16-17 2.2.4 基于Ontology 方式的信息抽取方法 17 2.2.5 基于视觉特征的Web 信息抽取方法 17-18 2.3 信息抽取评价指标 18-19 2.4 文本分类技术 19-23 2.4.1 中文分词技术 19-20 2.4.2 文本表示方法 20-22 2.4.3 特征选取 22-23 2.4.4 文本分类评价指标 23 2.5 小结 23-24 第三章 人工神经网络知识 24-30 3.1 神经网络简介 24-26 3.1.1 人工神经元模型 24-25 3.1.2 人工神经网络的分类 25 3.1.3 人工神经网络的学习方式 25-26 3.2 BP 神经网络 26-29 3.2.1 BP 网络结构模型 26-27 3.2.2 BP 网络学习规则 27-29 3.2.3 BP 神经网络改进算法 29 3.3 小结 29-30 第四章 基于神经网络的信息抽取方法研究及改进 30-42 4.1 方法的提出 30-32 4.2 方法的改进 32-40 4.2.1 页面预处理 33-35 4.2.2 相关度计算 35-37 4.2.3 BP 模型的设计 37-39 4.2.4 BP 模型的训练 39-40 4.3 实验分析与结论 40-41 4.4 小结 41-42 第五章 信息抽取和分类系统设计与实现 42-50 5.1 系统框架结构 42-43 5.2 文本分类模块 43-46 5.2.1 文本预处理 44-45 5.2.2 特征选择 45 5.2.3 向量化表示 45 5.2.4 BP 模型的训练 45-46 5.3 系统实现 46-49 5.3.1 系统界面 46-49 5.3.2 实验及测试结果 49 5.4 小结 49-50 结论 50-51 参考文献 51-54 攻读硕士学位期间取得的学术成果 54-55 致谢 55
|
相似论文
- 压气机优化平台建立与跨音速压气机气动优化设计,TH45
- 领域实体属性及事件抽取技术研究,TP391.1
- 时间表达式识别与归一化研究,TP391.1
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 基于遗传算法优化的BP网络对生物柴油制备工艺的优化,TE667
- 兖州矿区植物波谱变异与重金属胁迫特征研究,X173
- 企业安全效益评价及发展对策研究,F272;F224.5
- 酮类化合物的3D-QSPR研究,O641
- 基于数据分布特征的文本分类研究,TP391.1
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
- 网页属性抽取的方法研究,TP391.1
- 神经元MOS管在神经网络中的应用研究,TP183
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 基于神经网络盲均衡优化算法的研究,TN911.7
- 产品功能疲劳对客户资产的影响研究,F224
- 烟煤掺烧印尼煤的动力配煤模型研究,TK227.1
- 网络教育新闻文本分类系统的设计与实现,TP391.1
- 构件垂直搜索引擎的关键技术研究,TP391.3
- 一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|