学位论文 > 优秀研究生学位论文题录展示

基于HTML的Web信息抽取技术的研究与应用

作 者: 于立艳
导 师: 邢薇
学 校: 哈尔滨工程大学
专 业: 计算机软件与理论
关键词: Web信息抽取 HTML XPath 词汇相似度 BP神经网络
分类号: TP393.09
类 型: 硕士论文
年 份: 2011年
下 载: 37次
引 用: 0次
阅 读: 论文下载
 

内容摘要


伴随着科技的进步和Internet的不断发展,互联网开始逐渐成为现代人了解世界的重要媒介,同时网络上的信息每天都在更新,如何才能批量而精准的获取网络媒体中的新闻和文章等信息并将其转化为结构化的记录呢?Web信息抽取有望帮人们解决这些难题,但是现有的信息抽取技术大多是采用半自动化的方式建立的,抽取规则的建立需要大量的人工参与,针对这一问题笔者结合新闻类型的网页对信息抽取技术展开研究。本文先根据url和关键词完成目标网页的定位,后抽取新闻列表页的列表信息和新闻正文页的正文内容,结合人工智能思想和已有的Web信息抽取技术进行以下几方面的工作:1.从首页逐级定位到目标网页一般很难塑造出某种模型,所以考虑将文本聚类中的语义相似度算法应用到该过程中,将用户输入的描绘目标网页类别的关键词与各级导航栏中的栏目名称进行相似度计算,建立自动探测目标网页的模型,从而实现这一过程的自动获取。2.为了更好的分析和研究新闻信息列表页的抽取,将HTML格式的页面转换成为XML格式的文档,获取每个节点的XPath路径,利用新闻信息列表页中的某些特征作为输入层的神经元信息建立BP神经网络模型,通过训练样本得出待抽取信息所在路径的最优解,最终达到信息列表页的信息抽取。3.从新闻正文页转化而来的XML文档入手,充分利用每一行的文字密度比这一显著特征建立BP神经网络模型,凭借神经网络模型优秀的机器学习能力,实现统计学思想与信息抽取的完美结合,并在其基础上建立正文页的抽取规则。4.设计并建立信息抽取的原型系统,选取国内多家新闻类型的网站对系统进行测试,验证抽取性能,并对算法进行优化。

全文目录


摘要  5-6
Abstract  6-10
第1章 绪论  10-15
  1.1 课题研究背景  10
  1.2 信息抽取的发展及国内外研究现状  10-12
    1.2.1 信息抽取的概念与发展  10-11
    1.2.2 信息抽取的国内外研究现状  11-12
  1.3 Web信息抽取的发展及研究现状  12-13
  1.4 本论文研究的主要内容  13-14
  1.5 论文的组织结构  14-15
第2章 信息抽取技术及相关技术概述  15-29
  2.1 Web信息抽取的含义  15
  2.2 Web信息抽取的几种方式  15-22
    2.2.1 基于自然语言处理方式的信息抽取  16-17
    2.2.2 基于本体方式的信息抽取  17-18
    2.2.3 基于包装器归纳的信息抽取  18-19
    2.2.4 基于HTML结构的信息抽取  19-20
    2.2.5 基于Web查询的信息抽取  20-21
    2.2.6 其它几种信息抽取方式  21-22
  2.3 相关技术及工作基础  22-28
    2.3.1 文本聚类技术简述  22-23
    2.3.2 人工神经网络简述  23-25
    2.3.3 相关基础工作简述  25-28
  2.4 本章小结  28-29
第3章 基于HTML的Web信息抽取技术的研究  29-54
  3.1 新闻列表页特征的深入探讨  29-31
  3.2 页面结构特征及问题的提出  31-34
  3.3 Web信息抽取流程  34-37
  3.4 基于文本聚类算法的目标网页检索  37-41
    3.4.1 探寻目标网页算法设计  37-40
    3.4.2 算法描述  40-41
  3.5 HTML页面的预处理  41-45
    3.5.1 HTML到XML的格式转换  41-43
    3.5.2 XML文档解析  43-45
  3.6 信息抽取技术的设计  45-52
    3.6.1 基于BP神经网络的新闻列表页的抽取规则的设计  45-49
    3.6.2 基于BP神经网络的新闻正文页的抽取规则的设计  49-52
  3.7 信息抽取规则的建立  52
  3.8 本章小结  52-54
第4章 应用实例-原型系统的信息抽取实现及性能评测  54-61
  4.1 原型系统信息抽取的整体设计  54
  4.2 开发环境及系统结构简述  54-55
  4.3 系统操作界面及其功能介绍  55-58
  4.4 信息抽取系统的评测指标  58-59
  4.5 实验结果评价及系统性能分析  59-60
  4.6 本章小结  60-61
结论  61-63
参考文献  63-66
攻读硕士学位期间发表的论文和取得的科研成果  66-67
致谢  67

相似论文

  1. 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
  2. 机械臂视觉伺服系统的研究,TP242.6
  3. 市级旅游用地规划环境影响评价研究,X820.3
  4. 珠三角地区高性能混凝土配合比智能化系统,TU528
  5. 大学生综合素质测评研究,G645.5
  6. 基于并行算法的模糊综合评价模型的设计与应用,TP18
  7. 基于神经网络的牡蛎呈味肽制备及呈味特性研究,TS254.4
  8. 高速公路拆迁民众生存系统评价研究,D523
  9. 煤矿风险信息集成与智能预警研究,X936
  10. 基于计算机视觉的柑橘品质分级技术研究,TP391.41
  11. 基于模拟的注塑模浇注系统及成型工艺参数优化研究,TQ320.662
  12. 基于神经网络的漯河技术监督局食品安全预警系统研究,F203
  13. 基于神经网络的自适应噪声主动控制研究,TP183
  14. 网页属性抽取的方法研究,TP391.1
  15. 数字型仪表自动识读系统研究,TP391.41
  16. 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
  17. 一种WinCE环境下嵌入式浏览器的设计与开发,TP393.092
  18. 多向变异遗传算法及其优化神经网络的研究,TP18
  19. 基于因子分析和BP神经网络的风机状态诊断研究,F426.61
  20. 基于BP神经网络的GPS高程拟合模型及其应用研究,P228.4
  21. 转炉炼钢终点指导系统的研究与设计,TF345

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com