学位论文 > 优秀研究生学位论文题录展示

面向主题的XML网页的模式和数据抽取

作 者: 邓丽
导 师: 吴扬扬
学 校: 华侨大学
专 业: 计算机应用技术
关键词: 信息抽取 XML 模式抽取 数据抽取
分类号: TP393.092
类 型: 硕士论文
年 份: 2004年
下 载: 218次
引 用: 6次
阅 读: 论文下载
 

内容摘要


Internet的迅速发展使得网络上的信息量大大增加,为用户提供了一个极具价值的信息源,但因Internet所固有的开放性、动态性与异构性,又使得用户很难准确快捷地从WWW上获取所需信息。如何快速、准确的从浩瀚的信息资源中寻找到所需信息己经成为困扰网络用户的一大难题。 随着XML技术的不断发展,WWW上出现了一些以XML作为标记语言的Web网页,本文针对XML网页,提出了一种面向特定主题的信息抽取方法。它根据用户给定的查询主题及其属性,提出一种从样本网页集中抽取出模式信息的方法,然后利用这个模式信息对处理过的目标XML网页进行匹配查询,最终从这些目标网页中利用所提出的模式匹配算法抽取出用户所需的数据。 本文首先对Web信息抽取的发展情况进行了综述,然后重点讨论了针对某一主题的XML文档的分析和抽取方法及实现,以及今后的发展趋势,最后利用一个实例进行了实验,实验结果表明系统达到了较高的精确度,得到了比较全面的信息,从而较好地实现了系统预期要到达到的完整性和准确性要求。

全文目录


第一章 绪论  5-9
  1.1 背景、意义  5-7
  1.2 研究内容  7-8
  1.3 论文结构  8-9
第二章 Web数据挖掘综述  9-15
  2.1 Web数据挖掘的分类  9-11
  2.2 Web数据挖掘的特点和难点  11-15
第三章 Web信息抽取技术研究  15-30
  3.1 半结构化数据综述  15-17
  3.2 现有半结构化数据模型  17-21
  3.3 Web网页信息抽取技术的发展  21-23
  3.4 Web网页信息几种抽取方法  23-30
第四章 面向主题XML文档的模式与数据抽取系统的实现  30-50
  4.1 XML作为一种半结构化数据模型的特点和优点  30-35
  4.2 体系结构  35-36
  4.3 模式抽取的实现  36-44
  4.4 数据抽取的实现  44-45
  4.5 抽取示例  45-50
第五章 结束语  50-52
  6.1 论文总结  50
  6.2 进一步的工作  50-52
致谢  52-53
参考文献  53-56

相似论文

  1. 基因调控网络模型描述语言研究,Q78
  2. 支持XML数据查询的F&B索引结构的研究,TP311.13
  3. 领域实体属性及事件抽取技术研究,TP391.1
  4. 时间表达式识别与归一化研究,TP391.1
  5. LXI自动测试系统集成技术研究,TP274
  6. 基于网络的服装款式设计系统的研究与实现,TS941.2
  7. 基于MDA的界面自动生成方法的研究,TP311.5
  8. C++代码缺陷检测系统的研究与设计,TP311.53
  9. 基于Web的科学计算遗留应用共享技术研究,TP393.09
  10. 基于XML的异构数据交换系统的设计与实现,TP311.52
  11. 电子公文传输管理系统在电大系统中的设计与实现,TP311.52
  12. 概率XML数据上关键字检索算法的研究与实现,TP391.3
  13. 行政审批电子监察系统数据交换的设计与实现,TP311.52
  14. 概率XML文档中Holistic Twig查询处理算法的研究与实现,TP311.13
  15. 保留语义约束的XML与关系数据库双向转换技术研究,TP311.13
  16. 网页属性抽取的方法研究,TP391.1
  17. SOA架构在高校信息化系统中整合技术的应用,TP311.52
  18. 基于银行综合前置平台的金融服务支付系统的设计与实现,TP311.52
  19. 基于观察者模式的银行主动服务系统的设计与实现,TP311.52
  20. 江北区企业信用信息系统设计与实现,TP311.52
  21. 物联网业务模型描述语言的研究与实现,TN929.5

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com