学位论文 > 优秀研究生学位论文题录展示
基于区域定位的购物网站商品信息抽取方法
作 者: 董锐
导 师: 欧阳柳波
学 校: 湖南大学
专 业: 软件工程
关键词: 信息抽取 Web表格 Dom树 区域定位
分类号: TP393.092
类 型: 硕士论文
年 份: 2009年
下 载: 40次
引 用: 0次
阅 读: 论文下载
内容摘要
伴随着电子商务的迅速发展,网上购物越来越受到消费者的喜爱。然而越来越多的商品让消费者感觉到无法下手购买,要从海量的商品信息中找到最适合自己要求的商品,是一个比较困难和费时的过程。Web信息抽取的一个直接应用就是帮助人们在纷繁复杂的商品信息海洋中快速准确地查找所需商品。目前缺乏专门针对购物网站的信息抽取技术,采用通用的Web信息抽取技术,难以快速而准确地定位目标商品信息。所以有必要对购物网站商品信息抽取作进一步研究。本文通过分析购物网站的页面结构,针对大多数购物网站HTML页面的表格结构特性,提出一种新的网页模型,将购物网站中的商品展示页面分为三个区域:核心区域、准核心区域和非核心区域。并在此页面模型基础上,提出区域定位的概念,将商品信息抽取问题分解为页面预处理、区域定位和区域结构分析三个关键步骤。页面预处理模块主要负责HTML页面中的标签修复、噪声处理。通过分析页面结构,对HTML文档解析来构造DOM树,把HTML文档中不需要处理的元素从DOM树中剔除,比如广告图片、脚本代码等,从而最大限度的减少噪声信息对抽取工作的影响。区域定位模块主要负责从DOM树中定位用户感兴趣的商品信息区域。在区域定位过程中,结合商品属性关键字,找到匹配节点,再自底向上,定位准核心区域,然后根据准核心区域的期望值及区域内节点类型比例,定位核心区域。区域结构分析模块的主要功能是分析核心区域的结构,定位商品“属性-值”对信息,最终抽取目标商品信息。在抽取完成后,系统将关键字集合中缺少的商品属性补充到集合中,从而完善关键字集合,提高抽取效率和准确率。针对同一个网站的页面,可重用核心区域路径,以提高处理效率。
|
全文目录
摘要 5-6 Abstract 6-10 插图索引 10-11 附表索引 11-12 第1章 绪论 12-18 1.1 选题背景和意义 12-13 1.2 Web 信息抽取研究现状 13-16 1.3 本文主要工作 16 1.4 本文组织结构 16-17 1.5 本章小结 17-18 第2章 Web 信息抽取的相关知识介绍 18-29 2.1 SGML 简介 18 2.2 Web 页面的分析 18-21 2.2.1 HTML 简介 18-19 2.2.2 HTML 语言结构分析 19-20 2.2.3 HTML 页面的特点 20-21 2.3 Web 信息抽取的概念 21-22 2.4 Web 信息抽取技术分类 22-26 2.4.1 基于自然语言处理方式的信息抽取 23 2.4.2 基于包装器归纳方式的信息抽取 23-25 2.4.3 基于ontology 方式的信息抽取 25-26 2.4.4 基于HTML 结构的信息抽取 26 2.4.5 基于Web 查询的信息抽取 26 2.5 Web 信息抽取的难点 26-27 2.6 Web 信息抽取技术的评价指标 27-28 2.7 本章小结 28-29 第3章 基于区域定位的购物网站信息抽取算法设计 29-35 3.1 基本设计思想 29 3.2 购物网站页面结构分析 29-30 3.3 关键技术 30-34 3.3.1 准核心区域定位算法 30-32 3.3.2 核心区域定位算法 32-33 3.3.3 信息抽取算法 33-34 3.4 本章小结 34-35 第4章 系统设计 35-53 4.1 系统功能、框架和流程 35-37 4.1.1 系统功能 35 4.1.2 系统框架 35-36 4.1.3 系统流程 36-37 4.2 页面预处理 37-44 4.2.1 相关知识 37-38 4.2.2 HTML 标记修复 38-40 4.2.3 噪声处理 40-44 4.3 区域定位 44-48 4.4 核心区域结构分析 48-52 4.5 本章小结 52-53 第5章 系统实现 53-61 5.1 系统开发工具与运行环境 53-55 5.1.1 Java 语言 53 5.1.2 所利用的成熟技术 53-54 5.1.3 开发工具和运行环境 54-55 5.2 包和类结构 55-56 5.2.1 包结构 55 5.2.2 webshop.main 中的类结构 55-56 5.3 软件功能和界面介绍 56-58 5.4 实验和分析 58-60 5.5 本章小结 60-61 总结与展望 61-63 参考文献 63-67 致谢 67-68 附录 A 攻读学位期间完成的论文 68
|
相似论文
- 领域实体属性及事件抽取技术研究,TP391.1
- 时间表达式识别与归一化研究,TP391.1
- 井下机车区域定位检测系统的设计,TD524.3
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 面向教育新闻的主题爬虫设计与实现,TP391.3
- 学术主页信息抽取系统的研究,TP393.092
- 主题搜索引擎关键技术研究,TP391.3
- 一种基于动态学习框架的全自动网页结构化数据抽取方法,TP393.092
- 基于自然语言打印机人机交互方法研究与实现,TP11
- 网络舆情数据获取与话题分析技术研究,TP393.09
- 基于用户电话号码的传真报筛选检索研究,TP391.3
- 基于Web的股评观点倾向性分析研究,TP391.1
- 基于Lucene的汽车信息垂直搜索引擎的设计与实现,TP391.3
- 基于数据处理中心的企业竞争情报系统研究,F272
- 基于DOM树的Deep Web实体抽取的研究与实现,TP393.09
- 基于脸部二维结构特征的表情识别研究,TP391.41
- 基于本体的Web航空产品型号信息抽取技术研究,V22
- 基于帧间灰度差的动态表情识别,TP391.41
- 环境最优船舶区域动力定位方法研究,U661
- 网络舆情检测与控制关键技术研究,TP393.09
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|