学位论文 > 优秀研究生学位论文题录展示
基于可视化检索的广告信息增强系统的设计与实现
作 者: 刘晓慧
导 师: 朝红阳
学 校: 中山大学
专 业: 软件工程
关键词: 分布式 爬虫 信息提取方法 移动搜索 增量索引
分类号: TP311.52
类 型: 硕士论文
年 份: 2013年
下 载: 41次
引 用: 0次
阅 读: 论文下载
内容摘要
本论文主要来源于微软亚洲研究院与中山大学智能信息处理和云计算实验室的合作项目:广告增强系统工程。本文在实验室和中国电信广州研究院合作的分布式图像检索平台iSimilar基础上,利用已有的核心技术及架构,结合分布式计算、网络爬虫、图像检索、手机应用开发等技术,为此项目提出了解决方案。同时设计和实现了一个端到端的在线移动广告信息增强系统——iSearch。该系统向后端广告发布商提供广告注册服务,向前端用户,特别是移动设备用户提供广告识别服务。本文的主要工作有以下几个方面:(1)设计并实现了一个基于可视化检索的广告信息增强系统;系统的主要模块有:①广告注册模块,包括用户注册、登录、退出,广告信息上传,用户个人信息管理及广告信息管理等功能;②可视化检索模块,提供了电影、衣服、广告三个频道的信息检索功能。③手机客户端,提供了在Android及Windows Phone智能手机上使用本系统可视化检索功能的方法;④数据操作模块,包括数据抓取、分析、处理及模板管理等功能。(2)对开源网络爬虫Heritrix和Nutch进行了实验和分析;并在Nutch的基础上实现了一个可定制的分布式数据抓取工具,该工具适用于对有相同结构的网页进行准确的信息抓取。(3)封装了一个HTTP接口,客户端可方便地通过HTTP协议获取系统的图像检索服务。本文的主要贡献是改进了一些和项目相关的现有技术:主要有:(1)提出了一种基于XPATH的模板信息提取方法,实现了对网页指定数据的准确提取;并将该方法与网络爬虫结合,一定程度上解决了现有网络爬虫不能进行数据的准确抓取的问题。(2)提出了一种对新插入的数据构建增量索引的方案,解决了原iSimilar平台构建全量索引耗时长导致的新插入数据不能被实时检索的问题。(3)利用MySQL数据库存储标注信息,解决了iSimilar不能很好地支持长文本存储的问题。此外,本论文提出了一种创新的广告信息增强系统的应用模式;利用图像检索技术及移动互联网,提供了一个端到端的可视化移动搜索平台,人们几乎可以随时随地获取他们感兴趣海报广告的更多相关信息,达到有效增强海报广告效果的目的。本论文根据软件工程的开发流程,对iSearch系统进行了详细的分析、设计以及实现。目前,iSearch系统各模块的功能已经实现,可以通过Android客户端、WindowsPhone客户端及浏览器简单快速地使用系统提供的检索功能。分布式数据抓取工具已经被验证能够准确提取指定信息,并完成了对“时光网”的指定数据的准确抓取。系统的有效代码约一万五千行。
|
全文目录
摘要 4-6 Abstract 6-10 第一章 前言 10-20 1.1 项目背景和意义 10-11 1.2 研究发展现状 11-17 1.2.1 广告 11-13 1.2.2 图像检索平台 13-14 1.2.3 开源网络爬虫 14-15 1.2.4 网页信息提取技术 15-16 1.2.5 分布式计算 16-17 1.3 论文的主要工作与贡献 17-19 1.4 论文结构 19-20 第二章 ISEARCH 系统关键技术分析与介绍 20-40 2.1 整体解决方案 20-21 2.2 HADOOP 21-24 2.2.1 HDFS 21-22 2.2.2 MapReduce 22-24 2.3 网络爬虫技术 24-29 2.4 网页信息抽取技术 29-37 2.4.1 XPATH 29-31 2.4.2 基于 XPATH 的模板信息提取方法 31-37 2.5 增量索引技术 37-38 2.6 SSH 框架 38 2.7 AJAX 技术 38-40 第三章 ISEARCH 系统需求分析 40-62 3.1 ISEARCH 系统概述 40-41 3.2 ISEARCH 系统主要用例分析 41-58 3.2.1 数据操作模块主要用例 41-50 3.2.2 Web端可视化检索模块 50-52 3.2.3 手机客户端 52-53 3.2.4 广告注册模块 53-58 3.3 ISEARCH 系统领域分析和建模 58-60 3.4 ISEARCH 系统的其他需求 60-62 第四章 ISEARCH 系统架构设计 62-77 4.1 ISEARCH 系统架构及原理 62-65 4.2 ISEARCH 系统重要业务用例实现 65-71 4.2.1 修改模板文件及模板文件测试用例实现 66-68 4.2.2 图像检索用例实现 68-69 4.2.3 广告上传用例实现 69-71 4.3 Http接口概要设计 71-72 4.4 删除广告方法概要设计 72 4.5 数据库设计 72-74 4.6 ISEARCH 系统出错处理设计 74-77 4.6.1 出错输出信息 74-75 4.6.2 出错处理策略 75-77 第五章 ISEARCH 系统模块设计 77-91 5.1 ISEARCH 系统模块概述 77-78 5.2 数据操作模块 78-87 5.2.1 扩展的 Nutch 网络爬虫 78-84 5.2.2 数据分析与合并部件 84-86 5.2.3 数据统计部件 86 5.2.4 模板管理部件 86-87 5.3 WEB 可视化检索模块设计 87-88 5.4 广告注册模块 88-89 5.5 手机客户端 89-91 第六章 ISEARCH 系统部署与应用 91-108 6.1 开发环境与运行环境 91-93 6.2 ISEARCH 系统测试 93-108 6.2.1 基于 XPATH 的模板信息提取方法测试 93-95 6.2.2 模板管理模块测试 95-97 6.2.3 广告上传功能测试 97-99 6.2.4 广告管理功能测试 99-101 6.2.5 图像检索功能测试 101-104 6.2.6 账户管理功能测试 104-108 第七章 总结与展望 108-111 参考文献 111-113 致谢 113
|
相似论文
- Ad-Hoc网络多信道MAC层协议的信道分配问题的研究,TN929.5
- 分布式系统的故障注入方法研究,TP338.8
- 并行分布式网络模拟器PDNS容错技术的研究,TP302.8
- 面向海量邮件的检索系统研究与实现,TP393.098
- 基于比对技术的非法网站探测系统的实现与研究,TP393.08
- 含分布式电源的微电网控制策略研究,TM61
- 基于移动Agent的分布式网络通信机制的研究,TP393.02
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 基于雷达影像活动断裂信息提取方法与示范应用研究,P542.3
- 分布式光纤传感定位系统中时间延迟估计研究,TN95
- 分布式多视点视频编码容错边信息与相关噪声模型研究,TN919.81
- 基于Lucene的网络文学垂直搜索引擎的研究与实现,TP391.3
- 多协议异构分布系统组网通信技术研究,TP273
- 基于分布式环境压力测试问题的研究,TP311.52
- 一种可视化的分布式数据集成模型的研究与实现,TP311.52
- 分布式事务处理协议的研究与应用,TP311.13
- 基于语义网络的智能搜索引擎研究,TP391.3
- 基于聚焦爬虫技术的教学资源搜集与自动整理方法研究,TP301.6
- 无线局域网MAC层工作休假策略的研究,TN925.93
- 基于Deep Web的图书信息集成与查询系统,TP311.52
- Web挂马检测系统的设计与实现,TP393.08
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com
|