学位论文 > 优秀研究生学位论文题录展示
一种基于主题数据的存取调度模型的研究
作 者: 乔宇
导 师: 杨文川
学 校: 北京邮电大学
专 业: 计算机应用技术
关键词: 垂直搜索 碎片化 个性化搜索 分布式存储 调度算法
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 24次
引 用: 0次
阅 读: 论文下载
内容摘要
当今世界web2.0几乎已经得到了突飞猛进的发展,信息资源在现阶段快速增长,网络数据急剧倍增。在这种形式下对数据的索引和查找的迫切性需求促进了各大互联网公司开发搜索引擎,然而大多数搜索引擎是针对网络中无差别数据的。垂直搜索引擎概念的提出使网络搜索变的更加快捷方便,大家搜索的范围已经从整个行业转变到某一特定的行业,从而实现数据的“精、准、快”的查找策略,然而各地相关搜索引擎没有统一的衡量标准,造成主题资源的浪费,同时,由于数据的存储方式是基于全文的,造成了最终数据的索引只是面向文章的定位不是很精确。数据碎片化的提出为垂直搜索引擎更准、更快、更精的查找提出了一个建设性的思路。所谓的数据碎片化就是对从论文库和从web资源中取得的数据进行一些处理,使原始数据根据一定的依据打破原来的格式,以自然段或者相邻自然段的集合的模式进行存储,这就是我们所定义的主题数据。由于数据的碎片化,使我们对于数据进行存储的时候可以基于文章的标题、段落、索引、摘要等,这样我们的查询可以直接定位到文件相应的段落。然而当今的碎片化的主要用途是用于在进行查找之后将相关文章进行切分,提取出相应的段落出来,这样每次我们针对同一文章进行n次相同的查找的时候我们都要进行相同的碎片化工作,这无疑加大了服务器的工作量增强的系统的负担,因此在碎片化之前对数据进行存储无疑有利于系统的快速构建和数据的提取,本文是在和北京市某系统研究中心的合作项目中提取出来的。在项目的一起工作中我们已经完成了对于格式化数据的碎片化和相应主题信息的提取因此在本文中我们主要做了如下工作:1)分析当前系统存在的问题和不足,提出了关于碎片化数据的概念以及使用优势。2)根据项目需求设计一个针对于碎片化数据进行存储和调度的系统模型,通过这种模型的建立,系统可以对海量的数据按照一定规则进行分布式存储;3)设计调度模型多处理器的调度的算法,从而充分利用多处理器协同工作来提高网页处理的效率,帮助索引机制可以更方便快捷的对数据的相关主题部分进行查找,从而找到主题相对应的信息,实现数据的快速查找。
|
全文目录
摘要 4-6 ABSTRACT 6-10 第一章 绪论 10-16 1.1 课题背景 10-12 1.2 垂直搜索引擎现状 12-14 1.3 本文主要工作 14-15 1.4 本文结构 15-16 第二章 主题数据的存取调度模型分析 16-26 2.1 当前垂直搜索引擎发展的现状及发展瓶颈 16-18 2.1.1 当前舆情分析系统发展现状 16-17 2.1.2 当前舆情分析系统存在的瓶颈 17-18 2.2 主题数据的应用 18-19 2.2.1 主题数据的定义 18 2.2.2 主题数据在精确查找中的应用 18-19 2.3 分布式技术在基于主题数据存取调度模型中的应用 19-26 2.3.1 分布式在解决当前问题的优势 20 2.3.2 分布式在解决当前瓶颈的方案思路 20-22 2.3.3 分布式在解决当前瓶颈问题的方案设计 22-26 第三章 主题数据存取调度模型设计与评估 26-49 3.1 模型总体设计 26-36 3.1.1 碎片化模块 28-32 3.1.2 主题数据存取模块 32-34 3.1.3 索引查询调度模块 34-36 3.2 主题数据存取方案设计 36-43 3.2.1 主题数据存储模型评估标准 36-37 3.2.2 主题数据存储方案的初步设计 37-38 3.2.3 主题数据存储方案的优化设计 38-39 3.2.4 主题数据存储方案的最优设计 39-41 3.2.5 三种设计方案的评估 41-43 3.3 调度模型设计 43-49 3.3.1 采用主从式的调度模型的结构 43-45 3.3.2 采用了AMM调度算法 45-49 第四章 系统原型建立与测试 49-60 4.1 数据分布式存储模块测试 49-52 4.2 数据分布式调度模块测试 52-55 4.3 存取调度模型原型的建立 55-60 第五章 总结 60-62 参考文献 62-64 致谢 64-65 攻读学位期间发表的学术论文目录 65
|
相似论文
- 车载CAN网络的网关设计方法研究,TP273
- 中国农民政治信仰碎片化问题的研究,D422.6
- WEO:全球环境治理的模式选择研究,X321
- 碎片化语境下的消费者信息选择路径研究,G206
- 基于Click的模块化软件路由器的包调度算法研究,TP393.05
- 网络环境下的分布式存储系统的设计与实现,TP333
- 基于域信任的自适应网格工作流调度算法,TP311.52
- 无线传感器网络休眠调度算法研究,TN929.5
- 基于P2P流媒体技术的IPTV系统研究,TP393.02
- 多核系统中基于温度限制的节能调度算法研究,TP332
- 虚拟桌面环境下数据去冗余系统的设计与实现,TP333
- 嵌入式实时操作系统ARTs-OS的EDF调度算法改进,TP316.2
- 构件垂直搜索引擎的关键技术研究,TP391.3
- 分布式内存数据库存储研究,TP311.13
- 互联网文件存储服务系统研究,TP393.09
- 基于IP区分服务调度算法的研究,TN915.09
- 仿真资源云存储技术的研究与实现,TP333
- 分布式存储网络中的数据完整性校验与修复,TP333
- 具有资源约束的网络控制系统调度与控制的协同设计,TP13
- 操作系统调度器结构及算法研究,TP316.81
- 手机电视传播的“碎片化”语境研究,G206
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|