学位论文 > 优秀研究生学位论文题录展示

基于数字有机体数据库的搜索引擎的理论研究与实现

作　者: 曾砺锋
导　师: 刘心松
学　校: 电子科技大学
专　业: 计算机系统结构
关键词: 数字有机体数据库搜索引擎文本分类
分类号: TP391.3
类　型: 硕士论文
年　份: 2008年
下　载: 61次
引　用: 0次
阅　读: 论文下载

内容摘要

随着互联网的飞速发展,以及人类对有用信息的需求猛烈增长,搜索引擎技术在过去的十年中取得了长足进步。流行的商业引擎如雅虎和谷歌等,其搜索对象仅仅限于超文本,而没有对其他信息资源进行覆盖。众所周知,数据库在信息的存储和检索上都具有至关重要的作用,在近几年,针对数据库的搜索引擎已经成为计算机科学领域极富吸引力的研究方向。本文在本实验室所开发的新一代分布式数据库系统——数字有机体数据库系统的基础上,设计并开发了一种针对数据库的搜索引擎。数字有机体数据库系统的设计目的是在由多个服务器节点构成的广域网络内,进行数据库的分布式存放和数据库检索的分布式调度。基于数字有机体数据库的搜索引擎使用户可以用一系列的关键字在多个数据库中检索同关键字相关的记录。基于分词、文本分类、信息压缩等广泛应用于传统搜索引擎的流行技术,本文提出了一些改进的算法和工程方法来提高数据库搜索引擎的性能表现。本文重点突出了其在理论和工程实现上对数据库搜索引擎所做出的创新和改进。其中主要的工作包括:1大规模中文信息处理是构建中文搜索引擎的基本环节,为了实现大规模中文信息处理,本文提出了一种改进的中文分词算法。基于前缀树和动态规划,该算法提高了中文分词速度,同时保持了相对较高的分词准确性。此外,该算法提供了一种灵活的机制来处理词典未收录的词汇,比如人名、地名、机构名称等。2传统的基于支持向量机的文本分类器需要大量的人工标注的训练文本,既包括正类训练文本也包括负类训练文本。为了解决负类训练文本缺乏的问题,本文提出了一种比较有效的解决方法。该方法将Rocchio算法和K均值文本聚类算法结合起来,从而获得足够的负类训练数据来构造文本分类器。实验证明,这种方法可以提高分类器的准确程度。3提出了一种具有良好定义的软件体系结构——分布式线程池体系,它在本文的分布式任务调度中具有关键作用。最后本文通过严格的实验验证了文中所提出的算法的性能,以及基于数字有机体数据库的搜索引擎的各项功能。

全文目录

摘要  4-5
Abstract  5-10
第一章引言  10-16
  1.1 研究背景  10-11
  1.2 国内外研究现状  11-13
    1.2.1 DBXplore  11-12
    1.2.2 DISCOVER  12-13
    1.2.3 BANKS  13
  1.3 本文所做工作  13-14
  1.4 论文组织  14-16
第二章基于数字有机体数据库的搜索引擎概述  16-22
  2.1 基于数字有机体的搜索引擎的基本架构  16-19
    2.1.1 功能需求  16-17
    2.1.2 模块组织  17-19
  2.2 数字有机体数据库  19-22
    2.2.1 数字有机体数据库的拓扑结构  20-21
    2.2.2 数据库的定位和访问  21-22
第三章分词算法的研究与实现  22-36
  3.1 英文分词算法研究与实现  23-26
    3.1.1 英文文本扫描和单词获取  23-25
    3.1.2 英文单词的原形识别  25-26
  3.2 中文分词算法概述  26-29
    3.2.1 最大匹配算法  26-28
    3.2.2 最大概率算法  28-29
  3.3 基于前缀树和动态规划的新型中文分词算法  29-36
    3.3.1 中文构词特点  29-30
    3.3.2 中文命名识别  30-31
    3.3.3 前缀树结构在汉语分词中的使用  31-32
    3.3.4 基于动态规划和前缀树的汉语分词算法  32-36
第四章文本分类算法的研究和实现  36-55
  4.1 文本特征选择方法  37-39
    4.1.1 TF-IDF 度量方法  37-38
    4.1.2 χ~2 统计量方法  38
    4.1.3 互信息度量  38-39
  4.2 常见文本分类算法介绍  39-42
    4.2.1 单纯贝叶斯分类算法  39-40
    4.2.2 K 均值聚类算法  40-42
  4.3 基于支持向量机的文本分类器  42-47
    4.3.1 支持向量机文本分类器的算法框架  43
    4.3.2 支持向量机文本分离器面临的问题和解决策略  43-44
    4.3.3 单纯Rocchio 算法  44-45
    4.3.4 基于Rocchio 的文本聚类算法  45-46
    4.3.5 基于文本聚类的支持向量机文本分类器  46-47
  4.4 支持向量机分类器的数值解法  47-53
    4.4.1 原始问题转换为对偶问题  47-48
    4.4.2 约束问题转换为无约束问题  48-49
    4.4.3 共轭梯度算法  49-50
    4.4.4 核心数据结构  50-53
  4.5 搜索请求分类  53-55
第五章搜索引擎的实现  55-73
  5.1 索引内容与存放方式  55-59
    5.1.1 索引组成与内容  56-58
    5.1.2 索引的分布式存放  58-59
  5.2 分布式线程池及其行为逻辑  59-64
    5.2.1 分布式线程池简介  60-61
    5.2.2 分布式线程池的启动逻辑  61-62
    5.2.3 分布式线程池的运转逻辑  62-63
    5.2.4 分布式线程池的退出逻辑  63-64
  5.3 分布式线程池的设计模式和类体系结构  64-69
    5.3.1 分布式线程池的类体系结构  64-67
    5.3.2 分布式线程池的设计模式  67-69
  5.4 搜索任务的调度和执行流程  69-73
    5.4.1 搜索任务的调度  69-70
    5.4.2 搜索任务的执行  70-73
第六章系统测试与分析  73-80
  6.1 测试环境  73
  6.2 测试标准  73-74
  6.3 汉语言分词算法测试  74-76
  6.4 文本分类算法测试  76-77
  6.5 搜索引擎整体性能测试  77-80
第七章结论  80-81
致谢  81-82
参考文献  82-85
攻硕期间取得的研究成果  85-86

相似论文

基于仿生模式识别的文本分类技术研究,TP391.1
网络搜索引擎的相关技术研究,G354
基于语义网络的智能搜索引擎研究,TP391.3
基于数据分布特征的文本分类研究,TP391.1
搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
基于树型条件随场的特定域事件提取方法研究,TP391.1
分布式搜索引擎索引安全及缓存策略研究,TP333
基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
网络教育新闻文本分类系统的设计与实现,TP391.1
一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53
教育培训行业互联网营销问题的研究,F49
搜索引擎侵权行为研究,D923
基于Web数据挖掘的个性化搜索引擎研究,TP391.3
基于Agent元搜索引擎的个性化研究,TP391.3
论搜索引擎竞价排名的法律规制,D923.43
搜索引擎悖论解读,G254
基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
基于搜索引擎网页排序算法研究,TP391.3
网络下载侵权分析,D923.41