学位论文 > 优秀研究生学位论文题录展示

基于语义的主题搜索引擎研究

作 者: 郑小波
导 师: 郑诚
学 校: 安徽大学
专 业: 计算机软件与理论
关键词: 主题搜索引擎 特征提取 文本分类 文本相似度计算
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 71次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着互联网技术的广泛发展,互联网已经成为目前世界上最大的信息资源库。在互联网信息空间中如何快速、准确、全面的找到自己想要的信息已经成为21世纪互联网技术的一大难题。通用搜索引擎拥有庞大的索引数据和宽泛的主题,一定程度上解决了信息获取问题,但多元化的人群决定了多元化的信息搜索需求,因此通用搜索引擎不能满足特殊领域、特殊人群的精确化信息的需求。用户往往需要在检索结果中进一步查找才能获得感兴趣的信息,这促使着搜索引擎朝着专业化、智能化的方向发展,所以基于高准确率的主题搜索引擎得到了发展和应用。主题搜索引擎是为了提高互联网特定领域信息检索的效率而产生的。它通过网络爬虫获取主题信息并建立索引对用户提供相关信息和服务。主题搜索引擎是对通用搜索引擎的领域细化,满足了行业用户对主题信息快速、准确查找的需求。本文在主题搜索引擎系统的开发过程中,对主题搜索引擎中的关键技术进行了研究,其中包括了文本自动分词、特征提取、权值计算、文本分类文本相似度计算等方面。对传统的相似度计算方法进行了改进,加入了词与词之间语义关系,并将其成功应用在主题搜索引擎中。首先,介绍了主题搜索引擎研究的背景与意义,以及国内外研究现状。其次,阐述了主题搜索引擎的实现原理及其关键技术,对主题搜索引擎的技术框架、网络爬虫、网页内容分析、网页索引和检索、分类技术和网页排序技术的各个环节依次作了详细介绍。然后,深入研究了传统文本相似度算法及其存在的不足。传统文本相似度算法没有考虑语义关系,词与词之间是独立的。针对这些不足进行了算法改进,采用并扩展了广义向量空间模型。通过词汇知识库计算两个词的语义相似度,把语义相似度应用到广义向量空间模型中,从而得到新的文本相似度算法。最后,针对Nutch的开源框架进行了二次开发,实现了主题资源发现,中文分词,主题过滤等功能,并将新的文本相似度算法应用到主题过滤中,最终完成了主题搜索引擎实验系统。

全文目录


相似论文

  1. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  2. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  3. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  4. Q学习在基于内容图像检索技术中的应用,TP391.41
  5. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  6. 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
  7. 基于仿生模式识别的文本分类技术研究,TP391.1
  8. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  9. 空间交会接近视觉测量方法研究,TP391.41
  10. 图像实时采集、存储与处理方法研究,TP391.41
  11. 唇读中的特征提取、选择与融合,TP391.41
  12. 多币种纸币处理技术的研究与实现,TP391.41
  13. 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
  14. 基于图像的路面破损识别,TP391.41
  15. 移动机器人视觉检测和跟踪研究,TP242.62
  16. 高光谱与高空间分辨率遥感图像融合算法研究,TP751
  17. 基于随机森林的植物抗性基因识别方法研究,Q943
  18. 基于图像处理技术的烟叶病害自动识别研究,S435.72
  19. 基于视觉的番木瓜外观品质检测技术研究,S667.9
  20. 羊绒与羊毛纤维鉴别系统的研究,TS101.921
  21. 红外图像目标识别及跟踪技术研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com