学位论文 > 优秀研究生学位论文题录展示

基于概率模型的名人网页相关度评价研究

作 者: 贾玉祥
导 师: 范明;昝红英
学 校: 郑州大学
专 业: 计算机软件与理论
关键词: 个性化检索 概率模型 相关度评价 查询扩展
分类号: TP391.1
类 型: 硕士论文
年 份: 2006年
下 载: 101次
引 用: 1次
阅 读: 论文下载
 

内容摘要


个性化检索是当前信息检索的研究热点之一。它根据用户的个性化需求,实现信息的自动收集、分析和推送等服务。与一般的信息检索相比,服务的针对性更强,质量更高。相关网页排序结果的优劣是检索服务质量好坏的最根本体现,因此网页的相关度评价是个性化检索系统的关键环节。概率模型在用户兴趣建模上有独特的优势,它引入概率参数,可以更准确地刻画用户的需求,适合个性化检索的相关度评价。 本文以名人网页为基础,研究实体网页的个性化检索,旨在提高实体网页的相关度评价准确率。本文设计并实现了基于概率模型的名人网页相关度评价算法,探讨了概率模型的训练、模型的改进及查询扩展等三方面问题,总结了概率模型的规律,提出了多种提高网页相关度评价准确率的方法,并给出了翔实的实验结果。 本文研究工作的主要创新点有: (1)提出了一种实体网页的概率模型的训练集选择方法,提高训练效果的同时降低了算法开销。 (2)改进模型的概率计算公式,引入更细致的用户反馈信息,优化特征项的分布概率;改进相关度计算公式,引入词频、网页长度、HTML标记等网页信息,提出对实体分类定制相关度计算公式的思想。 (3)针对实体属性信息的特点,提出相关网页和用户查询相结合抽取相关特征项进行查询扩展的方法。 实验表明,与名人网页相关度评价的原有模型相比,本文模型在很大程度上提高了相关度评价的准确率,并且可以直接应用到其他类型实体网页的检索,文中的方法和结论为实体网页的个性化检索研究提供了参考。

全文目录


摘要  3-4
Abstract  4-6
目录  6-8
图表目录  8-10
第一章 引言  10-15
  1.1 研究背景  10-11
  1.2 相关工作  11-13
    1.2.1 Famous People Search  11-12
    1.2.2 天网知名度系统  12-13
  1.3 本文工作  13-14
  1.4 论文组织  14-15
第二章 信息检索综述  15-27
  2.1 信息检索基本模型  16-21
    2.1.1 布尔模型  17-18
    2.1.2 向量空间模型  18-19
    2.1.3 概率模型  19-21
  2.2 网页相关度评价  21-26
    2.2.1 相关度评价方法  21-24
      2.2.1.1 基于内容的分析  22-23
      2.2.1.2 链接分析  23-24
    2.2.2 相关度评价的评测  24-26
  2.3 本章小结  26-27
第三章 基于概率模型的相关度评价  27-44
  3.1 概率模型  27-29
  3.2 语料准备  29-32
    3.2.1 名人网页语料库  29-31
    3.2.2 两批语料库的统一  31-32
  3.3 测试方法  32-33
  3.4 模型训练  33-37
    3.4.1 相关网页集的选择  34-35
    3.4.2 不相关网页集的选择  35-37
  3.5 模型改进  37-42
    3.5.1 概率计算公式的改进  37-39
    3.5.2 相关度计算公式的改进  39-42
  3.6 本章小结  42-44
第四章 查询扩展  44-58
  4.1 查询扩展概述  44-45
  4.2 查询扩展方法  45-47
    4.2.1 全局分析  45
    4.2.2 局部分析  45-46
    4.2.3 局部上下文分析  46-47
    4.2.4 基于用户日志的分析  47
  4.3 基于相关网页的查询扩展  47-51
    4.3.1 抽取特征子串  48-50
    4.3.2 抽取高频特征项  50-51
  4.4 基于中文概念词典的查询扩展  51-57
    4.4.1 中文概念词典  52
    4.4.2 基于 CCD的查询扩展  52-57
  4.5 本章小结  57-58
第五章 总结与展望  58-60
  5.1 总结  58
  5.2 展望  58-60
参考文献  60-65
致谢  65-66
附录: 攻读硕士学位期间发表的论文  66

相似论文

  1. 个性化检索中相似用户群的获取与更新,TP391.3
  2. 生物医学领域检索系统查询扩展技术研究,TP391.3
  3. 车辆识别系统动态特征选择算法的研究与实现,TP391.41
  4. 英汉跨语言问答系统中的文档语义检索,TP391.1
  5. 利用GPS观测数据评估川滇南部地区活动断裂地震危险性,P315.7
  6. 基于改进向量空间模型的网络信息检索研究,TP391.3
  7. 基于不完全约束的XML查询处理关键技术研究,TP311.10
  8. 基于本体的语义查询扩展研究,TP391.3
  9. 基于本体的个性化信息系统的应用研究,F49
  10. 我国上市公司实际控制权与公司绩效,F272
  11. 基于查询扩展的垂直搜索研究,TP391.3
  12. 面向查询的XML文本摘要技术,TP391.1
  13. 基于语义词典和局部分析的查询扩展研究,TP391.3
  14. 基于本体的文本信息检索技术研究与实现,TP391.3
  15. 个性化搜索中用户语义意图自动识别技术研究,TP391.1
  16. 雷达系统运行安全评估,V355.12
  17. 基于查询扩展的油田网络舆情监控系统,TP393.09
  18. 关系数据库的关键字查询优化研究,TP311.13
  19. 基于社交信息的网络视频分类,TP391.41
  20. 基于Markov团的信息检索扩展模型,TP391.3
  21. 基于领域本体的语义检索系统研究,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com