学位论文 > 优秀研究生学位论文题录展示

面向网页排序的关键词权值计算

作 者: 高廷丽
导 师: 戴红亮
学 校: 中国社会科学院研究生院
专 业:
关键词: 关键词抽取 权值计算 网页排序
分类号: TP391.3
类 型: 硕士论文
年 份: 2013年
下 载: 1次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着信息科技的发展和互联网的日益普及,搜索引擎深受人们的重视,近年来最主流的搜索引擎是基于关键词检索的搜索引擎,在基于关键词检索的搜索引擎中,用户查询语句中各个词语权值计算的精度将直接影响到后续网页排序的好坏,因此正确计算检索条件中词语权值是至关重要的。本文的研究是试图寻找一种面向网页排序的用户查询语句关键词权值计算方法,使基于关键词检索的搜索引擎在网页排序这一环节达到一个更高的水平,为后续检索处理打下良好的基础。为了完成研究目的,本文的工作主要包括以下三个部分:用户查询语句自身特点分析。对标注了核心词的5000句查询语句自身特点与词语权值关系进行分析,对查询语句中含有的停用词和现代汉语语料中停用词进行分析,并对不同类别下查询语句中停用词进行了分析和举例。面向网页排序的关键词权值计算。对用户查询日志进行分词和词性标注,将关键词抽取任务视为分类任务,结合查询语句自身的特点,最终确定出每个词语的八个上下文特征作为决策树森林分类的特征,并分别介绍了各个特征的计算方法。并对实验结果进行错误分析,加入一些规则对模型分类的结果进行后处理。实验结果分析。对决策树分类方法与传统关键词提取和权值计算方法的结果进行对比分析,从用户查询日志中随机抽取1000条左右查询语句进行人工评测,使用交叉验证的方法评测模型准确率和召回率;比较模型方法与传统的网页排序中权值计算方法的胜出率;选择几个查询语句,到“百度”上搜索,得出由模型确定的关键词序列进行搜索与不对关键词进行处理的查询语句搜索对网页排序效果的影响。实验结果表明本文采用的关键词抽取和权值计算方法在网页排序的权值计算中是切实可行的。

全文目录


摘要  3-4
Abstract  4-5
目录  5-6
第一章 绪论  6-13
  一、 研究起源与意义  6-8
  二、 前人工作  8-11
  三、 本文主要工作  11-12
  四、 论文结构  12-13
第二章 用户查询语句语言分析  13-20
  一、 查询语句语料库  13
  二、 查询语句分析  13-16
    (一) 词性序列与权值关系  14-16
    (二) 词语长度与权值关系  16
  三、 查询语句停用词分析  16-19
    (一) 所有类别下查询语句中词语停用词分析  17-18
    (二) 特定类别下查询语句中停用词分析  18-19
  四、 本章小结  19-20
第三章 网页排序关键词抽取权值计算  20-33
  一、 决策树分类器  20-21
    (一) 决策树分类模型概述  20
    (二) 决策树分类模型中的四个关键问题  20-21
    (三) 决策树森林分类模型与词语权值计算  21
  二、 关键词抽取和权值计算  21-25
    (一) 决策树森林分类器模型特征提取  22-25
    (二) 权值计算  25
  三、 实验结果和分析  25-28
    (一) 实验结果  25-26
    (二) 错误分析  26-28
  四、 权值计算对网页排序的影响  28-31
  五、 本章小结  31-33
第四章 规则对模型结果的后处理  33-39
  一、 模型后处理规则  33-37
  二、 加后处理规则后模型评测结果  37-38
  三、 本章小结  38-39
第五章 结束语  39-41
  一、 本文研究总结  39
  二、 后续工作展望  39-41
参考文献  41-43
后记  43-44
附表  44

相似论文

  1. 网络搜索引擎的相关技术研究,G354
  2. 基于链接分析的网页排序及相关Link Spam算法的研究,TP393.092
  3. 网络文本信息采集分析关键技术研究与实现,TP391.1
  4. 基于局部特征的亮度平衡自适应图像融合算法,TP391.41
  5. 逆向物流绩效评价体系的建立与应用,F252
  6. 面向主题的博客资源挖掘关键技术研究,TP393.09
  7. 基于本体的社保审计知识库的构建研究,TP391.1
  8. 中文事件模式自动生成方法的研究和实现,TP393.09
  9. 新闻搜索分析平台的相关技术研究,TP391.3
  10. 问答式社区的标签推荐技术研究,TP391.1
  11. 科技论文关键词抽取技术的研究,TP391.1
  12. DTN网络自适应性传染病路由协议研究,TN929.5
  13. 搜索引擎核心词提取系统设计与实现,TP391.3
  14. 基于特征提取和权值计算算法的中文网页分类研究,TP393.092
  15. 突发事件语料噪声排除与网页去重方法研究,TP393.092
  16. 使用骨骼蒙皮动画技术制作人物动画,TP391.41
  17. 基于粗糙集的文本分类技术研究,TP391.1
  18. 一种基于动态分簇的无线传感器网络跟踪算法研究,TN929.5
  19. 基于情感词典的中文微博情感倾向分析研究,TP391.1
  20. 网络舆情情感分析系统的设计与实现,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com