学位论文 > 优秀研究生学位论文题录展示
基于语义处理技术的信息检索模型研究
作 者: 王瑞琴
导 师: 孔繁胜
学 校: 浙江大学
专 业: 计算机科学与技术
关键词: 信息检索 语义关联 隐式反馈 词义消歧 查询扩展 语义相关性 查询优化 聚类 个性化推荐
分类号: TP391.3
类 型: 博士论文
年 份: 2009年
下 载: 370次
引 用: 2次
阅 读: 论文下载
内容摘要
信息爆炸是当今信息社会的一大特点,当前信息检索技术面临着互联网网络信息更新越来越快,用户检索结果要求越来越精确的严重挑战。如何在海量的信息中有效地找到所需信息因而成为了一个关键问题,语义检索技术是解决这一问题非常有潜力的方法。然而,在语义网还没有完全实现的情况下,研究过渡时期的语义检索技术已成为近年来一个快速发展的新兴研究课题。本文对信息检索中的若干关键问题进行了研究,提出了基于语义处理技术的信息检索模型——SPTIR(Semantic Processing Technology based InformationRetrieval)。该模型围绕查询扩展和检索结果重排序而展开,主要由四个部分构成,即:基于词义消歧的语义查询扩展、基于词汇语义相关性度量的查询优化、基于文档语义相关性的检索结果重排序和语义加强的个性化信息推荐。1.在基于关键字的搜索引擎中,一个构造良好的查询是用户主观信息需求的客观表现,也是信息检索服务质量的基本保证。本文以用户查询关键字之间的语义关联为切入点,辅以隐式反馈技术获取消歧上下文,使用无导词义消歧的方法实现了查询关键字到本体概念的映射,基于概念词语关联进行语义查询扩展。基于词义消歧的语义查询扩展解决了传统的信息检索系统不能很好理解用户查询意图的问题。2.针对部分消歧失败的查询关键字,本文提出使用隐式反馈技术从相关文档中直接提取候选扩展查询词的策略。为了进一步精简和优化反馈产生的扩展词汇,避免查询扩展的“主题偏移”现象,本文采用基于词汇语义相关性度量的方法对扩展查询词进行过滤来优化查询。3.由于传统关键字检索返回的数据量过大,检索结果相关性评价成为研究的焦点。本文根据查询消歧的具体情况(成功、失败),提出两种文档语义相关性度量的方法:基于语义向量空间模型的文档相关性和基于词汇向量空间模型的文档相关性。根据文档相关性对检索结果进行重新排序,优先返回与查询语义相关性强的文档供用户浏览。4.本文对如何满足不同用户的个性化查询需求进行了研究,提出了一种语义加强的个性化信息推荐方法。该方法综合利用语义数据源和历史评分数据进行混合推荐,语义数据源的引入解决了传统协同过滤系统的数据稀疏性和冷启动问题。另外,为了提高推荐系统的可扩展性和实时性,在数据的离线预处理阶段,本文使用数据挖掘方法对用户和项目进行了模糊聚类。
|
全文目录
摘要 4-6 Abstract 6-13 第1章 绪论 13-22 1.1 课题背景 13-17 1.2 研究动机及方法 17-19 1.3 主要工作及贡献 19-22 第2章 基于语义处理技术的信息检索研究综述 22-37 2.1 信息检索模型概述 22-29 2.1.1 布尔模型 22-23 2.1.2 向量空间模型 23-25 2.1.3 概率模型 25-27 2.1.4 语言模型 27-29 2.2 语义检索相关研究综述 29-36 2.2.1 语义查询优化 29-31 2.2.2 查询目标分析 31-33 2.2.3 复杂约束查询 33-34 2.2.4 语义查询个性化 34-35 2.2.5 语义关联分析 35-36 2.3 本章小结 36-37 第3章 基于无导词义消歧的语义查询扩展 37-70 3.1 引言 37-39 3.2 无导词义消歧研究综述 39-47 3.2.1 基于知识的无导词义消歧 40-44 3.2.2 基于统计的无导词义消歧 44-47 3.3 基于WordNet的无导词义消歧 47-61 3.3.1 相关知识介绍 47-48 3.3.2 基于局部上下文的无导词义消歧LCUWSD 48-55 3.3.3 基于图论的无导词义消歧GTUWSD 55-61 3.4 基于词义消歧的语义查询扩展 61-62 3.5 实验与评估 62-69 3.5.1 实验数据 62 3.5.2 实验结果与分析 62-69 3.6 本章小结 69-70 第4章 基于词汇语义相关性度量的查询优化 70-92 4.1 引言 70-71 4.2 词汇语义相关性度量研究综述 71-78 4.2.1 基于统计的语义相关性度量 71-74 4.2.2 基于知识的语义相关性度量 74-78 4.3 基于Wikipedia链接结构化信息的相关性度量 78-84 4.3.1 Wikipedia简介 78 4.3.2 利用Wikipedia的链接信息计算词汇间的语义相关性 78-84 4.4 基于隐式反馈和语义相关性的查询扩展与优化 84 4.5 实验与评估 84-91 4.5.1 实验数据 85 4.5.2 性能评价指标 85-86 4.5.3 实验结果与分析 86-91 4.6 本章小结 91-92 第5章 基于文档语义相关性的检索结果重排序 92-105 5.1 引言 92 5.2 文档相关性测度研究综述 92-96 5.3 基于文档语义相关性的检索结果重排序 96-99 5.4 实验与评估 99-104 5.4.1 实验数据 100 5.4.2 性能评价指标 100-101 5.4.3 实验结果与分析 101-104 5.5 本章小结 104-105 第6章 语义加强的个性化信息推荐 105-129 6.1 引言 105 6.2 个性化信息推荐研究综述 105-110 6.2.1 基于内容过滤的推荐 106-107 6.2.2 协同过滤推荐 107-109 6.2.3 混合推荐 109-110 6.3 语义加强的混合推荐SEHR 110-123 6.3.1 线性结合型混合推荐LCHR 110-118 6.3.2 连续结合型混合推荐CCHR 118-120 6.3.3 调整型模糊K-均值聚类UFKM 120-123 6.4 实验与评估 123-128 6.4.1 实验数据 123-124 6.4.2 性能评价指标 124 6.4.3 实验结果与分析 124-128 6.5 本章小结 128-129 第7章 SPTIR模型的系统框架及其检索性能分析 129-143 7.1 SPTIR模型的组成 129-133 7.1.1 查询扩展模块 130-131 7.1.2 查询优化模块 131 7.1.3 检索结果重排序模块 131-132 7.1.4 个性化推荐模块 132-133 7.2 SPTIR模型的检索性能分析 133-142 7.2.1 实验数据 133-135 7.2.2 性能评价指标 135-136 7.2.3 实验结果与分析 136-142 7.3 本章总结 142-143 第8章 总结与展望 143-146 8.1 本文工作总结 143-144 8.2 展望 144-146 参考文献 146-163 攻读博士学位期间主要的研究成果 163-164 致谢 164
|
相似论文
- 海量多数据库集成系统的查询处理研究,TP311.13
- 词义消歧语料库自动获取方法研究,TP391.1
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 图像分割中阴影去除算法的研究,TP391.41
- 基于图分割的文本提取方法研究,TP391.41
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 面向海量邮件的检索系统研究与实现,TP393.098
- 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
- 高血压前期证候特征研究,R259
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- K-均值聚类算法的研究与改进,TP311.13
- 大学生综合素质测评研究,G645.5
- 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
- 21个荷花品种遗传多样性的ISSR分析,S682.32
- 基于聚类分析的P2P流量识别算法的研究,TP393.02
- 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
- 桃杂交后代(F1)幼苗光合效能评价,S662.1
- 南通市农业面源污染负荷研究与综合评价,X592
- 土壤环境功能区划研究,X321
- 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
- 大豆杂种优势及其遗传基础研究,S565.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|