学位论文 > 优秀研究生学位论文题录展示
基于特征抽取和转换方法的全文检索研究
作 者: 贺凡黎
导 师: 张茂元
学 校: 华中师范大学
专 业: 计算机应用技术
关键词: 信息检索 主题模型 云模型 特征项 概念标签 相关度
分类号: TP391.3
类 型: 硕士论文
年 份: 2014年
下 载: 2次
引 用: 0次
阅 读: 论文下载
内容摘要
在信息检索技术随着互联网的迅猛发展而日趋成熟的同时,搜索引擎也已经成为人们日常生活中越来越不可缺少的重要工具和手段。传统的信息检索是在基于关键词匹配的基础上,机械地匹配仅仅包含有指定关键词的文档来获得相关文档,这种方式常常会带来语义理解上的错误,越来越不能满足现状用户的需求和科学研究的需要,于是语义分析和挖掘显现了在检索中的重要性。由于汉语语言的二义性和相关性,在一定程度上造成了不确定性和模糊性,潜在语义分析的方法被广泛用于信息检索领域,它的核心是针对词语和文档进行分析,建立一个矩阵,并作加权转换,用于计算的加权函数又直接影响潜在语义分析的结果。这样建立起的词与词之间的语义关系矩阵,在很大程度上消除了由于词语语义的多样性和随意性导致的对检索结果产生的偏差。然而这种方法依然忽略了语言的模糊性和不确定性,所以将云模型理论引入到信息检索研究中,挖掘出一些潜在的语义信息。LDA模型,被用于挖掘潜在的主题结构,这些主题上分布的词是在语义上相关的。但是主题在语义上具有不确定性。本文在LDA模型的基础上引进云模型理论,利用云模型均值和方差的关系,在抽样时标注了某个主题,就为主题添加主题关系调节因子,建立一个新的特征选择系统。于是新的方法能够抽取出文本的特征集,特征集对于文本具有高的贡献度。新获得的特征集有更少但能最大程度上表示文本的词语。特征词语有不同表示形式的语义信息,两种语义空间下的信息不能直接融合。本文提出了一种特征转换机制,在云空间上对两种语义信息进行转换使其具有一致性,再在一致空间上进行融合,并对标签主题模型进行抽样选择,实现两种语义信息的融合,然后进行查询扩展,运用到检索中,提高检索效果。
|
全文目录
摘要 5-6 Abstract 6-10 第一章 绪论 10-16 1.1 研究背景及意义 10-11 1.2 国内外相关研究 11-13 1.3 本文主要研究内容 13-14 1.4 论文的组织结构 14-16 第二章 相关理论概述 16-25 2.1 信息检索概述 16-21 2.1.1 信息检索相关理论 16 2.1.2 信息检索模型介绍 16-18 2.1.3 基本相关术语定义 18-19 2.1.4 实验评测方法 19-21 2.2 云模型理论 21-23 2.2.1 云中相关的定义 21-23 2.2.2 云模型的类型 23 2.3 LDA主题模型 23-24 2.4 小结 24-25 第三章 基于CLOUD-LDA模型的文本特征抽取方法 25-37 3.1 引言 25 3.2 文本特征的表现和提取 25-28 3.3 CLOUD-LDA新模型的特征分布 28-33 3.3.1 Cloud-LDA模型的构建 29-32 3.3.2 模型的参数演算 32-33 3.4 实验结果及分析 33-36 3.4.1 实验数据集 33-34 3.4.2 实验结果举例说明 34-35 3.4.3 实验结果对比 35-36 3.5 本章小结 36-37 第四章 基于文本特征转换的二次检索 37-52 4.1 语义指纹和TAG-LDA模型词语分布 37-40 4.1.1 语义指纹空间 37-38 4.1.2 Tag-LDA标签词语分布空间 38-40 4.2 基于云空间的特征转换模型 40-46 4.2.1 基于云模型的文本特征转换 40-41 4.2.2 构造转换过程 41-42 4.2.3 特征转换理论论证 42-44 4.2.4 Tag-LDA模型的改进 44-45 4.2.5 改进模型相关公式 45-46 4.3 基于文本特征转换的二次检索模型系统框架 46 4.4 实验结果与分析 46-50 4.4.1 实验数据 46-47 4.4.2 查询项的标签选择 47-48 4.4.3 实验结果对比 48-50 4.5 小结 50-52 第五章 总结与展望 52-54 5.1 总结 52 5.2 展望 52-54 参考文献 54-58 攻读硕士学位期间参加的科研项目与公开发表的学术论文 58-59 致谢 59
|
相似论文
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 面向海量邮件的检索系统研究与实现,TP393.098
- 基于层次分析法的模糊综合评价研究和应用,O225
- 基于云理论和蜜蜂进化型遗传算法的纹理合成研究,TP391.41
- 基于云模型的软件可信性评估模型,TP311.53
- 基于Web的未登录词翻译技术研究,TP391.2
- 基于社会网络分析的藏文web链接结构研究,TP393.09
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 英汉可比较语料库的构建与应用研究,TP391.1
- 基于聚焦爬虫的网上药品信息监测系统,TP393.09
- 外文数据库无障碍信息检索的策略研究,G354
- 基于因特网的动态规范词表的系统构建研究,G354
- 基于Struts2框架的安全教育管理信息系统研究,TP311.52
- 面向军事知识的自动问答系统的设计与实现,TP311.52
- 基于证据理论和云模型的多属性决策算法研究,C934
- 税务数据仓库系统的设计与应用,TP311.13
- 数据库中基于多索引段的全文索引研究,TP311.13
- 基于分布式的垂直搜索引擎的研究与实现,TP391.3
- 面向行业搜索引擎的研究与实现,TP391.3
- 音频特征与社会标签相结合的音乐推荐系统,TP391.3
- 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|