学位论文 > 优秀研究生学位论文题录展示
段落检索系统及其应用的研究
作 者: 林巍
导 师: 王晓龙
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 段落检索 段落相似度计算 自动问答
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 23次
引 用: 0次
阅 读: 论文下载
内容摘要
近年来,互联网搜索引擎得到迅猛发展和广泛普及,但大粒度输入的搜索需求被各大搜索引擎所忽视;而且,尽管用户通过搜索引擎能够快速检索出大量文档,但返回的文档中往往只有少部分段落内容与用户需求直接相关。因此,研究一个既能满足大粒度输入的搜索需求,又能得到与输入段落密切相关的段落检索系统,对于解决目前搜索引擎存在的难以满足大粒度搜索和搜索精确度不足的问题很有帮助。而在目前段落检索领域的研究中,仅仅将段落检索作为自动问答系统的一个组成部分进行研究,并没有针对大粒度的输入搜索相关段落的需求开发出相应的开放的搜索引擎,为了解决这个问题,笔者开发出了海天园段落检索系统并且对其中的相关算法进行了研究。在实现段落检索的功能方面(大粒度的段落输入,搜索到相似段落),文中设计了如下方法:首先在索引阶段进行基于窗口的分段,然后将输入段落表示为有序关键词序列,用基于关键词交集的搜索方法得到相关段落,最后对得到的段落进行段落相似度计算和排序。其中在分段方面,使用了高效的基于窗口的不重叠分段算法,与先分段再搜索的段落检索策略,能够缩短搜索时间保证搜索的效率;对于输入段落,系统采用了有序关键词序列的表示方法和准确的关键词提取算法,该方法能够有效的将大粒度的输入准确的表示为可搜索的形式;得到相关段落后的排序,文中比较多种段落相似度计算方法后,采用了SiteQ算法(一种基于查询词密度的段落相似度计算算法)并对其进行了改进,能够在查询词间距离的层面更好的比较两个段落的相似程度。系统使用的数据是海天园金融爬虫每天实时爬取的各大金融网站的网页。为了验证段落检索系统的搜索效果,文中对于每一个过程分别用不同验证方法进行验证。首先关于提取关键词的算法,将系统提取的关键词与人工提取的进行比较,实验结果表明在字数100字以内提取10个关键词,至少抽取7个正确的关键词的准确率达到85%。对SiteQ算法的改进效果,文中使用MRR(平均排序倒数)进行评估:将改进后的SiteQ算法分别与MITRE(词重叠算法)算法和改进前的SiteQ算法进行实验比较,在输入段落100字范围内,改进后SiteQ算法的MRR值比MITRE至少大0.007,改进后SiteQ算法的MRR值比改进前至少大0.004,证明改进后SiteQ算法的排序效果优于改进前,并且优于MITRE算法。最后评测系统的性能,以从网页中摘抄段落,输入系统以搜索到源段落为目的,实验结果发现在输入段落字数达到60字以上时,平均召回率在93%以上,平均准确率在27%以上,能够满足大粒度输入段落,搜索出源段落的需求。同时,将段落检索应用到自动问答,运用了同义词扩展、问题类型识别,并针对数量类和是非类问题进行了答案抽取。本文的研究应用到了海天园段落检索系统和海天园自动问答系统。
|
全文目录
摘要 4-6 Abstract 6-11 第1章 绪论 11-18 1.1 课题背景及研究的目的和意义 11-12 1.1.1 课题背景 11 1.1.2 研究的目的和意义 11-12 1.2 国内外研究现状 12-15 1.2.1 分段算法的研究现状 12-13 1.2.2 段落检索策略的研究现状 13-14 1.2.3 段落相似度计算的研究现状 14 1.2.4 基于段落检索的自动问答研究现状 14-15 1.3 本课题的主要研究内容 15-16 1.4 本文结构的安排 16-18 第2章 检索相关段落的算法 18-33 2.1 引言 18 2.2 基于窗口的固定长度分段算法 18-21 2.2.1 与四种分段算法的比较 18-19 2.2.2 基于窗口的重叠分段与不重叠分段的算法描述 19-21 2.2.3 重叠分段与不重叠分段的比较 21 2.3 段落检索策略 21-24 2.3.1 四种段落检索策略的比较 21-23 2.3.2 采取的段落检索策略 23-24 2.4 输入段落的表示——有序关键词序列 24-29 2.4.1 将大粒度输入表示为可搜索的形式 24 2.4.2 输入预处理中的关键词提取 24-25 2.4.3 关键词提取算法 25 2.4.4 关键词权重的计算方法 25-26 2.4.5 关键词提取算法准确率的实验与分析 26-29 2.5 基于关键词交集的搜索算法 29-31 2.5.1 算法流程 29-30 2.5.2 关键词交集搜索时间的实验与分析 30-31 2.6 本章小结 31-33 第3章 段落相似度计算与评测 33-48 3.1 引言 33 3.2 段落相似度计算的相关算法简述 33-35 3.2.1 基于词频统计的MITRE算法 33-34 3.2.2 基于查询词密度的算法 34-35 3.2.3 基于语言模型的模糊关系匹配算法 35 3.3 SITEQ算法 35-38 3.3.1 SiteQ算法详解 35-36 3.3.2 SiteQ算法与其他段落相似度计算算法的比较 36-37 3.3.3 SiteQ算法举例 37-38 3.4 SITEQ算法的改进 38-41 3.4.1 正排索引时记录标题和段落正文的位置信息 38-39 3.4.2 SiteQ算法的改进 39-40 3.4.3 改进后SiteQ算法的举例说明 40-41 3.5 段落检索系统的实验与分析 41-47 3.5.1 评估段落检索系统的方法 41-42 3.5.2 实验数据的来源与准备 42-43 3.5.3 SiteQ算法与MITRE算法的对比实验 43-44 3.5.4 SiteQ-Title算法与SiteQ算法的对比实验 44-46 3.5.5 段落检索系统的实验与分析 46-47 3.6 本章小结 47-48 第4章 段落检索系统在自动问答的应用 48-54 4.1 引言 48 4.2 海天园自动问答系统现状 48-49 4.2.1 系统现状 48-49 4.2.2 不足之处 49 4.3 段落检索在自动问答上的应用研究 49-53 4.3.1 同义词扩展 50-51 4.3.2 问题类型识别 51 4.3.3 答案抽取 51-53 4.4 本章小结 53-54 第5章 段落检索系统的实现、演示及后续研究 54-65 5.1 引言 54 5.2 网页爬虫、净化与索引 54-56 5.2.1 网页爬虫 54-55 5.2.2 净化与索引 55-56 5.3 段落文件的存储 56-57 5.4 分词及索引建立 57-59 5.4.1 分词 57-58 5.4.2 倒排索引 58 5.4.3 正排索引 58-59 5.5 段落检索系统演示 59-62 5.5.1 输入界面演示 59-60 5.5.2 结果界面演示 60-62 5.6 自动问答系统演示 62-63 5.7 后续研究 63-64 5.7.1 论文抄袭检测的应用 63 5.7.2 段落检索方面的后续研究 63-64 5.7.3 基于段落检索的自动问答的后续研究 64 5.8 本章小结 64-65 结论 65-66 参考文献 66-73 致谢 73
|
相似论文
- 基于词义及语义分析的问答技术研究,TP391.1
- 相关性排序技术的几点研究,TP391.3
- 基于概念和段落检索的生物医学文献知识发现,G354
- 面向问答系统的段落检索技术研究,TP391.3
- 自动问答系统语音接口的设计与实现,TP311.52
- 短文本相似度计算在用户交互式问答系统中的应用,TP391.1
- 基于互联网的中文问答系统研究,TP393.09
- 限定领域内基于web的智能问答系统,TP393.092
- 融合多元信息的句子相似度计算研究,TP391.1
- 基于本体的金融问答系统选股模块的设计与实现,TP311.52
- 基于问答网络论坛知识体系的自动问答系统研究,TP391.6
- 基于本体的语义信息集成与知识发现研究,TP391.1
- 信息距离理论及其在问答系统中的应用研究,TP18
- 面向知识服务的传统农具数字博物馆设计与构建,S-092
- 文本间语义相关性计算及其应用研究,TP391.1
- 受限域中文问答系统中答案抽取的研究,TP391.1
- 中文问答系统中答案提取的研究,TP391.1
- 基于模式匹配的中文问答技术研究,TP311.5
- 基于搜索引擎的问答系统若干关键技术研究与实现,TP391.3
- 句子相似度计算理论及应用研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|