学位论文 > 优秀研究生学位论文题录展示
基于搜索引擎的问答系统若干关键技术研究与实现
作 者: 陈琳
导 师: 何丕廉
学 校: 天津大学
专 业: 计算机应用技术
关键词: 信息检索 自动问答系统 元搜索引擎 检索结果处理
分类号: TP391.3
类 型: 硕士论文
年 份: 2008年
下 载: 156次
引 用: 1次
阅 读: 论文下载
内容摘要
搜索引擎的出现带来了互联网上信息检索方式的革命性变化,为用户在浩瀚如海的信息空间中寻找自己所需要的资源提供了有力帮助,也因此成为互联网上最重要和最流行的应用之一。但随着网络信息资源的日趋增多,传统搜索引擎暴露出越来越多的缺点,如检索结果冗杂、耗费时间长、结果精确度不够等。由此,探索新型、高效、人性化的搜索引擎或对基于搜索引擎的新型应用进行研究,为用户的查询问题寻求最佳解答提供更加有效的帮助,是一个具有深远意义的研究课题。本文针对信息检索领域的两个重要研究方向——自动问答系统和元搜索引擎进行了分析和探讨,综合两项技术的优势,提出了基于搜索引擎的问答系统的设计方案,并对其中涉及的若干关键技术(如查询分析、检索任务管理、检索结果处理等)进行了研究和部分实现。目前已完成的具体工作包括:(1)以分层和模块化设计思想作为系统的设计原则,确定了系统的三层结构,即用户/应用层、协调器层和检索源层,并在此基础上将系统划分为五大模块,完成了系统体系结构的设计;(2)研究系统所涉及的关键技术,并对其实现上的难点做了理论和技术准备,如提出了成员搜索引擎检索URL的转换方法、检索结果统一相关度排序方法等;(3)完成了检索结果处理部分的实现工作,并对系统性能做出评估。相比传统搜索引擎,本文所研究的系统能够更好地理解用户检索需求,从而更准确地定位检索结果,但由于在检索过程中要同时调用多个搜索引擎,对系统的检索时间会有一定的影响,这是为提高系统检索结果准确率所做出的一点牺牲。在后续的研究及实现过程中,会在提高查询分析器的语义理解能力、完善知识库的创建与管理,以及增强系统稳定性及灵活性方面做更多的工作,努力为用户提供一个界面友好、信息丰富、回答准确、反应迅速、能充分利用Web信息资源的良好的信息获取环境。
|
全文目录
中文摘要 3-4 ABSTRACT 4-7 第一章 绪论 7-10 1.1 选题背景及研究意义 7-8 1.2 本文研究目标及主要研究内容 8-9 1.3 本文组织结构 9-10 第二章 相关技术探究 10-18 2.1 自动问答系统 10-13 2.1.1 自动问答系统发展及研究概况 10-11 2.1.2 自动问答系统体系结构及核心问题 11-13 2.1.3 自动问答系统的评测方法 13 2.2 元搜索引擎 13-16 2.2.1 元搜索引擎工作原理及性能评价指标体系 13-15 2.2.2 元搜索引擎与传统搜索引擎相比的优势 15-16 2.2.3 元搜索引擎的局限性 16 2.3 小结 16-18 第三章 基于搜索引擎的问答系统总体设计 18-22 3.1 系统概述 18 3.2 系统设计思想及原则 18-20 3.2.1 软件分层设计思想 18-20 3.2.2 模块化设计思想 20 3.3 系统体系结构 20-21 3.4 小结 21-22 第四章 系统关键技术研究 22-35 4.1 问题预处理及查询扩展 22-27 4.2 检索任务管理 27-31 4.2.1 检索控制 28 4.2.2 检索任务分配 28-31 4.3 检索结果处理 31-34 4.3.1 检索结果获取 32 4.3.2 结果去重 32-33 4.3.3 相关度分析及排序策略 33 4.3.4 答案内容提取 33-34 4.4 其他技术 34 4.5 小结 34-35 第五章 检索结果处理的实现 35-54 5.1 检索结果获取 35-43 5.1.1 成员搜索引擎的搜索结果特征表示 36-39 5.1.2 下一页链接的处理 39-42 5.1.3 结果页面内容提取 42-43 5.2 死链接查询与结果去重 43-45 5.2.1 无效链接的检测 43-44 5.2.2 重复链接的处理 44-45 5.3 检索结果相关性排序 45-49 5.4 答案抽取 49-52 5.4.1 网页获取 49-50 5.4.2 HTML 解析 50-51 5.4.3 问题模式匹配及答案文本抽取 51-52 5.5 系统性能评估 52 5.6 小结 52-54 第六章 总结与展望 54-56 6.1 本文研究工作总结 54 6.2 进一步的工作 54-56 参考文献 56-59 发表论文和科研情况说明 59-60 致谢 60
|
相似论文
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 面向海量邮件的检索系统研究与实现,TP393.098
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
- 基于稀疏非负矩阵分解的图像检索,TP391.41
- 跨语言文本分类的研究,TP391.1
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 排序学习损失函数的研究,TP181
- 基于Agent元搜索引擎的个性化研究,TP391.3
- 基于点击的用户聚类的研究,TP311.13
- 英汉跨语言问答系统中的文档语义检索,TP391.1
- 基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
- 基于Web的医学文献数据库的设计与实现,TP311.13
- 基于语义Web的信息检索技术研究,TP391.3
- 基于OWL的地名本体构建与检索机制研究,P208
- 面向地名本体服务的空间信息检索研究,P208
- 基于内容与链接的页面价值算法研究,TP393.092
- 基于对等网络的搜索引擎关键技术研究,TP391.3
- J2EE集成开发框架及其应用,TP311.52
- 基于迁移学习理论的Markov检索模型,TP391.3
- 基于聚类分析的搜索引擎自动性能评价研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|