学位论文 > 优秀研究生学位论文题录展示
基于多Agent及元搜索技术的中文问答系统的研究和应用
作 者: 李欢
导 师: 邸书灵
学 校: 石家庄铁道学院
专 业: 计算机应用技术
关键词: 问答系统 Agent 元搜索 答案提取 多文档提取 向量空间模型 相似度计算
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 25次
引 用: 0次
阅 读: 论文下载
内容摘要
近年来随着万维网(WWW)的发展,搜索引擎与信息检索也得到迅速的发展。由于技术开放性的特点,互联网上的信息越来越丰富,一方面为用户获取信息提供了海量的资料,但另一方面出现了“信息过载”现象,即从Web海量信息种迅速而准确地获取所需要的信息变得越来越困难。用户需要在搜索引擎的检索结果上再次进行大海捞针般的信息查找。由此,新的信息检索技术——问答系统应运而生。本文首先介绍了问答系统的研究背景、国内外现状及本文的研究内容,然后介绍了中文分词技术和问题分析,之后介绍了本文的工作重点:元搜索Agent信息检索和多文档答案提取。在信息检索部分引入元搜索Agent技术,从多个成员搜索引擎中获得候选答案的摘要及URL,通过去除冗余网页地址、判断网页地址有效性两个功能模块获得带有HTML标记语言的候选答案集合。利用元搜索技术,有效地提高了候选答案的查全率,为答案提取模块提供了广泛而全面的候选答案集合。在答案提取部分,首先介绍多文档提取技术和基本路线,然后提出了多文档答案提取方法。将答案定位到多文档合取上,通过正则表达式对信息检索部分获得的答案候选集进行页面的清洗工作、利用向量空间模型(VSM)计算问题与各候选答案集的相似度、对二次候选答案分句和提取有效句、利用基于词表层特征的相似度对二次候选答案进行筛选获得最终的答案句。本文实现了问答系统的各个模块,并进行了系统测试及评价分析。最后,对全文进行总结,并提出了下一步努力方向。
|
全文目录
摘要 4-5 Abstract 5-9 第一章 绪论 9-17 1.1 问答系统简介 9-10 1.1.1 产生背景 9-10 1.1.2 系统构成 10 1.2 国内外研究现状 10-13 1.2.1 国内现状 11-12 1.2.2 国外现状 12-13 1.3 研究内容 13-16 1.3.1 研究内容 13-15 1.3.2 系统体系结构 15-16 1.4 组织架构 16-17 第二章 中文分词技术 17-23 2.1 中文分词 17-18 2.2 中文分词技术的意义 18 2.3 常见的中文分词技术 18-20 2.3.1 基于字符串匹配的分词方法 19 2.3.2 基于理解的分词方法 19-20 2.3.3 基于统计的分词方法 20 2.4 分词技术中的难题 20-21 2.5 本系统采用的分词技术——海量分词软件 21-23 第三章 问题分析 23-31 3.1 引言 23 3.2 问题类型识别 23-26 3.3 关键词提取——去除停用词及疑问词 26-27 3.4 关键词扩展 27-31 第四章 元搜索Agent 31-45 4.1 引言 31-33 4.1.1 基本构成 31-33 4.1.2 元搜索引擎的特点 33 4.2 元搜索Agent的设计 33-45 4.2.1 元搜索引擎结果满意值 34 4.2.2 查询转换 34-37 4.2.3 去除冗余网页地址 37-39 4.2.4 确定网页地址有效性 39 4.2.5 元搜索Agent的结果集成 39-45 第五章 多文档答案提取Agent 45-52 5.1 引言 45 5.2 多文档自动摘要提取技术定义及分类 45-46 5.3 多文档自动摘要提取基本路线 46-47 5.4 本系统采用方法 47-52 5.4.1 Web页面的清洗 47-48 5.4.2 基于VSM的问题与候选答案的相似度 48-49 5.4.3 分句及提取有效句 49-50 5.4.4 基于词表层特征的相似度计算 50-52 第六章 系统测试与评价 52-55 6.1 引言 52 6.2 本系统采用的评测标准 52-53 6.3 问题分析模块性能 53-54 6.4 系统最终性能评价 54 6.5 小结 54-55 第七章 结论与展望 55-57 7.1 结论 55-56 7.2 展望 56-57 参考文献 57-59 致谢 59-60 个人简历、在学期间的研究成果及发表的学术论文 60
|
相似论文
- 多邮件自动文摘的关键技术研究,TP391.1
- 基于停用词处理的汉语语音检索方法,TP391.1
- 基于相似度计算的编程题自动评判方法研究,TP312.1
- 基于移动Agent的分布式网络通信机制的研究,TP393.02
- 基于SVM分类算法的主题爬虫研究,TP391.3
- Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
- 应用于搜索引擎的人物分类系统设计与实现,TP391.3
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 多Agent方法在分布式智能电网发电调度系统中的应用研究,TM76;TM73
- 针对教育视频的虚拟学习社区设计与实现,G434
- 基于Agent的无线传感器网络自组织演化机制研究,TN929.5
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
- 网络教育新闻文本分类系统的设计与实现,TP391.1
- 基于Jade的多Agent图像检索系统,TP391.3
- 面向论坛信息文本的有效数据抽取研究,TP391.1
- SMBSDD:一种改进的非结构化P2P网络搜索机制,TP393.02
- 基于Web的社会网络搜索中人名同一性判断方法研究,TP393.09
- Web新闻热点发现系统的设计与实现,TP393.09
- 基于本体多Agent系统的交易伙伴智能发现相关技术研究,F713.36
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|