学位论文 > 优秀研究生学位论文题录展示

基于知网的受限域问答系统原型的设计与实现

作 者: 杨朝玉
导 师: 王振宇;张磊
学 校: 华南理工大学
专 业: 软件工程
关键词: 问答系统 受限域 问句处理 候选问题集 问句相似度
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 81次
引 用: 0次
阅 读: 论文下载
 

内容摘要


问答(Question Answering, QA)系统是可以提供更加精确的检索结果的新一代的信息检索系统。它允许用户以自然语言的形式提问,系统根据用户的提问,能够快速的返回令用户满意的、精确的、简洁的答案;限定域问答系统是指系统所能处理的问题只限定于某个具体领域或者某个内容范围的问答系统,比如只限定于医学、化学或者某个企业的业务领域等。本文针对受限域问答系统的特殊性,围绕受限域FAQ的收集和组织,领域知识库的构建,问句处理(包括停用词过滤、问题分类、候选问题集的抽取等),问句间相似度的计算与答案抽取,FAQ库的更新等相关技术理论展开分析和探讨,并在此基础上实现新生问答系统,具体研究内容如下:(1)通过多种途径收集领域信息组成问答对,并将存储问答对的EXCEL文档转化为XML文档;接着利用Lucene对其构建索引;利用“知网”的知识结构及概念描述方法和KDML语言对提取的领域专有名词进行描述,并与知网常识知识库融合;(2)利用ICTCLAS分词器对用户问句进行切分,将切分出的词进行停用词过滤形成关键词集合;接着将问句的关键词集合利用朴素贝叶斯算法确定用户问句的类别,再根据用户问句的关键词利用Lucene的倒排索引找到FAQ库中含有该关键词的问句,通过判断该问句和用户问句的类别是否相同,计算Num j值( Num j值为FAQ库中第j个问句和用户问句之间的接近程度),根据Num j的大小选出较大的前50%的问句(该比例可调)作为候选问题集;(3)针对几种问句相似度算法进行了介绍和对比,利用相似度算法对候选问题集中的问句和用户问句逐一进行相似度计算,并选出其中相似度较大的问句所对应的答案输出返回给用户;最后简单介绍了利用朴素贝叶斯算法对那些用户提问FAQ库中没有的问题进行分类从而方便FAQ库的更新。(4)利用上述研究成果,从而实现新生问答系统的原型。

全文目录


相似论文

  1. 针对教育视频的虚拟学习社区设计与实现,G434
  2. 英汉跨语言问答系统中的文档语义检索,TP391.1
  3. 领域知识对领域问答系统答案抽取影响研究,TP391.3
  4. 基于增量改进贝叶斯领域问句分类研究,TP391.3
  5. 问答对自动获取的研究,TP391.1
  6. 基于多Agent及元搜索技术的中文问答系统的研究和应用,TP391.1
  7. E-Learning系统中基于课程本体的用户兴趣模型挖掘,TP311.13
  8. 改进的语句相似度算法在问答系统中的应用研究,TP391.1
  9. 基于贝叶斯分类方法的中文问句分类研究,TP391.1
  10. 基于意义理解的问答系统设计与实现,TP311.52
  11. 中文问答系统中问题分析关键技术的研究,TP391.1
  12. 事实型中文问答系统中片段检索方法的研究,TP391.1
  13. 受限域问答系统文本检索研究,TP391.1
  14. 限定领域内问答系统的设计与实现,TP391.3
  15. 基于支持向量机的中文问题分类研究,TP18
  16. 中文问答系统中多策略答案抽取技术的研究,TP391.3
  17. 中文信息处理关键问题的研究,TP391.1
  18. 中—英文跨语言问答式信息检索技术研究,TP391.3
  19. 中文问答系统的研究与实现,TP391.3
  20. 基于动态本体知识库的问答系统的研究与实现,TP391.6

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com