学位论文 > 优秀研究生学位论文题录展示
基于停用词处理的汉语语音检索方法
作 者: 蒋斌
导 师: 李海峰
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 汉语语音检索 停用词 左右熵 音节lattice 向量空间模型
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 76次
引 用: 2次
阅 读: 论文下载
内容摘要
随着互联网和多媒体技术的发展,语音资料的数量迅速膨胀。快速有效地进行语音资料的检索变得越来越重要。语音检索作为语音识别研究中的一个新领域,其目的是在大量语音资源中搜索与用户给出的查询词(Query)相关联的语音段。它通过事先为语音资源建立索引,从而实现了基于语义内容的快速搜索。本文的主要工作是研究汉语语音检索系统的性能优化策略。针对语音资料中大量出现的停用词问题,本文引入了停用词处理技术。停用词被定义为在文档中出现频率很高,但是对实际的检索没有帮助的词。引入与检索内容无关的停用词,对于信息相关性的计算精度必然产生负面影响,从而制约检索的精度。由于语音检索的特殊性,本文采用左右熵的方法来进行停用词的选择。给出了停用词的选择算法,通过比较左右熵方法和词频方法可以看出,左右熵方法得到的停用词效果更好,更能反映上下文的情况。应用所提出的方法,本文给出完整的语音检索在线部分处理过程,包括利用音节Lattice建立索引,利用向量空间模型进行查询词和语音文档之间相似度的计算,最后根据相似度对查询结果排序,从而给出用户的查询结果。每个语音文档都由一个特征向量来表示,特征向量中的每个分量从语音文档对应的lattice中提取。通过搜索每个lattice,从中提取所有音节和相邻音节对的声学分来形成语音文档的特征向量。由于语音识别的不准确性以及汉语中一音多字现象的存在,本文提出对特征向量中出现的停用词音节序列加入惩罚因子,以降低其在特征向量中的权重。通过试验比较,惩罚因子取值为0.1。在检索的过程中,通过计算查询词和文档特征向量的余弦相似度来进行相关性的评定。通过实验分析系统的检索性能可以看出,经过停用词处理对系统性能得到了较好的改进。本文主要贡献:提出了基于左右熵方法的停用词选择算法,比较好地实现了在音节Lattice中自动选择停用词。提出了基于停用词惩罚方法的向量空间模型改进方法,使得检索性能有较大改善。
|
全文目录
摘要 4-5 Abstract 5-9 第1章 绪论 9-15 1.1 课题背景 9-10 1.2 相关工作的国内外研究现状 10-15 1.2.1 ASR识别器 10-11 1.2.2 停用词选择及意义 11-12 1.2.3 基于子词lattice的检索模型 12-13 1.2.4 论文的主要内容及其组织 13-15 第2章 语音识别的基本框架 15-30 2.1 概述 15-16 2.2 连续语音识别系统 16-27 2.2.1 预处理与特征提取 16-19 2.2.2 声学模型 19-27 2.3 音节Lattice 27-29 2.4 本章小结 29-30 第3章 语音检索中停用词处理 30-40 3.1 停用词概念 30-31 3.2 停用词的选择 31-32 3.2.1 基于词频的选择方法 31 3.2.2 基于熵的选择方法 31-32 3.2.3 基于联合熵的选择方法 32 3.3 基于音节Lattice的停用词选择 32-36 3.3.1 熵的基本原理 33-34 3.3.2 左右熵基本原理 34-36 3.4 实验及分析 36-39 3.5 本章小结 39-40 第4章 基于停用词处理的语音检索 40-59 4.1 检索模型介绍 40-45 4.1.1 布尔模型 40-41 4.1.2 隐含语义索引模型 41 4.1.3 概率模型 41-43 4.1.4 向量空间模型 43-45 4.2 语音检索中的向量空间模型 45-50 4.2.1 索引特征项的选择 46-47 4.2.2 索引特征项的赋权 47-49 4.2.3 相似度计算 49 4.2.4 检索性能评价 49-50 4.3 对向量空间模型的分析 50-52 4.4 实验及分析 52-58 4.4.1 语料库 52-53 4.4.2 音节识别器的识别性能 53-54 4.4.3 语音检索基线系统的建立 54-56 4.4.4 基于停用词处理的系统改进 56-58 4.5 本章小结 58-59 结论 59-60 参考文献 60-63 附录 63-65 致谢 65
|
相似论文
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 应用于搜索引擎的人物分类系统设计与实现,TP391.3
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- Web新闻热点发现系统的设计与实现,TP393.09
- 多角色社交网络研究,TP393.09
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 基于MapReduce的分布式文本数据过滤技术研究与系统实现,TP391.1
- 中文文本倾向性分类系统研究,TP391.1
- 基于多Agent及元搜索技术的中文问答系统的研究和应用,TP391.1
- 基于改进向量空间模型的网络信息检索研究,TP391.3
- 基于ICVSM的摘要抽取算法研究,TP391.1
- 以博客内容为对象的个性化搜索研究,TP391.3
- 主题搜索引擎的研究与设计,TP391.3
- 基于支持向量机的水电故障分类器的设计与实现,TV738
- 自适应教学科研信息推送服务模型研究,TP393.09
- 企业搜索引擎中网页分类技术的研究与实现,TP393.092
- 面向农业信息服务平台的挖掘技术研究,TP311.13
- 中文文本聚类算法的研究与实现,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|