学位论文 > 优秀研究生学位论文题录展示
基于条件随机场的中文分词技术的研究与实现
作 者: 鲁骁
导 师: 谭运猛
学 校: 华中科技大学
专 业: 通信与信息系统
关键词: 中文分词 条件随机场 机器学习
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 65次
引 用: 0次
阅 读: 论文下载
内容摘要
互联网中日益庞大的海量信息给信息处理带来了极大的挑战,尤其是在中文信息处理领域,其中最为重要的一个就是对中文分词技术的要求。中文分词的主要目的就是将中文语句解析为具有正确含义的词语的组合,从而使得计算机可以理解句子的意义,信息索引、自动摘要、文本分类、自动聚类、文本纠错、手写输入、智能应答等各个领域中对信息处理的第一步都是中文分词,所以加强对中文分词技术的研究具有极为重要的意义。本文运用条件随机场统计模型将中文分词中的词语切分问题成功转换为汉字的组合构词问题,主要是引入了汉字词位的概念,通过对汉字词位的标注使其能够依照词位组合的规则进行词语合并,整个过程通过机器学习训练的方法加以实现,不仅提高了分词的准确度,还能使分词工作摆脱对词典的依赖。本文运用JAVA语言实现了基于条件随机场的分词系统,首先对真实语料库特征信息进行统计,建立了可扩展可维护的特征信息库,然后运用viterbi算法对词位序列求最优解,在实现viterbi算法的过程中引入了规则限制以去掉无效的组合,从而降低了viterbi算法的计算量。在实验阶段,运用真实语料库进行训练和测试,并编写了高效的性能评测算法对系统的分词结果进行分析。本文的研究方法可以通过汉字的词位组合规律来识别未登录词,从而可以在未登录词的识别问题上做更进一步的研究。
|
全文目录
摘要 4-5 Abstract 5-8 1 绪论 8-11 1.1 课题背景 8-9 1.2 中文分词技术研究现状 9 1.3 论文研究目的 9-10 1.4 论文结构安排 10-11 2 中文分词相关技术介绍 11-16 2.1 中文分词技术 11-12 2.2 条件随机场 12-13 2.3 主要技术难点 13-15 2.4 分词效果评测技术 15 2.5 本章小结 15-16 3 基于条件随机场的中文分词系统设计方案 16-27 3.1 分词系统设计思路 16-18 3.2 分词系统功能需求分析 18-19 3.3 分词系统总体结构 19-20 3.4 分词系统设计方案 20-26 3.5 本章小结 26-27 4 基于条件随机场的中文分词系统详细实现 27-49 4.1 语料预处理模块实现 27-30 4.2 机器学习模块实现 30-35 4.3 系统输入模块实现 35-37 4.4 系统识别模块实现 37-41 4.5 内容转换输出模块实现 41-43 4.6 性能评测模块实现 43-48 4.7 本章小结 48-49 5 实验结果及分析 49-55 5.1 系统测试环境 49-52 5.2 实验结果 52-54 5.3 结果分析 54 5.4 本章小结 54-55 6 总结与展望 55-56 6.1 论文工作总结 55 6.2 后续工作展望 55-56 致谢 56-57 参考文献 57-60
|
相似论文
- 基于数据分布特征的文本分类研究,TP391.1
- 基于空间邻域词袋模型的图像标注技术,TP391.41
- 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 主观题自动评分技术研究,TP391.1
- Android恶意软件静态检测方案的研究,TP309
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 监督主题模型的研究与应用,TP391.1
- 中文XML压缩技术研究,TP311.11
- 基于失真效应的图像质量评价与分类,TP391.41
- 基于学习的逆向运动学人体运动合成,TP391.41
- 基于内容的网页恶意代码检测的研究与实现,TP393.092
- 学术主页信息抽取系统的研究,TP393.092
- 社会化网络中的推荐算法及其应用,TP391.3
- 数据挖掘在邮件反垃圾系统中的应用,TP393.098
- 基于条件随机场的RNA二级结构预测算法,R346
- 基于自学习的社会关系抽取的研究,TP391.1
- 基于统计与图模型的若干机器学习算法及其应用,TP181
- P2P流量识别方法研究,TP393.06
- 基于粗糙集和SVM的国防生综合素质测评方法研究,E075
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|