学位论文 > 优秀研究生学位论文题录展示

基于半监督结构化学习的跨语言词性标注研究

作 者: 胡鹏龙
导 师: 赵铁军
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 词性标注 半监督学习 跨语言映射 协同学习 标签传播
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 32次
引 用: 0次
阅 读: 论文下载
 

内容摘要


自然语言处理技术在当今信息时代取得了巨大的成功,人们的生活方方面面都离不开自然语言处理技术。随着人们文化交流的需要,对一些小语种也有自然语言处理需求,往往这些语言的标注资源稀缺,限制了自然语言技术在这些语言上的发展。人们尝试使用将标注资源丰富的语言信息映射到标注资源稀缺的语言上的跨语言映射的方法。本文使用多种半监督结构化学习的技术,借助双语平行语料的词对齐关系,研究跨语言词性标注任务。本文首先把跨语言学习问题定为半监督结构化问题,使得所有的跨语言学习问题都纳入到这个框架下。然后,本文提出了跨语言直接词性标注的方法,根据词对齐关系将源语言的词性直接传递到目标语言,考虑了在没有目标语言标注数据和有少量目标语言标注数据情况下的算法。同时,研究了词对齐过滤方法,使用两种词对齐过滤融合的方法,使得跨语言映射准确率得到提高。本文又提出了协同学习在跨语言词性标注的框架,将协同学习推广到结构化学习上,研究了序列标注模型的置信度计算的问题以及词对齐种类对跨语言词性标注的影响。实验结果表明使用一对一对齐策略和基于片段的数据更新更新方法,可以得到较好的结果。最后,本文采用标签传播算法,根据词上下文信息构建词相似度图,减少由跨语言直接映射引发的噪声问题。在此过程中使用奇异值分解技术对词特征进行降维,以减少特征稀疏问题造成的影响。最后将标签传播过程估计的词性分布作为约束加入到马尔科夫随机场中。实验结果表明,我们提出的协同学习方法和标签传播算法在跨语言词性标注任务上都取得了成功,比直接映射和用少量目标语言标注数据的有监督序列标注模型效果都好。

全文目录


摘要  4-5
Abstract  5-9
第1章 绪论  9-16
  1.1 课题来源  9
  1.2 课题背景及意义  9-11
  1.3 相关工作研究现状  11-14
    1.3.1 词性标注研究现状  11-12
    1.3.2 跨语言映射研究现状  12-13
    1.3.3 半监督结构化学习在自然语言处理中的应用  13-14
  1.4 本文主要研究内容  14
  1.5 论文主要组织结构  14-16
第2章 跨语言词性标注的直接映射方法  16-29
  2.1 跨语言词性标注标准  16
  2.2 词性标注评价标准  16-17
  2.3 跨语言映射的半监督结构化学习定义  17-19
  2.4 跨语言直接映射的方法  19-21
    2.4.1 直接映射算法(无标注数据)  20-21
    2.4.2 直接映射算法(有标注数据)  21
  2.5 词对齐和句对齐过滤方法  21-25
  2.6 实验设置和实验结果  25-27
  2.7 本章小结  27-29
第3章 基于协同学习的跨语言词性标注方法  29-39
  3.1 相关机器学习算法  29-33
    3.1.1 协同学习方法  29-30
    3.1.2 条件马尔科夫随机场  30-33
  3.2 基于协同学习的跨语言词性标注框架  33-35
  3.3 实验和实验分析  35-38
  3.4 本章小结  38-39
第4章 基于标签传播的跨语言词性标注方法  39-52
  4.1 相关机器学习算法  39-43
    4.1.1 链式马尔科夫随机场  39-41
    4.1.2 标签传播算法  41-43
  4.2 算法描述  43-49
    4.2.1 图的建立  43-45
    4.2.2 奇异值分解  45-47
    4.2.3 词性标注标签传播算法  47-48
    4.2.4 用马尔可夫随机场进行词性标注  48-49
  4.3 实验与分析  49-51
  4.4 本章小结  51-52
结论  52-53
参考文献  53-57
攻读硕士学位期间发表的学术论文及其他成果  57-59
致谢  59-60
附录  60-62

相似论文

  1. 应用层协议识别和还原方法的研究与实现,TP393.08
  2. 李群深层结构学习算法研究,TP181
  3. 指纹图像分割方法评价与半监督学习在指纹图像分割中的应用研究,TP391.41
  4. 《汉语水平词汇等级大纲》甲级词汇词性标注研究,H146
  5. 半监督学习方法研究,TP181
  6. 基于语素的汉语词法分析方法研究,TP391.1
  7. 基于半监督SVM的入侵检测研究,TP393.08
  8. 基于统计NLP技术的甲骨卜辞的分析研究,TP391.1
  9. 面向金融问答的论坛观点挖掘,TP391.3
  10. 基于HMM的藏语语料库词性自动标注研究,H214
  11. LSA与SOM相结合的文本聚类算法应用研究,TP391.1
  12. 基于局部泛化误差的半监督图像检索方法,TP391.41
  13. 半监督学习方法及应用研究,TP181
  14. 基于多目标函数改进的多核学习在半监督学习和迁移学习场景中的应用,TP181
  15. 汉语词类划分与词性标注方法的研究,TP391.1
  16. 基于Ajax的协同学习虚拟社区的设计研究,TP391.6
  17. 科学教育共同体基于博客的协同学习,G434
  18. 基于平行语料库的无监督中文词性标注研究,TP391.1
  19. 面向语音合成的维吾尔语韵律层级自动标注算法研究,TN912.33
  20. 汉英机器翻译中趋向动词的处理,H315.9
  21. 面向对外汉语教学的现代汉语时间副词研究,H195

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com