学位论文 > 优秀研究生学位论文题录展示

基于潜在语义对偶空间的跨语言文本分类研究

作 者: 熊超
导 师: 王明文
学 校: 江西师范大学
专 业: 计算机应用技术
关键词: 跨语言分类 潜在语义对偶空间 潜在语义对 平行语料库
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 17次
引 用: 0次
阅 读: 论文下载
 

内容摘要


据统计,互联网上在线发布的网页早已达到亿数量级,并以每天百万页的速度在增长。用户在需要克服语言障碍的同时,如何准确地在Internet这样一个开放式的数据库中找到相关信息,变得越来越困难。因此,利用计算机对大量的多语言文本信息进行自动分类和检索已经变得尤为的重要。在大规模文本处理中,分类主要用于文本的组织,尤其对于海量的文本信息资源。利用分类将相关的文本组织在一起,便于文本处理和发现新颖有效的知识模式。现如今网络上各种语言的网页资源都非常丰富,跨语言的文本分类的出现使得人们可以更好的共享因特网上的多语言的信息资源。随着网络资源多语化趋势的加快,跨语言文本分类技术得到不断的发展。目前,跨语言研究主要有基于文献翻译、基于双语辞典和基于语料库等方法[1]。文献翻译的方法所需处理时间长,计算量较大,加重了计算负荷和时间花销。另外,机器翻译的水平仍然较低,正确率还有待于提高,不能令人满意。目前大多数研究都是基于双语辞典和译词选择方法[2]。而基于语料库的方法是从大规模语料库入手,从中抽取需要的信息,自动构建与应用相关的翻译技术[3],这样就能解决翻译歧义、辞典覆盖度不够的问题。所以基于语料库的潜在语义标引方法引入到了跨语言分类中[6]。结果有较大提高,但需构造跨语言的词间相似度矩阵,算法的空间和时间复杂度较大。本文采用基于语料库的方法,应用统计学相关理论[7][8],研究基于潜在语义对偶空间的跨语言文本分类模型。运用偏最小二乘方法对文档的特征矩阵提取潜在语义对,由此构建语义层面的对偶空间,将有类标信息的语料库投影到此空间,以训练分类器。该方法避免了由翻译带来的歧义性等问题,而利用同一种概念来表达多语言的文档,达到消除语言障碍的目的。实验中通过改变训练集样本大小及语言构成来验证模型的分类性能。实验结果表明,基于潜在语义对偶空间的跨语言文本分类具有良好的稳定性和准确度。

全文目录


中文摘要  3-4
英文摘要  4-8
1 引言  8-11
  1.1 研究背景  8-9
  1.2 跨语言文本分类的研究意义及其应用  9-10
  1.3 论文组织  10-11
2 跨语言文本分类概述  11-18
  2.1 文本分类  11-16
    2.1.1 文本分类的基本流程  11-16
  2.2 跨语言文本分类  16-18
    2.2.1 跨语言文本分类研究现状  16-18
3 偏最小二乘理论  18-24
  3.1 偏最小二乘回归  18
  3.2 模型工作目标  18-19
  3.3 计算方法推导  19-22
  3.4 成分确定方法  22-24
4 基于潜在语义对偶空间的跨语言文本分类  24-31
  4.1 流程分析  24-25
  4.2 潜在语义对偶空间  25-26
  4.3 潜在语义对的提取  26-30
    4.3.1 原理  26-27
    4.3.2 数学推导  27-28
    4.3.3 潜在语义对模型提取算法  28-30
  4.4 基于潜在语义对偶空间的跨语言文本分类  30-31
5 实验设计和分析  31-38
  5.1 实验设计  31
  5.2 实验数据集  31-33
  5.3 实验结果及分析  33-38
    5.3.1 潜在语义对数的确定  33-35
    5.3.2 训练集大小不同下分类模型与其他分类方法的比较  35-36
    5.3.3 使用中英文混合语料库测试CLTC性能  36-38
6 总结与展望  38-40
  6.1 总结  38
  6.2 未来工作  38-40
参考文献  40-44
致谢  44

相似论文

  1. 基于语料库的莎士比亚戏剧汉译本中Lord人际意义显化研究,H315.9
  2. 英汉平行语料库句子级对齐研究及其在机器翻译中的应用,H315.9
  3. 跨语言词汇语义相似度计算研究,TP391.1
  4. 基于平行语料库的翻译教学与翻译能力的提高,H059
  5. 基于潜在中间语义的多语言信息检索研究,TP391.3
  6. 基于文本挖掘的翻译知识自动获取研究,TP391.1
  7. 基于语料库的楚辞英译本对比研究,H315.9
  8. 基于语料库的情态动词英汉翻译研究,H315.9
  9. 基于语料库的军事装备术语的翻译研究,H315.9
  10. 《儒林外史》中带标记的被动句英译研究,H315.9
  11. 专用汉英平行语料库在新疆外宣翻译中的应用,H315.9
  12. 政论在句子和词汇层面的翻译特征研究,H059
  13. 基于语料库的莎士比亚戏剧汉译本逻辑关系显化研究,I046
  14. 基于语料库的莎士比亚戏剧汉译本中情态的人际意义再现研究,I046
  15. 汉英文本对应单位转换分析—语料库驱动研究,H09
  16. 专用平行语料库在提高学员军事翻译能力中的应用,H059
  17. 可比较语料库的研究与构建,TP391.1
  18. 基于语料库的国际海事公约中条件句翻译的描述性研究,H315.9
  19. 《西厢记》熊译本与许译本典故翻译的对比研究,H315.9
  20. Web双语平行语料自动获取及其在统计机器翻译中的应用,TP391.2

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com