学位论文 > 优秀研究生学位论文题录展示

基于词频统计的齐夫定律汉语适用性研究

作 者: 何凤远
导 师: 王修力
学 校: 安徽大学
专 业: 汉语言文字学
关键词: 词频统计 齐夫第一定律 齐夫第二定律 汉语适用性
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 65次
引 用: 0次
阅 读: 论文下载
 

内容摘要


本文所要解决的主要问题是通过对大规模中文文本语料的词频统计和分析,对包括齐夫第一定律和齐夫第二定律在内的齐夫定律进行汉语适用性的验证研究。本文分为五章来开展研究工作:第一章是对词频统计进行总体介绍和概述,厘清词频统计的定义与特性,阐述词频统计国外和国内的发展历程,介绍论文研究的目的、意义和内容。第二章是对本文研究的主旨——齐夫定律的发展历程的研究,阐释了本文研究的理论背景和指导思想,从数理上对齐夫定律进行了推导和演示,并回顾了国内对于齐夫定律以及齐夫定律的汉语适用性的研究。第三章是通过对大规模文本语料的词频统计和分析,验证齐夫第一定律的汉语适用性。文章首先对词级和词序进行定义区分,为接下来的实验扫清方法障碍;接着通过实验1对词级确定方法进行验证和比较,挑选出较为适合的词级确定方法;然后通过实验2对实验1所用语料进行人工分词和统计,以比较计算机手段分词统计与人工手段之间的差别,验证计算机手段的可行性和可信度;最后通过实验3对大规模文本语料进行词频统计和分析,绘出六大分语料库的齐夫分布曲线及齐夫对数分布曲线,并同齐夫第一定律中所绘出的理想的齐夫分布曲线和理想的齐夫对数分布曲线相比较,以判断齐夫第一定律的汉语适用性。第四章则是对齐夫第二定律进行大规模文本语料的验证与分析,以确定低频词段中文词频分布的规律,及其对齐夫第二定律的适用性。文章首先阐述了齐夫第二定律的发展历程,及其与齐夫第一定律的区别和联系;接着设定了实验4,首先统计出五大分语料库语料的同频词数和同频词数对数,然后通过齐夫第二定律,对同频词数进行理论推导,计算出预测值同频词数和预测值同频词数对数,最后提出绘制五大语料库各自的同频词数分布曲线、同频词数对数分布曲线、预测值同频词数分布曲线和预测值同频词数对数分布曲线,并互相比较,以求判断齐夫第二定律的汉语适用性。第五章则是结语,对本文所做的统计和验证工作进行总结,对未来可以继续开展的工作进行展望。在对六大分语料库进行齐夫分布研究后,我们发现,大规模中文文本语料的词频分布在高频词和中频词阶段符合齐夫第一定律的分布,而低频词段的词频分布则与齐夫第二定律的分布规律更为吻合。相应地,大规模中文文本语料的低频词段的词频分布较之于齐夫第一定律所描述的线性递降趋势有很大偏差,呈现出抛物线状下降的状态;在其中高频词段的词频分布与齐夫第二定律所描述的分布规律也不相似,呈阶梯状下降趋势。这也从侧面反映出齐夫第一定律和齐夫第二定律各自适用的范围与区间。最终本文得出结论,大规模中文文本语料符合齐夫定律的分布。

全文目录


摘要  3-5
Abstract  5-11
第一章 词频统计概述  11-20
  1.1 词频统计简介  11-12
    1.1.1 词频统计及其作用  11
    1.1.2 词频统计的类型与特点  11-12
  1.2 国内外词频统计的发展历程  12-17
    1.2.1 国外词频统计的发展历程  12-13
    1.2.2 国内词频统计的发展历程  13-17
  1.3 论文研究的目的、意义和结构  17-20
    1.3.1 论文研究的目的  17
    1.3.2 论文研究的意义  17-18
    1.3.3 论文研究的结构  18-20
第二章 齐夫定律的发展研究  20-34
  2.1 齐夫定律的发展历程  20-28
    2.1.1 艾斯杜的发现  21
    2.1.2 贡东公式  21-23
    2.1.3 齐夫定律的定义  23-27
    2.1.4 朱斯的双参数公式  27
    2.1.5 芒代耳布罗的三参数公式  27-28
  2.2 齐夫第二定律  28
  2.3 齐夫定律的指导思想——最省力法则  28-30
    2.3.1 "最省力法则"的提出过程  29
    2.3.2 "最省力法则"的内容  29-30
  2.4 国内对于齐夫定律的研究  30-34
第三章 齐夫第一定律的汉语适用性研究  34-66
  3.1 确定词语等级方法的采用  34-48
    3.1.1 区分词级与词序  34-35
    3.1.2 词级确定方法  35-36
    3.1.3 实验1:各种词级确定方法的检验  36-48
      3.1.3.1 实验1的设定  36
      3.1.3.2 实验1的结果  36-46
      3.1.3.3 实验1的分析  46-47
      3.1.3.4 冯志伟先生"破碎折线说"的验证  47-48
  3.2 实验2:计算机分词统计与人工分词统计的效果对比  48-52
    3.2.1 实验2的设定  48-49
    3.2.2 实验2的结果  49-52
    3.2.3 实验2的分析  52
  3.3 大规模文本语料的检验  52-64
    3.3.1 关于大规模文本语料的定义  52-54
      3.3.1.1 语料库的定义  52-53
      3.3.1.2 文本的定义  53
      3.3.1.3 大规模文本的定义  53-54
    3.3.2 实验3的设定  54-55
      3.3.2.1 实验3所用语料库  54-55
      3.3.2.2 实验3后期人工去噪的原则  55
    3.3.3 实验3的结果  55-61
    3.3.4 实验3的分析  61-64
      3.3.4.1 齐夫分布曲线的分析  62
      3.3.4.2 齐夫对数分布曲线的分析  62-64
  3.4 本章小结  64-66
第四章 齐夫第二定律的汉语适用性研究  66-81
  4.1 齐夫第二定律的发展  66-67
    4.1.1 齐夫的推论  66
    4.1.2 布什的推导  66-67
  4.2 实验4齐夫第二定律的汉语适用性验证  67-81
    4.2.1 实验4的设定  67-68
    4.2.2 实验4的步骤  68
    4.2.3 实验4的结果  68-78
    4.2.4 实验4的分析  78-81
      4.2.4.1 同频词数分布曲线与预测值同频词数分布曲线  79
      4.2.4.2 同频词数对数分布曲线与预测值同频词数对数分布曲线  79-81
第五章 结论  81-83
  5.1 本文研究总结  81-82
  5.2 需要进一步开展的工作  82-83
参考文献  83-87
致谢  87-88
攻读学位期间发表的学术论文  88

相似论文

  1. 基于云计算的海量数据存储技术的研究及应用,TP333
  2. 《万历野获编》分词理论与实践,H141
  3. 《水浒传》词频分析,H131
  4. 社会网络分析在学科热点分析中的实证研究,G350
  5. 基于词典的中文分词技术研究,TP391.1
  6. 一种中文未登录词识别及词典设计新方法,TP391.1
  7. 商品市场行情资讯语言特征研究,H195
  8. 基于文本挖掘技术的论文抄袭判定研究,TP391.1
  9. 基于篇章结构的抄袭论文识别系统的研究与实现,TP311.52
  10. 基于N元分析与词频统计的文本复合标引研究,G254.361
  11. 基于短文本的分类算法研究,TP391.1
  12. 我国知识产权科学论文的文献计量研究,G353.1
  13. 建湖方言词汇研究,H172.4
  14. 中文信息检索分类技术的研究,TP391.3
  15. 英汉语广告的词汇比较研究,H315
  16. 面向中文网络信息检索的自动分词系统设计与算法实现,TP391.3
  17. 基于语料库的东台方言特色词释义,H172.4
  18. 现代维吾尔语语料库词频统计实验性研究,H215
  19. 基于支持向量机的中文分词系统的研究,TP391.1
  20. 基于词频统计的文本分类模型研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com