学位论文 > 优秀研究生学位论文题录展示

语言节奏提取及其在文本分析中的应用

作 者: 陈钒
导 师: 冯志勇
学 校: 天津大学
专 业: 计算机应用技术
关键词: 语言节奏 Markov过程 复杂网络 文本分析
分类号: TP391.1
类 型: 博士论文
年 份: 2011年
下 载: 22次
引 用: 0次
阅 读: 论文下载
 

内容摘要


语言节奏是语言中广泛存在的一个重要特征,在语音识别、文学审美等诸多领域有广泛的研究与应用。语言节奏是一个复杂且综合的概念,每一个研究领域研究重点不同,对语言节奏的定义与分析方法各不相同,但目前还未有就语言中节奏信息具体量化的定义与分析。在此,本文综合多学科研究成果,通过对语言进行多方面分析与论证,提出了一套定义语言节奏和构建语言节奏的方法,并对生成的语言节奏进行特征提取与分析,在文本分析领域中得到了良好的应用。围绕语言节奏内容与应用的研究,本文主要进行了以下几个方面的工作:(1)通过对语言本质和本原进行研究与分析,完成了多层次语言节奏的定义。语言是综合而复杂的,在语言表达中涉及到生理特征、语法现象、情感内涵、逻辑关系等等诸多方面的内涵。虽然语言很复杂,但其是有规则的:语言中蕴含的这些丰富内容都具有一定节奏性特征,即可以从语言中节奏性表现出的特征,完成对语言中蕴含的更深层次内容分析。因此,语言节奏是语言的一个重要特征。本文将语言中存在的节奏划分为:自然节奏、语法节奏、逻辑节奏和情感节奏。针对四种节奏表现出的不同节奏特性,完成了这四种节奏的具体定义,且根据每一种节奏在语言中表现出的特性,完成了对其节奏标记的寻找与定义。深入的分析了每一种语言节奏的特征,对其存在的性质进行了具体的研究分析与论证。(2)完成了语言节奏提取方法的具体分析与设计。通过对语言节奏内涵和性质的具体分析与定义,根据语言中具有的节奏性特征,完成了语言节奏提取方法的具体研究分析与设计。针对语言中存在的自然节奏、语法节奏、逻辑节奏以及情感节奏各自特征,结合其在文本中存在的节奏标记,字距离等内容,完成了语言节奏单元、节奏序列等概念的具体定义,及各种语言节奏提取方法的描述与定义。且将各种语言节奏提取步骤进行了详细的阐述,同时对构建完成的语言节奏具有的性质进行了具体的分析。(3)完成了对语言节奏中存在的特征提取方法的研究与设计。根据语言节奏的中的节奏性特征,选取了两种不同的方法对语言节奏的特征进行提取。一是,通过构建语言节奏状态转移矩阵完成节奏特征提取,即随着文章的展开,语言节奏是不断发展变化的,也就是说语言节奏可以看成是在不同的状态之间不断转换的,通过构建语言节奏的状态转移矩阵可以完成对语言节奏状态变化之间存在的特征进行捕捉。二是,根据语言节奏中各节奏单元之间存在着邻接关系,提出了应用语言节奏网络完成对语言节奏特征的提取。完成了对语言节奏网络的定义与构建方法的具体描述。(4)将语言节奏特征分析的方法应用于不同的文本分析任务中,对语言节奏特征在文本分析中的有效性进行了实验验证。针对文本分析任务中文本分类、作者判别、作品文风判别、作者同一性判别以及话题判别任务,采用贝叶斯分类方法和K均值聚类方法,对实验中文档的语言节奏特征进行具体分析,实验结果良好。实验验证,通过对语言节奏的特征分析能够很好的解决文本分析领域中多种任务。(5)通过对语言节奏网络中存在的特性进行分析,完成了对语言中一些本质现象的探讨。通过对实验语料语言节奏网络的分析,得出语言节奏的网络是具有“小世界”特性的网络。通过对名著中语言节奏复杂网络特性分析,得出其具有平均距离短、聚类系数高显著的复杂网络特征,且具有平均距离聚类系数积值大的现象,完成了应用复杂网络分析方法找出名著中具有的相对显著特征。从对名家作品的语言节奏复杂网络分析,发现其同样具有平均距离短、聚类系数高,且平均距离聚类系数积值高的特征,从而从复杂网络分析的角度上完成了对作者语言掌控能力的分析。

全文目录


中文摘要  3-5
ABSTRACT  5-10
第一章 绪论  10-18
  1.1 问题的提出  10-11
  1.2 语言节奏的研究  11
  1.3 语言节奏的广泛内涵  11-13
  1.4 语言节奏的国内外研究应用领域和成果  13-14
  1.5 语言节奏也是文本的特征  14-16
  1.6 本文的主要任务  16
  1.7 论文的章节安排  16-18
第二章 语言节奏及其分类  18-43
  2.1 语言的内涵  18-20
  2.2 语言节奏的分析  20-22
    2.2.1 节奏  20-21
    2.2.2 语言节奏  21-22
  2.3 语言节奏的分类  22-43
    2.3.1 自然节奏  22-25
    2.3.2 语法节奏  25-32
    2.3.3 逻辑节奏  32-37
    2.3.4 情感节奏  37-43
第三章 语言节奏的构建  43-72
  3.1 自然节奏构建  43-50
    3.1.1 文字序列(Word Array,WA)  43-44
    3.1.2 自然节奏(Nature Rhythm)  44-47
    3.1.3 自然节奏生成步骤  47-48
    3.1.4 自然节奏性质  48-50
  3.2 语法节奏构建  50-62
    3.2.1 复杂文字序列(Complex Word Array,CWA)  50-51
    3.2.2 语法节奏(Grammar Rhythm)  51-58
    3.2.3 语法节奏生成步骤  58-59
    3.2.4 语法节奏性质  59-62
  3.3 逻辑节奏构建  62-67
    3.3.1 逻辑节奏(Logic Rhythm,LR)  63-64
    3.3.2 逻辑节奏生成步骤  64-65
    3.3.3 逻辑节奏性质  65-67
  3.4 情感节奏构建  67-72
    3.4.1 情感节奏(Emotion Rhythm,ER)  67-68
    3.4.2 情感节奏生成步骤  68-69
    3.4.3 情感节奏性质  69-72
第四章 语言节奏特征的提取  72-81
  4.1 语言节奏的 Markov 过程  72-74
    4.1.1 Markov 模型  72-73
    4.1.2 语言节奏的一阶 Markov 过程  73-74
  4.2 语言节奏状态转移矩阵构建  74-78
    4.2.1 语言节奏状态转移矩阵构建步骤  74-75
    4.2.2 构建简单一阶 Markov 状态转移矩阵  75-76
    4.2.3 构建复杂一阶 Markov 状态转移矩阵  76-78
  4.3 语言节奏中的字距离  78-81
    4.3.1 字距离的重要性  78
    4.3.2 字距离的复杂性  78-81
第五章 语言节奏随机模型在文本分析中的应用  81-104
  5.1 文本分析任务性能的评估  81-82
  5.2 语言节奏随机模型文档预处理的优势  82-83
  5.3 语言节奏特征差异性分析  83-93
    5.3.1 不同文体类型文章语言节奏存在显著差异  83-88
    5.3.2 不同作者间语言节奏之间的差异  88-91
    5.3.3 不同文风语言节奏之间的差异  91-93
  5.4 语言节奏特征同一性分析  93-104
    5.4.1 一篇文章作者同一性判别  93-100
    5.4.2 同一话题文章语言节奏的同一性分析  100-104
第六章 语言节奏网络及其性能分析  104-113
  6.1 语言节奏复杂网络构建  104-108
    6.1.1 复杂网络  104-105
    6.1.2 复杂网络的特征  105-106
    6.1.3 语言节奏复杂网络的定义  106-108
  6.2 语言节奏是复杂网络  108-110
  6.3 经典作品中语言节奏网络特性分析  110-111
  6.4 著名作者作品中语言节奏网络特性分析  111-113
第七章 结论与展望  113-115
参考文献  115-122
发表论文和科研情况说明  122-123
致谢  123

相似论文

  1. 复杂网络的建模分析及其应用,O157.5
  2. 基于复杂网络特征的SNS社交网站传播特征研究,G206
  3. 基于相似度传播聚类算法的地标路由算法研究,TP393.02
  4. 高中物理教材中关于科学过程的科学史内容分析,G633.7
  5. 复杂性制造供应链管理机制建模与应用研究,F224
  6. 科学素养目标在初中化学教科书中的呈现研究,G633.8
  7. 复杂网络社团结构探测研究,O157.5
  8. 理想n-深度派系网络模型及其在公交网络中的应用研究,U491.17
  9. 复杂网络上计算机病毒传播研究,TP393.08
  10. 基于社团结构发现的数据仓库主题抽取的研究,TP311.13
  11. 网络稳定性研究,O157.5
  12. 网络上有关谣言传播的一些研究,O211.67
  13. 基于复杂网络的疾病基因预测的研究,R346
  14. 后现代哲学思潮对台湾教育哲学的影响问题研究,G40-02
  15. 生产线服务业集聚的行业、区位差异仿真比较研究,F224
  16. 电网分析计算中的可视化技术研究,TM769
  17. 基于复杂网络的供应链建模与网络效率研究,O157.5
  18. 复杂网络中软件新产品信息扩散的延迟特征研究,O157.5
  19. 复杂网络中的社团发现算法研究,TP301.6
  20. 工程新闻报道的信息提取及应用研究,G212
  21. 基于软件影响网络的软件度量研究,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com