学位论文 > 优秀研究生学位论文题录展示

汉语财经评论的修辞结构标注及篇章研究

作 者: 乐明
导 师: 冯志伟
学 校: 中国传媒大学
专 业: 语言学及应用语言学
关键词: 自然语言理解 现代汉语 篇章语料库 修辞结构理论 新闻评论 财经新闻
分类号: H15
类 型: 博士论文
年 份: 2006年
下 载: 534次
引 用: 4次
阅 读: 论文下载
 

内容摘要


篇章标注是国际语言资源建设的一个前沿内容。本文遵循国际篇章语料库的建设方法,通过先建立一个较大规模的以语篇为单位的汉语财经评论篇章语料库,然后在修辞结构理论(Rhetorical Structure Theory,RST)的指导下对语料进行了预处理、切分、标注、核查和统计分析,并研究了汉语篇章的修辞结构与表层语言信息之间的各种量化关系,试图为对比语言学和将来建立更大的、自动处理的篇章语料库做些基础工作。在进行汉语篇章修辞结构树库建设的具体工作之前,我们首先从理论上比较了从英语研究发展出来的RST和汉语相关的传统复句、句群、语篇和文章学研究,认为两者在关于篇章结构的基本假设和很多具体问题的结论上都非常相似,但是RST理论在坚持语言的交际观、强调作者交际意图与篇章单元修辞意义的核心性地位的关联性、强调语言结构层级的同质性,以及篇章修辞结构的形式化表达等方面具有比较突出的特点。因此,在总结了RST汉语研究和国际篇章修辞结构树库的建设成绩之后,我们认为有可能也有必要利用该理论对汉语篇章进行基于语料库的实证研究。为此,我们建立了一个含400篇,约80万字的汉语财经评论篇章语料库(Caijingpinglun,CJPL)。该语料库在语料选材上与英语WSJ-RST树库和德语的PCC树库有比较好的可类比性。不过由于语料直接取自网页,存在一些字符编码、文字编辑以及网页上传等问题,所以我们采取了各种比较谨慎的预处理步骤,将网页文档全部转换成有统一编码的文本文档,以保证后续处理的精度和效率。在预处理程序后,标注者首先在文本文档的基础上(同时参考原始网页文档),用普通读者的眼光对全部篇章语料进行了基本信息标注,包括各篇文章的体裁、题材、标题、导语、开头、结尾、出处、作者、来源等,并籍此对语料有了较好的了解。接着,我们依靠选定的篇章基本分析单元(Elementary Unit of Discourse Analysis,EUDA)边界标示符,由机器统一完成了语料的切分。在选定句号、问号、叹号、段落结束标记、分号、冒号、省略号和破折号等篇章单元边界标示符之前,我们对语料中标点符号的分布进行分析。分析显示这些标点符号不仅在绝大多数情况下正确地标示了篇章单元的边界,而且能够保证后续的关系标注具有较小的颗粒度。更为重要的是,根据这些选定的篇章边界符号完成切分之后,我们不再需要对切分结果进行人工干预,只需对极个别切分结果进行粘合,保证了处理的效率和正确率。在完成切分之后,标注者试验性地标注了所有文章各篇章单元之间的修辞关系,以至整个篇章的修辞结构树构造,从修辞结构角度对语料有了更进一步的理解。在该阶段结束的时候,我们筛除了2个存在严重编辑问题的文档和3个以口语性对话为主的长篇电视采访记录文档。从评论语料的实际出发,我们定义了12大组47种汉语的修辞关系和19种新闻篇章组织元素,并拟定了汉语篇章关系标注的工作守则,其中包括可能存在歧义时的修辞关系优先选用原则和一些特殊现象的处理方案。在设立关系和对关系进行定义的时候,我们不仅参考了多个英语、德语、汉语版本的修辞关系集及定义,也参考了汉语复句、句群和语篇研究的相关成果。另外,我们还对一些可能有所争议的切分标记和关系定义进行了一项心理语言学的调查。根据调查结果,又调整了部分关系的定义和关系优先选用顺序。在上述工作的基础上,我们按随机平均抽样原则选取了197篇语料,分2遍完成了对其中较短的97篇文章在EUDA(相当于分号句)及以上层级的修辞关系标注,为每个篇章建立一个覆盖整个文本的篇章修辞结构树,并执行了树结构有效性核查。根据两个版本的修辞结构标注,我们统一了最后的标注(第3遍),然后进行了随机抽样的标注者一致性测试。我们还在不参考修辞结构标注结果的情况下,为97篇语料单独标注了句间篇章提示标记(包括句间关联词语、句间回指指示词和回指代词、有篇章作用的标点符号)。之后,我们利用这些标注结果提取了数据,分析了这些评论语篇各个层级的结构特点、修辞关系的分布和篇章提示语的修辞功能。这项语料库驱动的数据分析显示,1)遵循一定的原则,汉语财经评论绝大多数(93.1%)都能用树结构作大致的形式化表示;2)我们所定义的修辞关系基本上都能被反复地用来连接在各个层级的篇章单元,显示出汉语篇章具有较好的结构层级同质性。3)扩展的经典RST关系集(Mann and Thompson 1988,Mann 2005)在汉语财经评论的篇章单元间关系的覆盖比例为90.4%,余下的关系也基本都可以用已知关系的核心性变异类型来表示。4)汉语财经评论的总体篇章树形,在CJPL语料库中以后段对第一段展开分说的头并卫结构(14.4%)为最多,其次是后段对第一段展开分说并逐步增加其他意思的头降卫结构(13.4%)、先述后评的中降卫结构(13.4%)和逐步展开最后得出结论的尾升卫结构(11.3%)。5)在CJPL语料库中,全文总体表示证明和评价的占53.6%,全文总体表示阐述、解释信息的占46.4%。这一数据说明国内新闻界对评论的社区定义与语言学界从理论角度对论证文的定义有一定的区别。6)虽然财经评论正文中的修辞关系有很多是多核心的,但单核心的核心-卫星模式仍占主导地位,占全部关系总数的64.6%。7)和汉语复句前偏后正的主导性结构不同,汉语评论文在分号句及以上层次中卫星-核心结构与核心-卫星结构的比例为46.16%:53.84%,核心性和篇章单元的次序之间没有明显的关联。8)以议论为主的“媒体财经评论”和以消息报道为主的“新闻联播”在各种关系的分布频率上有些差异,显示出语类对于修辞关系分布的影响。9)汉语评论语篇使用句间关联词语的频率28.5%,其中使用频率最高的连词为“而”;句间关联词语被较多地用于并加-M关系和罗列-M关系;10)一些关系,如附加-S关系、让步-S/-N关系、罗列-M关系等,常有关联词语标示;而另一些关系,如方式-S关系、引述-S关系、评价-M关系、解答关系-M/-S等,几乎没有关联词语表示。11)一些常见的关联词语在语料库中都有句内句外的用法,只是分布上有些差异,有些主要在句间(如“然而”),有些主要在句内(如“如果”)。12)语篇中存在一些句间关联词语连用的现象,大致可以分为强调(或缓和)语气、交叉限制关系和分辖上下文三种类型,其中最后一种类型实际上就是多重复句的关系间包孕能力在句以上单元间的扩展。13)汉语财经评论文最常用的句间回指指示词是“这”和各种带“这”的词语。14)一些标点符号,如问号、分号、冒号等,在汉语篇章中有明显的标示篇章单元间修辞关系的作用,而且与修辞关系核心性的关联度很高。15)虽然一些篇章提示标记(包括关联词语、回指词、标点符号和段落标记等)在汉语篇章中与某些修辞关系有比较强的关联性,但它们之间并不存在一种一一对应的映射关系。16)利用英、德、西等其他语言RST研究的数据,我们发现,修辞关系的有标频率在很多语种中都比较低,而且都常出现在较低的篇章层级单元之间。一些修辞关系,如让步、条件等有标的比例在各个语种中都比较高,而另一些关系,如评价、背景、详述、解答等的有标比例则都比较低。不过具体的比例和各种标记具体所能限制的关系的类型在各个语种之间略有不同。17)汉语篇章结构树的局部子树中存在一种比较特殊的螺旋型的结构。这一结构形式中,一个篇章单元总是与一个离其较远的单元发生修辞关系,而不是与其直接邻居发生修辞关系。如果这就是Kaplan(1966)所谓的圆周型(Circular)结构,且如果将来更多的语篇标注结果显示这一局部子树的结构形式有比较显著的频率,那么将说明Kaplan(1966)关于汉语篇章圆周型结构的假设有其正确的一面。18)汉语篇章修辞结构的层级同质性、汉语篇章结构中核心-卫星模式的主导地位以及经典RST关系集在汉语中的覆盖率都从实证角度说明了RST理论在汉语中的可移用性。虽然汉语财经评论树库的建设目前只取得了阶段性的进展,但我们认为,这一研究在中文信息处理、篇章理论研究和社会文化研究等方面都具有现实意义。首先,汉语财经评论树库的构建,可以为自然语言工程界提供篇章剖析所需的各类先验系数,帮助他们改进现有的汉语自动文摘模型,并为现有汉语自动篇章剖析算法提供训练和测试的平台。有了汉语RST树库,也就有了借鉴应用英语、德语等其他语种的篇章处理技术的物质基础,将帮助中文信息处理尽快地缩小与其他语言信息处理的差距。其次,我们对汉语财经评论语料的标注研究,在较大规模数据的基础上检验了修辞结构理论及其形式化方法在汉语中的可移用性。同时,我们也从篇章修辞结构的角度,拓展了汉语篇章提示标记的研究视野。如果有类比性好的语料库,也可以进行语言对比研究、语类对比研究等。另外,虽然语料库建设目前还很少用来为人文社会科学提供资源,我们还是可以预见它的广阔用途,比如基于大规模语料库的语用事实挖掘。在语料库基础上对汉语新闻评论做语言学性质的研究也会是一片广阔的天空。

全文目录


摘要  3-6
Abstract  6-17
1 引言  17-21
  1.1 篇章语料库建设的意义  17
  1.2 现代汉语RST篇章树库建设的方法  17-18
  1.3 现代汉语RST篇章树库建设的初步成果  18-19
  1.4 本文结构  19-21
2 研究背景  21-51
  2.1 RST理论简介  21-31
    2.1.1 发展历史  21-22
    2.1.2 核心内容  22-28
      2.1.2.1 基本假设  22-23
      2.1.2.2 核心概念  23-24
      2.1.2.3 关系集  24-25
      2.1.2.4 树图分析  25-28
      2.1.2.5 RST标注工具  28
    2.1.3 与其他理论的关系  28-29
    2.1.4 应用简介  29-30
    2.1.5 讨论和批评  30-31
  2.2 国际RST篇章树库建设现状综述  31-34
    2.2.1 英语WSJ-RST篇章树库  31-32
    2.2.2 带修辞结构信息的德语PCC语料库  32-33
    2.2.3 篇章RST结构的自动标注尝试  33-34
  2.3 RST汉语研究  34-38
    2.3.1 Cui,参与理论创建  34
    2.3.2 语言学界的引介和应用  34-35
    2.3.3 中文信息处理学界对RST的应用  35-36
    2.3.4 小结  36-38
  2.4 汉语相关研究比较  38-51
    2.4.1 RST基本假设与汉语研究成果相符  38-40
      2.4.1.1 传统文章学  38
      2.4.1.2 语法研究  38-39
      2.4.1.3 句群研究  39
      2.4.1.4 现代汉语篇章研究  39-40
    2.4.2 RST的核心思想和汉语相关研究观点相似  40-44
      2.4.2.1 “关系”的概念  40
      2.4.2.2 篇章单元的概念和基本篇章单元的设定  40-41
      2.4.2.3 篇章单元的组合方式  41
      2.4.2.5 两种主要的关系结构类型  41-42
      2.4.2.6 关系的主要类型和命名方式  42-43
      2.4.2.7 修辞关系和关联词语的关系  43
      2.4.2.8 关系层级的同质性  43-44
      2.4.2.9 形式化表达方式  44
    2.4.3 汉语传统研究与RST研究的主要区别  44-49
      2.4.3.1 语言观的差异导致研究目的和分析角度不同  44-45
      2.4.3.2 研究目的不同导致分析单元不同  45-46
      2.4.3.3 关系类型、划分标准和定义格式不同  46-47
      2.4.3.4 是否提出核心性概念及核心性与篇章连贯的关联  47-48
      2.4.3.5 对篇章结构的层级同质性的强调程度不同  48
      2.4.3.6 形式化差异  48-49
    2.4.4 小结  49-51
3 方法论和语料处理  51-135
  3.1 语料选择  51-53
  3.2 预处理  53-57
    3.2.1 预处理程序  53
    3.2.2 具体问题处理  53-56
      3.2.2.1 系统性编码差异  53-54
      3.2.2.2 非系统性错误  54-56
    3.2.3 预处理结果  56
    3.2.4 小结  56-57
  3.3 EUDA的定义、切分和合并  57-64
    3.3.1 EUDA边界符的选择  57-61
      3.3.1.1 逗号  58
      3.3.1.2 分号  58-59
      3.3.1.3 冒号  59
      3.3.1.4 省略号  59-60
      3.3.1.5 破折号  60
      3.3.1.6 空格  60
      3.3.1.7 括号  60-61
      3.3.1.8 引号  61
    3.3.2 添加自动切分标记  61-62
    3.3.3 对过度切分的合并  62-63
    3.3.4 相关研究  63
    3.3.5 小结  63-64
  3.4 汉语RST关系的定义及讨论  64-114
    3.4.1 汉语RST关系的定义及实例  64-100
    3.4.2 RST关系集相关研究综述  100-111
      3.4.2.1 RST关系集的演变  100-104
       3.4.2.2 汉语相关研究中的关系分类  104-110
      3.4.2.3 小结  110-111
    3.4.3 有关汉语修辞关系定义的心理语言学测试  111-114
      3.4.3.1 测试动机  111
      3.4.3.2 测试内容  111
      3.4.3.3 测试时间  111
      3.4.3.4 测试对象  111
      3.4.3.5 测试结果  111-112
      3.4.3.6 讨论  112-114
  3.5 CJPL语料库篇章组织元素标记集  114-118
    3.5.1 篇章组织元素实例  114-115
    3.5.2 篇章组织元素定义  115-118
  3.6 现代汉语篇章标注特殊现象处理守则  118-131
    3.6.1 非树结构的处理  118-120
    3.6.2 树形选择  120-122
    3.6.3 修辞关系间优先选用协议  122-124
    3.6.4 核心单元的确定  124
    3.6.5 句内关系的确定  124-126
    3.6.6 多重关系的处理  126-128
    3.6.7 过渡句(段)的处理  128-130
    3.6.8 其他一些特殊句式的处理  130
    3.6.9 标记集的组合使用  130-131
  3.7 树库的建设过程描述  131-133
  3.8 小结  133-135
4 数据分析  135-157
  4.1 中文财经评论的篇章结构特点  135-145
    4.1.1 CJPL的总体修辞结构  135-137
    4.1.2 CJPL语篇正文根节点的关系  137
    4.1.3 CJPL语篇标题和正文之间的关系  137-138
    4.1.4 CJPL语篇的开头和结尾特点  138
    4.1.5 CJPL的段落层次  138-140
    4.1.6 各关系在CJPL语篇中的分布  140-141
    4.1.7 和汉语电视新闻报导语料库的比较  141-143
    4.1.8 小结  143-145
  4.2 篇章提示标记在修辞结构中的作用  145-157
    4.2.1 关联词语  145-153
      4.2.1.1 句间关联词语和修辞关系  146-147
      4.2.1.2 最高频的句间关联词语  147-148
      4.2.1.3 若干常见复句连词的句内句外用法比较  148-151
      4.2.1.4 句间关联词语的叠用  151-152
      4.2.1.5 小结  152-153
    4.2.2 句间回指与修辞关系  153-154
    4.2.3 标点符号的篇章修辞作用  154-156
      4.2.3.1 问号  154
      4.2.3.2 叹号  154-155
      4.2.3.3 分号  155
      4.2.3.4 冒号  155-156
      4.2.3.5 省略号  156
      4.2.3.6 破折号  156
    4.2.4 小结  156-157
5 讨论  157-167
  5.1 对汉语篇章的讨论  157-162
    5.1.1 树作为汉语篇章结构的形式化模型  157
    5.1.2 汉语篇章修辞关系的种类  157-158
    5.1.3 有关联词语标记的修辞关系  158-159
    5.1.4 汉语篇章结构特点  159-160
    5.1.5 汉语篇章修辞结构的层级同质性  160-162
  5.2 对修辞结构理论的讨论  162-167
    5.2.1 修辞关系的分类体系  162-165
      5.2.1.1 对关系集结构的讨论  162-163
      5.2.1.2 “主题性-表述性”关系的区分  163-165
    5.2.2 修辞结构理论在汉语中的可移用性  165
    5.2.3 修辞关系标注的客观性和歧义  165-167
6 结语和将来的工作  167-171
  6.1 结语  167-170
    6.1.1 关于财经评论的篇章结构  167
    6.1.2 关于现代汉语篇章的一般性质  167-168
    6.1.3 关于修辞结构理论及其形式化方法  168
    6.1.4 关于此项研究的意义  168-170
  6.2 将来的工作  170-171
7 附录  171-195
  附录1 CJPL汉语篇章修辞结构树库所使用的关系标记表  171-173
  附录2 2005 年RST网站公布的修辞关系及主题性-表述性分类  173-174
  附录3 RSTTool软件开发者O’Donnell设立的修辞关系集  174-175
  附录4 Marcu等人在英语RST树库标注中使用的RR关系表  175-178
  附录5 现代汉语篇章结构分析(RSA)关系定义调查表  178-187
  附录6 三单元篇章的基本结构图  187-189
  附录7 标注样例  189-194
  附录8 样例的修辞结构树图  194-195
参考文献  195-207
致谢词  207-208

相似论文

  1. 面向领域的数据库问答系统关键技术研究,TP311.13
  2. 现代汉语招呼语研究,H136
  3. 现代汉语中的日语词汇研究,H136.5
  4. 主观题自动评分技术研究,TP391.1
  5. 现代汉语语境的解释功能与对外汉语教学,H195
  6. 英汉新闻评论中元话语使用之对比分析,H136
  7. 汉英一价动词对比研究,H314
  8. 都市类报纸评论周刊对政治民主化进程的促进作用分析,G212
  9. 当前我国报纸财经新闻数据使用探析,G212
  10. 英汉环境类新闻语篇修辞关系对比研究,H15
  11. 基于信息依存语言模型的英汉被动结构对比研究,H314.3
  12. 现代汉语“数+形+量”结构研究,H146
  13. 《现代汉语词典》第5版所收新词语特点探究,H136
  14. 汉英语基本颜色词对比及其对对外汉语教学的启示,H195
  15. 现代汉语标题结构类型的计算机自动分析,H087
  16. 网络新闻评论对传统新闻评论的突破与互动研究,G212
  17. 建筑图中有限自然语言的分析与理解的研究,TU204
  18. 英语新闻评论的特点与翻译,H315.9
  19. 论英语财经新闻的语言经济性,H315
  20. 现代汉语中字母词的语用分析,H136
  21. 新疆少数民族学生现代汉语方位词习得研究,H146

中图分类: > 语言、文字 > 汉语 > 写作、修辞
© 2012 www.xueweilunwen.com