学位论文 > 优秀研究生学位论文题录展示

基于DCC动态流通语料库的中文组织名考察与研究

作 者: 陈慧
导 师: 张普
学 校: 北京语言大学
专 业: 语言学及应用语言学
关键词: 中文组织名 DCC动态流通语料库 中文组织名资源库 命名实体识别 国家语言资源监测 语言规范化
分类号: H136
类 型: 博士论文
年 份: 2008年
下 载: 145次
引 用: 0次
阅 读: 论文下载
 

内容摘要


中文组织名是组织的专有名称。本文首次基于大规模真实文本,对中文组织名进行了宏观到微观、历时动态到共时静态的多角度考察研究。本研究将为中文信息处理提供有效资源和规则知识,为中文组织名命名标准制定及组织名、域名注册管理提供参考,为语言资源监测的深入发展探索新的方向。本文取得了以下较有特色的研究成果:一、界定了中文组织名的内涵和外延,厘清它与非中文组织名的界限,从中心词角度提出中文组织名形式化分类体系。二、基于DCC动态流通语料库建立了中文组织名研究语料库,建立中文组织名资源库。语料库选取2002—2006年六份主流报纸熟语料,共计1,360,416个文本,8,750,105种词、247,257,749个词、16亿字节。中文组织名资源库包括三个主数据库和五个子数据库。三个主数据库是:①《中文组织名原始信息库》,记录3,954,716个组织名识别结果及其词性标记(ORG、AORG)、文本领域属性、时间属性、上下文窗口等原始属性。②《中文组织名总表》,记录615,681种组织名识别结果,进行中心词标记和二次分词,记录字长、词长、频次等统计数据。③《中文组织名分布信息库》,记录615,681种组织名识别结果的频率、累加频率、文本散布数、领域分布数、报纸分布数、年度分布数等统计数据。五个子数据库分别是:①《中文组织名用字库》:记录《中文组织名总表》全部5,241种23,130,786个字符。②《中文组织名用词库》:记录《中文组织名总表》前60万组织名使用的36类70,110种2,352,589个词。③《中文组织名禁用词库》:记录11类组织名禁用词性、6类组织名禁用字符串及三大实词中的禁用词。④《常用中文组织名库》:经人工校对获得15,970条正确组织名,累加频率70%。⑤《中文组织名简称全称对照词表》:从《中文组织名总表》获取的3000对简称全称。三、考察了中文组织名分布特征,从频率、字长、领域、年度、报纸等角度考察组织名分布情况。提出并研究中文组织名“领域表征值”及其对文本分类和通用词研究的意义。四、研究中文组织名的结构、成分、缩略和上下文搭配。提出中文组织名的两种结构模式,分析四类结构成分的形式、性质、规则条件,提出组织名缩略的九项原则和组织名简称识别方法,确定了中文组织名的三类上下文搭配形式及其在消歧、浅层句法分析方面的应用价值。最后应用规则知识,提出中文组织名识别的实用方案,并进行了具体实验。实验表明,禁用词性自动过滤85475种识别错误组织名,占种数13.92%;禁用词自动过滤44,307种识别结果,占种数7.20%;非组织名中心词自动过滤了11,711种识别结果,占种数1.9%,占总数9.2%。五、提出动态监测中文组织名的意义和方法,以“年度组织名监测”为例进行了监测实验。六、整理分析中文组织名命名、使用中的不规范现象及新问题,提出了具体的规范化建议。下一步我们将进一步完善资源库建设,应用语义词典等外部资源对禁用词、分类体系、内部结构模式进行深入研究。

全文目录


摘要  3-5
Abstract  5-13
第一章 绪论  13-27
  1.1 本研究的目标与内容  13
  1.2 本研究的背景与动机  13-16
  1.3 本研究的理论基础与工作平台  16-22
    1.3.1 语言的动态与稳态  16-18
    1.3.2 语料库语言学与动态流通语料库  18-21
    1.3.3 国家语言资源监测  21-22
    1.3.4 中文分词标注系统  22
  1.4 本研究的意义  22-27
    1.4.1 中文信息处理  22-23
    1.4.2 语言资源监测  23-24
    1.4.3 汉语语言学  24
    1.4.4 语言规范化  24-25
    1.4.5 社会管理  25-27
第二章 中文组织名的识别  27-41
  2.1 中文组织名识别的意义  27-28
  2.2 中文组织名识别技术研究  28-32
  2.3 中文组织名识别的困境  32-36
  2.4 对策:语言研究与资源库建设  36-38
  2.5 面向识别的中文组织名资源建设现状  38-40
  2.6 本章小结  40-41
第三章 中文组织名的界定与资源建设  41-61
  3.1 中文组织名的界定  41-47
    3.1.1 内涵  41-43
    3.1.2 外延  43-45
    3.1.3 组织名、非组织名的区分  45-47
  3.2 语料库  47-51
  3.3 中文组织名资源库  51-57
  3.4 中文组织名识别系统和中文组织名辅助校对系统  57-60
  3.5 本章小结  60-61
第四章 中文组织名分布特征考察  61-78
  4.1 频率分布  61-63
  4.2 领域分布  63-70
  4.3 历时分布  70-72
  4.4 报纸分布  72-74
  4.5 字长分布  74-77
  4.6 本章小结  77-78
第五章 中文组织名的规则知识研究  78-158
  5.1 中文组织名规则知识研究综述  78-80
  5.2 中心词  80-96
    5.2.1 非中文组织名中心词  83-85
    5.2.2 小概率中文组织名中心词  85-87
    5.2.3 单义组织名中心词  87-89
    5.2.4 兼类组织名中心词  89-94
    5.2.5 中文组织名简称中心词  94-96
  5.3 中文组织名形式化分类  96-105
  5.4 中文组织名的结构模式  105-111
  5.5 中文组织名用字研究  111-116
  5.6 中文组织名识别结果用词概貌  116-118
  5.7 中文组织名用词研究  118-130
    5.7.1 中文组织名识别结果中的词性  118-123
    5.7.2 中文组织名识别结果中的字符串  123-127
    5.7.3 三大实词的中文组织名禁用词  127-130
  5.8 中文组织名构成成分研究  130-138
    5.8.1 地名  130-132
    5.8.2 字号  132-135
    5.8.3 内容说明成分研究  135-138
  5.9 中文组织名的缩略规则  138-145
    5.9.1 《中文组织名简称全称对照词表》  138-139
    5.9.2 中文组织名缩略的理论原则  139-145
  5.10 中文组织名的上下文规则  145-155
  5.11 中文组织名规则知识在识别中的应用  155-157
  5.12 小结  157-158
第六章 中文组织名动态监测  158-168
  6.1 国家语言资源及其监测的意义  158
  6.2 国家语言资源监测工作综述  158-160
  6.3 中文组织名动态监测的意义  160-162
  6.4 中文组织名动态监测的方法探索  162-164
  6.5 实验:基于中文组织名资源库的年度组织名监测  164-167
  6.6 本章小结  167-168
第七章 中文组织名的规范化  168-182
  7.1 中文组织名规范化研究的内容和原则  168-169
    7.1.1 中文组织名规范化研究的内容  168
    7.1.2 中文组织名规范化研究的原则  168-169
  7.2 中文组织名规范化研究的意义  169-171
    7.2.1 中文组织名规范化与中文信息处理  170
    7.2.2 中文组织名规范化与社会文明  170-171
    7.2.3 中文组织名规范化与依法治国  171
  7.3 中文组织名命名的规范化  171-178
    7.3.1 中文组织名中心词的规范  171-174
    7.3.2 中文组织名地名的规范化  174-175
    7.3.3 中文组织名字号的规范化  175-176
    7.3.4 中文组织名内容说明成分的规范化  176-178
  7.4 中文组织名使用的规范化研究  178-181
    7.4.1 中文组织名的拼写规范  178-179
    7.4.2 一实多名与一名多实  179-180
    7.4.3 中文组织名规范化面临的新问题  180-181
  7.5 本章小结  181-182
第八章 结束语  182-185
  8.1 全文总结  182-183
  8.2 进一步的工作  183-185
参考文献  185-193
附录  193-235
读博期间科研成果  235-236
致谢  236-237

相似论文

  1. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  2. 基于本体的医学命名实体识别技术研究,TP391.1
  3. 基于CRF的命名实体和关系的联合抽取,TP391.4
  4. 基于点击数据和搜索结果片断的命名实体挖掘,TP391.3
  5. 中文命名实体识别与歧义消解研究,TP391.1
  6. 论立法语言的模糊性,D90-055
  7. 中文命名实体识别及若干相关问题的研究,TP391.41
  8. 基于条件随机场的中文命名实体识别研究,TP391.4
  9. 基于条件随机场的中文命名实体识别,TP391.43
  10. 本地搜索领域POI缩略词词典的研究,TP391.3
  11. 基于分类器融合的生物医学命名实体与关系识别研究,TP391.4
  12. 汉英双向时间数字和数量词的识别与翻译技术,TP391.2
  13. 《WTO协定》中译本之语误分析,D996.1
  14. 基于CRF的中文命名实体识别研究,TP391.43
  15. 基于Internet的商业信息抽取,TP399-C2
  16. 统计机器翻译中命名实体处理研究,TP391.2
  17. 科技文献语义标注系统研究,TP391.1
  18. 规则与统计相结合的音乐领域命名实体识别,TP391.4
  19. 基于规则的命名实体识别研究,TP391.1
  20. 基于CRF的中文地名识别研究,TP391.43
  21. 体育领域信息抽取系统的研究,TP391.1

中图分类: > 语言、文字 > 汉语 > 语义、词汇、词义(训诂学) > 现代词汇
© 2012 www.xueweilunwen.com