学位论文 > 优秀研究生学位论文题录展示
基于DCC动态流通语料库的中文组织名考察与研究
作 者: 陈慧
导 师: 张普
学 校: 北京语言大学
专 业: 语言学及应用语言学
关键词: 中文组织名 DCC动态流通语料库 中文组织名资源库 命名实体识别 国家语言资源监测 语言规范化
分类号: H136
类 型: 博士论文
年 份: 2008年
下 载: 145次
引 用: 0次
阅 读: 论文下载
内容摘要
中文组织名是组织的专有名称。本文首次基于大规模真实文本,对中文组织名进行了宏观到微观、历时动态到共时静态的多角度考察研究。本研究将为中文信息处理提供有效资源和规则知识,为中文组织名命名标准制定及组织名、域名注册管理提供参考,为语言资源监测的深入发展探索新的方向。本文取得了以下较有特色的研究成果:一、界定了中文组织名的内涵和外延,厘清它与非中文组织名的界限,从中心词角度提出中文组织名形式化分类体系。二、基于DCC动态流通语料库建立了中文组织名研究语料库,建立中文组织名资源库。语料库选取2002—2006年六份主流报纸熟语料,共计1,360,416个文本,8,750,105种词、247,257,749个词、16亿字节。中文组织名资源库包括三个主数据库和五个子数据库。三个主数据库是:①《中文组织名原始信息库》,记录3,954,716个组织名识别结果及其词性标记(ORG、AORG)、文本领域属性、时间属性、上下文窗口等原始属性。②《中文组织名总表》,记录615,681种组织名识别结果,进行中心词标记和二次分词,记录字长、词长、频次等统计数据。③《中文组织名分布信息库》,记录615,681种组织名识别结果的频率、累加频率、文本散布数、领域分布数、报纸分布数、年度分布数等统计数据。五个子数据库分别是:①《中文组织名用字库》:记录《中文组织名总表》全部5,241种23,130,786个字符。②《中文组织名用词库》:记录《中文组织名总表》前60万组织名使用的36类70,110种2,352,589个词。③《中文组织名禁用词库》:记录11类组织名禁用词性、6类组织名禁用字符串及三大实词中的禁用词。④《常用中文组织名库》:经人工校对获得15,970条正确组织名,累加频率70%。⑤《中文组织名简称全称对照词表》:从《中文组织名总表》获取的3000对简称全称。三、考察了中文组织名分布特征,从频率、字长、领域、年度、报纸等角度考察组织名分布情况。提出并研究中文组织名“领域表征值”及其对文本分类和通用词研究的意义。四、研究中文组织名的结构、成分、缩略和上下文搭配。提出中文组织名的两种结构模式,分析四类结构成分的形式、性质、规则条件,提出组织名缩略的九项原则和组织名简称识别方法,确定了中文组织名的三类上下文搭配形式及其在消歧、浅层句法分析方面的应用价值。最后应用规则知识,提出中文组织名识别的实用方案,并进行了具体实验。实验表明,禁用词性自动过滤85475种识别错误组织名,占种数13.92%;禁用词自动过滤44,307种识别结果,占种数7.20%;非组织名中心词自动过滤了11,711种识别结果,占种数1.9%,占总数9.2%。五、提出动态监测中文组织名的意义和方法,以“年度组织名监测”为例进行了监测实验。六、整理分析中文组织名命名、使用中的不规范现象及新问题,提出了具体的规范化建议。下一步我们将进一步完善资源库建设,应用语义词典等外部资源对禁用词、分类体系、内部结构模式进行深入研究。
|
全文目录
摘要 3-5 Abstract 5-13 第一章 绪论 13-27 1.1 本研究的目标与内容 13 1.2 本研究的背景与动机 13-16 1.3 本研究的理论基础与工作平台 16-22 1.3.1 语言的动态与稳态 16-18 1.3.2 语料库语言学与动态流通语料库 18-21 1.3.3 国家语言资源监测 21-22 1.3.4 中文分词标注系统 22 1.4 本研究的意义 22-27 1.4.1 中文信息处理 22-23 1.4.2 语言资源监测 23-24 1.4.3 汉语语言学 24 1.4.4 语言规范化 24-25 1.4.5 社会管理 25-27 第二章 中文组织名的识别 27-41 2.1 中文组织名识别的意义 27-28 2.2 中文组织名识别技术研究 28-32 2.3 中文组织名识别的困境 32-36 2.4 对策:语言研究与资源库建设 36-38 2.5 面向识别的中文组织名资源建设现状 38-40 2.6 本章小结 40-41 第三章 中文组织名的界定与资源建设 41-61 3.1 中文组织名的界定 41-47 3.1.1 内涵 41-43 3.1.2 外延 43-45 3.1.3 组织名、非组织名的区分 45-47 3.2 语料库 47-51 3.3 中文组织名资源库 51-57 3.4 中文组织名识别系统和中文组织名辅助校对系统 57-60 3.5 本章小结 60-61 第四章 中文组织名分布特征考察 61-78 4.1 频率分布 61-63 4.2 领域分布 63-70 4.3 历时分布 70-72 4.4 报纸分布 72-74 4.5 字长分布 74-77 4.6 本章小结 77-78 第五章 中文组织名的规则知识研究 78-158 5.1 中文组织名规则知识研究综述 78-80 5.2 中心词 80-96 5.2.1 非中文组织名中心词 83-85 5.2.2 小概率中文组织名中心词 85-87 5.2.3 单义组织名中心词 87-89 5.2.4 兼类组织名中心词 89-94 5.2.5 中文组织名简称中心词 94-96 5.3 中文组织名形式化分类 96-105 5.4 中文组织名的结构模式 105-111 5.5 中文组织名用字研究 111-116 5.6 中文组织名识别结果用词概貌 116-118 5.7 中文组织名用词研究 118-130 5.7.1 中文组织名识别结果中的词性 118-123 5.7.2 中文组织名识别结果中的字符串 123-127 5.7.3 三大实词的中文组织名禁用词 127-130 5.8 中文组织名构成成分研究 130-138 5.8.1 地名 130-132 5.8.2 字号 132-135 5.8.3 内容说明成分研究 135-138 5.9 中文组织名的缩略规则 138-145 5.9.1 《中文组织名简称全称对照词表》 138-139 5.9.2 中文组织名缩略的理论原则 139-145 5.10 中文组织名的上下文规则 145-155 5.11 中文组织名规则知识在识别中的应用 155-157 5.12 小结 157-158 第六章 中文组织名动态监测 158-168 6.1 国家语言资源及其监测的意义 158 6.2 国家语言资源监测工作综述 158-160 6.3 中文组织名动态监测的意义 160-162 6.4 中文组织名动态监测的方法探索 162-164 6.5 实验:基于中文组织名资源库的年度组织名监测 164-167 6.6 本章小结 167-168 第七章 中文组织名的规范化 168-182 7.1 中文组织名规范化研究的内容和原则 168-169 7.1.1 中文组织名规范化研究的内容 168 7.1.2 中文组织名规范化研究的原则 168-169 7.2 中文组织名规范化研究的意义 169-171 7.2.1 中文组织名规范化与中文信息处理 170 7.2.2 中文组织名规范化与社会文明 170-171 7.2.3 中文组织名规范化与依法治国 171 7.3 中文组织名命名的规范化 171-178 7.3.1 中文组织名中心词的规范 171-174 7.3.2 中文组织名地名的规范化 174-175 7.3.3 中文组织名字号的规范化 175-176 7.3.4 中文组织名内容说明成分的规范化 176-178 7.4 中文组织名使用的规范化研究 178-181 7.4.1 中文组织名的拼写规范 178-179 7.4.2 一实多名与一名多实 179-180 7.4.3 中文组织名规范化面临的新问题 180-181 7.5 本章小结 181-182 第八章 结束语 182-185 8.1 全文总结 182-183 8.2 进一步的工作 183-185 参考文献 185-193 附录 193-235 读博期间科研成果 235-236 致谢 236-237
|
相似论文
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 基于本体的医学命名实体识别技术研究,TP391.1
- 基于CRF的命名实体和关系的联合抽取,TP391.4
- 基于点击数据和搜索结果片断的命名实体挖掘,TP391.3
- 中文命名实体识别与歧义消解研究,TP391.1
- 论立法语言的模糊性,D90-055
- 中文命名实体识别及若干相关问题的研究,TP391.41
- 基于条件随机场的中文命名实体识别研究,TP391.4
- 基于条件随机场的中文命名实体识别,TP391.43
- 本地搜索领域POI缩略词词典的研究,TP391.3
- 基于分类器融合的生物医学命名实体与关系识别研究,TP391.4
- 汉英双向时间数字和数量词的识别与翻译技术,TP391.2
- 《WTO协定》中译本之语误分析,D996.1
- 基于CRF的中文命名实体识别研究,TP391.43
- 基于Internet的商业信息抽取,TP399-C2
- 统计机器翻译中命名实体处理研究,TP391.2
- 科技文献语义标注系统研究,TP391.1
- 规则与统计相结合的音乐领域命名实体识别,TP391.4
- 基于规则的命名实体识别研究,TP391.1
- 基于CRF的中文地名识别研究,TP391.43
- 体育领域信息抽取系统的研究,TP391.1
中图分类: > 语言、文字 > 汉语 > 语义、词汇、词义(训诂学) > 现代词汇
© 2012 www.xueweilunwen.com
|