学位论文 > 优秀研究生学位论文题录展示

基于动态流通语料库（DCC）的汉语字母词语识别及考察研究

作　者: 郑泽芝
导　师: 张普
学　校: 北京语言大学
专　业: 语言学及应用语言学
关键词: 自然语言处理 DCC动态流通语料库 ELWP 字母词语字母串
分类号: H087
类　型: 博士论文
年　份: 2005年
下　载: 490次
引　用: 6次
阅　读: 论文下载

内容摘要

字母词语是汉语中出现的一种新型外来语(如:WTO、CT、OA等)和构词形式(如:HSK、GB、3C等),目前,它们在汉语中的使用呈现飙升的趋势,而且一定程度上存在使用形式混乱,同一个概念两岸四地有多种表示,如不及时发现、收集和规范,势必影响科技信息的理解、交流和汉语汉字的信息化发展。在大规模真实文本中对字母词语进行考察分析的结果是国家语言文字管理部门制订规范的一个重要依据。字母词语尤其是那些与汉字搭配组成专名、术语的字母词语,它们作为中文信息处理自动分词中的未登录词语,信息检索中的叙词,机器翻译中的翻译单位,自动分类、自动文摘、语音识别的关键词语和命名实体……,其正确识别与否,将直接影响到语言信息处理系统的召回率和准确率。为此,我们基于北京语言大学应用语言学研究所的DCC动态流通语料库,选择2002年全年的《人民日报》《北京青年报》《羊城晚报》网络版文本,共1亿66万字的语料,建立了字母词语考察语料库。在此基础上,对字母词语的使用状况进行考察,并寻找一种快速有效的字母词语识别方法。本文对字母词语的使用状况和字母词语的自动识别进行了较深入的分析和研究,取得了以下几项有特色的研究成果: (1) 提出了形式化的字母词语工程定义(ELWP~1)。这个定义从面向信息处理、面向字母词语考察的角度出发,对字母词语进行了工程界定(以下的字母词语均指ELWP),并通过字母词语自动提取系统和标注系统显示了该定义的可操作性。 (2) 通过对字母词语自身的特点和其出现的上下文语境的深入分析,提出了以字母串为中心的“中心扩展的规则+统计”的字母词语自动提取算法,并设计和实现了一个字母词语自动提取系统。实验结果表明该系统的正确率达到了82%左右。本系统还特别为字母词语双语对释的情况设计了编码系统,进行了专门的识别处理,从提取结果直接可以得到一批字母词语双语资源,目前已取得712条。 (3) 建立了56万字经人工校对的字母词语标注语料库,其语料可以用作字母词语自动识别和提取的训练语料与测试语料。 (4) 在自动提取规则集基础上,采用基于错误驱动的机器学习策略对已有规则

全文目录

第一章绪论  16-44
  1.1 字母词语的界定  16-20
    1.1.1 研究的目标  16
    1.1.2 字母词语的界定  16-20
    1.1.3 研究内容  20
  1.2 论文研究的意义  20-22
    1.2.1 字母词语研究对于词汇使用规范的意义  20-21
    1.2.2 字母词语研究对于中文信息处理的意义  21-22
  1.3 字母词语与汉语词汇  22-25
    1.3.1 新词语、外来语与字母词语的关系  22-24
    1.3.2 汉语系统对字母词语的接纳能力  24-25
  1.4 相关文献综述  25-41
    1.4.1 字母词语(字母词)的语言学方面研究综述  25-31
    1.4.2 自然语言处理中自动提取和自动识别方法概述  31-41
  1.5 本文的研究  41-42
  1.6 论文的组织  42-44
第二章 ELWP自动识别的理论探讨  44-51
  2.1 ELWP和术语、专名、基本名词短语的关系  44-46
    2.1.1 ELWP与汉语普通词汇  44
    2.1.2 ELWP与术语的关系  44-45
    2.1.3 ELWP与专有名词的关系  45-46
    2.1.4 ELWP和基本名词短语  46
  2.2 ELWP和标点符号  46-47
  2.3 字母串与汉字串搭配的分合问题  47-48
  2.4 ELWP的语形不规范问题  48
  2.5 ELWP边界歧义  48-49
  2.6 字母串的合法性与ELWP之间的分割问题  49
  2.7 ELWP一次性出现的原因  49-50
  2.8 小结  50-51
第三章 ELWP的自动提取模型  51-67
  3.1 语料的选择及知识的获取  51-54
    3.1.1 DCC动态流通语料库  51
    3.1.2 语料的选择标准  51-52
    3.1.3 知识的获取  52-54
  3.2 数据稀疏问题的处理  54-55
    3.2.1 数据稀疏问题的一般处理方法  54-55
    3.2.2 ELWP数据稀疏问题的处理策略  55
  3.3 研究的步骤  55-58
    3.3.1 字母词语的统计特征  56-58
  3.4 ELWP自动提取的算法  58-61
    3.4.1 自动提取流程图  58
    3.4.2 字母串的处理  58-59
    3.4.3 预切分处理  59
    3.4.4 基于规则的ELWP提取算法  59-60
    3.4.5 含成对标点的ELWP提取  60-61
    3.4.6 基于统计的ELWP提取  61
  3.5 实验结果  61-63
  3.6 该模型的优缺点  63-64
  3.7 ELWP辅助校对系统  64-66
    3.7.1 校对系统的目标  64
    3.7.2 字母词语辅助校对系统的设计与实现  64-66
  3.8 小结  66-67
第四章字母词语的自动标注模型  67-79
  4.1 引言  67
  4.2 采用错误驱动的学习方法获取字母词语识别的有关规则  67-72
    4.2.1 学习方法的确定  67-69
    4.2.2 本文的错误驱动算法  69-71
    4.2.3 本文的错误驱动算法与基于变换的错误驱动算法比较  71
    4.2.4 规则的获取  71-72
  4.3 ELWP搭配概率矩阵的获取  72-75
    4.3.1 几种抽词技术的分析  73-74
    4.3.2 DP系数与搭配概率矩阵的获取  74-75
  4.4 训练语料的标注  75
  4.5 自动标注算法  75-76
  4.6 实验及评测  76-78
    4.6.1 规则的获取实验  76
    4.6.2 自动标注ELWP实验及测试  76-77
    4.6.3 自动标注算法的缺陷及改进  77-78
  4.7 小结  78-79
第五章 ELWP概貌及统计分析  79-98
  5.1 ELWP的划分  79-80
  5.2 三种报纸ELWP的总体出现情况  80
  5.3 ELWP的不同报纸的情况对比  80-93
    5.3.1 《人民日报》中的ELWP  80-81
    5.3.2 《北京青年报》中的ELWP  81-88
    5.3.3 《羊城晚报》中的ELWP  88-91
    5.3.4 各报纸共同出现ELWP的情况  91-93
    5.3.5 小结  93
  5.4 ELWP的组成成分及出现类型  93-94
    5.4.1 ELWP中的组成成分  93
    5.4.2 ELWP的出现类型  93-94
  5.5 ELWP的来源分析  94-97
  5.6 小结  97-98
第六章 ELWP专项考察  98-123
  6.1 单字母ELWP考察  98-99
  6.2 带汉字多字母ELWP考察  99-101
  6.3 含数字ELWP考察  101-104
    6.3.1 数字在字母前的情形  102-103
    6.3.2 数字在字母后的情形  103-104
    6.3.3 含数字ELWP之管见  104
  6.4 ELWP双语同现现象  104-107
  6.5 字母词语的并列结构  107-109
  6.6 ELWP的标点符号使用情况分析  109-118
    6.6.1 ELWP中的标点符号  110
    6.6.2 ELWP中标点符号出现情况及问题  110-116
    6.6.3 与标点相关问题的处理  116-117
    6.6.4 小结  117-118
  6.7 字母串光杆使用状况考察  118-120
    6.7.1 字母串光杆使用状况  118-119
    6.7.2 ELWP原文缩略和汉语拼音成词问题  119-120
  6.8 字母词语的词性问题  120-121
  6.9 ELWP不规范现象分析  121-122
  6.10 小结  122-123
第七章字母词语释义初探  123-132
  7.1 引言  123
  7.2 字母词语释义的原则探讨  123-125
  7.3 字母词语释义模式的划分  125-127
  7.4 “是”字结构的字母词语释义模式  127-129
  7.5 字母词语释义自动提取的算法  129
  7.6 实验结果分析  129-131
  7.7 进一步的工作  131-132
第八章结语  132-138
  8.1 存在的问题  132-133
  8.2 几点思考  133-134
  8.3 余论：关于字母词语入典的量化计算的设想  134-138
参考文献  138-145
附录说明  145-146
附录1：字母词语校对标准  146-154
附录2：《人民日报》字母词语总表(5090条)样例  154-155
附录3：《北京青年报》字母词语总表(46400条)样例  155-156
附录4：《羊城晚报》字母词语总表(10580条)样例  156-157
附录5：《北京青年报》-《人民日报》差集字母词语表(45233条)样例  157-158
附录6：《人民日报》-《北京青年报》差集字母词语表(3923条)样例  158-159
附录7：《北京青年报》-《羊城晚报》差集字母词语表(44152条)样例  159-160
附录8：《羊城晚报》-《北京青年报》差集字母词语表(8332条)样例  160-161
附录9：《人民日报》-《羊城晚报》差集字母词语表(4423条)样例  161-162
附录10：《羊城晚报》-《人民日报》差集字母词语表(9913条)样例  162-163
附录11：《人民日报》∩《北京青年报》字母词语表(1167条)样例  163-164
附录12：《人民日报》∩《羊城晚报》字母词语表(667条)样例  164-165
附录13.《北京青年报》∩《羊城晚报》字母词语表(2248条)样例  165-166
附录14：《北京青年报》一次性出现字母词语表(33682条)样例  166-167
附录15：《人民日报》一次性出现字母词语表(4034条)样例  167-168
附录16：《羊城晚报》一次性出现字母词语表(7066条)样例  168-169
附录17：三种报纸交集字母词语表(544条)  169-183
附录18：《人民日报》单字母词语表(350条)样例  183-184
附录19：《人民日报》光杆字母词语(744条)样例  184-185
附录20：《人民日报》数字在前字母词语表(212条)样例  185-186
附录21：《人民日报》数字在后字母词语表(479条)样例  186-187
附录22：《人民日报》双语对照字母词语表(712条)样例  187-188
附录23：《人民日报》并列结构字母词语表(127条)  188-192
附录24：《北京青年报》散布数排前200位的字母词语(200条)样例  192-193
攻读博士学位期间发表的学术论文  193-194
致谢  194-195

基于动态流通语料库（DCC）的汉语字母词语识别及考察研究

内容摘要

全文目录

相似论文