学位论文 > 优秀研究生学位论文题录展示
基于动态流通语料库(DCC)的汉语字母词语识别及考察研究
作 者: 郑泽芝
导 师: 张普
学 校: 北京语言大学
专 业: 语言学及应用语言学
关键词: 自然语言处理 DCC动态流通语料库 ELWP 字母词语 字母串
分类号: H087
类 型: 博士论文
年 份: 2005年
下 载: 490次
引 用: 6次
阅 读: 论文下载
内容摘要
字母词语是汉语中出现的一种新型外来语(如:WTO、CT、OA等)和构词形式(如:HSK、GB、3C等),目前,它们在汉语中的使用呈现飙升的趋势,而且一定程度上存在使用形式混乱,同一个概念两岸四地有多种表示,如不及时发现、收集和规范,势必影响科技信息的理解、交流和汉语汉字的信息化发展。在大规模真实文本中对字母词语进行考察分析的结果是国家语言文字管理部门制订规范的一个重要依据。 字母词语尤其是那些与汉字搭配组成专名、术语的字母词语,它们作为中文信息处理自动分词中的未登录词语,信息检索中的叙词,机器翻译中的翻译单位,自动分类、自动文摘、语音识别的关键词语和命名实体……,其正确识别与否,将直接影响到语言信息处理系统的召回率和准确率。 为此,我们基于北京语言大学应用语言学研究所的DCC动态流通语料库,选择2002年全年的《人民日报》《北京青年报》《羊城晚报》网络版文本,共1亿66万字的语料,建立了字母词语考察语料库。在此基础上,对字母词语的使用状况进行考察,并寻找一种快速有效的字母词语识别方法。 本文对字母词语的使用状况和字母词语的自动识别进行了较深入的分析和研究,取得了以下几项有特色的研究成果: (1) 提出了形式化的字母词语工程定义(ELWP~1)。这个定义从面向信息处理、面向字母词语考察的角度出发,对字母词语进行了工程界定(以下的字母词语均指ELWP),并通过字母词语自动提取系统和标注系统显示了该定义的可操作性。 (2) 通过对字母词语自身的特点和其出现的上下文语境的深入分析,提出了以字母串为中心的“中心扩展的规则+统计”的字母词语自动提取算法,并设计和实现了一个字母词语自动提取系统。实验结果表明该系统的正确率达到了82%左右。本系统还特别为字母词语双语对释的情况设计了编码系统,进行了专门的识别处理,从提取结果直接可以得到一批字母词语双语资源,目前已取得712条。 (3) 建立了56万字经人工校对的字母词语标注语料库,其语料可以用作字母词语自动识别和提取的训练语料与测试语料。 (4) 在自动提取规则集基础上,采用基于错误驱动的机器学习策略对已有规则
|
全文目录
第一章 绪论 16-44 1.1 字母词语的界定 16-20 1.1.1 研究的目标 16 1.1.2 字母词语的界定 16-20 1.1.3 研究内容 20 1.2 论文研究的意义 20-22 1.2.1 字母词语研究对于词汇使用规范的意义 20-21 1.2.2 字母词语研究对于中文信息处理的意义 21-22 1.3 字母词语与汉语词汇 22-25 1.3.1 新词语、外来语与字母词语的关系 22-24 1.3.2 汉语系统对字母词语的接纳能力 24-25 1.4 相关文献综述 25-41 1.4.1 字母词语(字母词)的语言学方面研究综述 25-31 1.4.2 自然语言处理中自动提取和自动识别方法概述 31-41 1.5 本文的研究 41-42 1.6 论文的组织 42-44 第二章 ELWP自动识别的理论探讨 44-51 2.1 ELWP和术语、专名、基本名词短语的关系 44-46 2.1.1 ELWP与汉语普通词汇 44 2.1.2 ELWP与术语的关系 44-45 2.1.3 ELWP与专有名词的关系 45-46 2.1.4 ELWP和基本名词短语 46 2.2 ELWP和标点符号 46-47 2.3 字母串与汉字串搭配的分合问题 47-48 2.4 ELWP的语形不规范问题 48 2.5 ELWP边界歧义 48-49 2.6 字母串的合法性与ELWP之间的分割问题 49 2.7 ELWP一次性出现的原因 49-50 2.8 小结 50-51 第三章 ELWP的自动提取模型 51-67 3.1 语料的选择及知识的获取 51-54 3.1.1 DCC动态流通语料库 51 3.1.2 语料的选择标准 51-52 3.1.3 知识的获取 52-54 3.2 数据稀疏问题的处理 54-55 3.2.1 数据稀疏问题的一般处理方法 54-55 3.2.2 ELWP数据稀疏问题的处理策略 55 3.3 研究的步骤 55-58 3.3.1 字母词语的统计特征 56-58 3.4 ELWP自动提取的算法 58-61 3.4.1 自动提取流程图 58 3.4.2 字母串的处理 58-59 3.4.3 预切分处理 59 3.4.4 基于规则的ELWP提取算法 59-60 3.4.5 含成对标点的ELWP提取 60-61 3.4.6 基于统计的ELWP提取 61 3.5 实验结果 61-63 3.6 该模型的优缺点 63-64 3.7 ELWP辅助校对系统 64-66 3.7.1 校对系统的目标 64 3.7.2 字母词语辅助校对系统的设计与实现 64-66 3.8 小结 66-67 第四章 字母词语的自动标注模型 67-79 4.1 引言 67 4.2 采用错误驱动的学习方法获取字母词语识别的有关规则 67-72 4.2.1 学习方法的确定 67-69 4.2.2 本文的错误驱动算法 69-71 4.2.3 本文的错误驱动算法与基于变换的错误驱动算法比较 71 4.2.4 规则的获取 71-72 4.3 ELWP搭配概率矩阵的获取 72-75 4.3.1 几种抽词技术的分析 73-74 4.3.2 DP系数与搭配概率矩阵的获取 74-75 4.4 训练语料的标注 75 4.5 自动标注算法 75-76 4.6 实验及评测 76-78 4.6.1 规则的获取实验 76 4.6.2 自动标注ELWP实验及测试 76-77 4.6.3 自动标注算法的缺陷及改进 77-78 4.7 小结 78-79 第五章 ELWP概貌及统计分析 79-98 5.1 ELWP的划分 79-80 5.2 三种报纸ELWP的总体出现情况 80 5.3 ELWP的不同报纸的情况对比 80-93 5.3.1 《人民日报》中的ELWP 80-81 5.3.2 《北京青年报》中的ELWP 81-88 5.3.3 《羊城晚报》中的ELWP 88-91 5.3.4 各报纸共同出现ELWP的情况 91-93 5.3.5 小结 93 5.4 ELWP的组成成分及出现类型 93-94 5.4.1 ELWP中的组成成分 93 5.4.2 ELWP的出现类型 93-94 5.5 ELWP的来源分析 94-97 5.6 小结 97-98 第六章 ELWP专项考察 98-123 6.1 单字母ELWP考察 98-99 6.2 带汉字多字母ELWP考察 99-101 6.3 含数字ELWP考察 101-104 6.3.1 数字在字母前的情形 102-103 6.3.2 数字在字母后的情形 103-104 6.3.3 含数字ELWP之管见 104 6.4 ELWP双语同现现象 104-107 6.5 字母词语的并列结构 107-109 6.6 ELWP的标点符号使用情况分析 109-118 6.6.1 ELWP中的标点符号 110 6.6.2 ELWP中标点符号出现情况及问题 110-116 6.6.3 与标点相关问题的处理 116-117 6.6.4 小结 117-118 6.7 字母串光杆使用状况考察 118-120 6.7.1 字母串光杆使用状况 118-119 6.7.2 ELWP原文缩略和汉语拼音成词问题 119-120 6.8 字母词语的词性问题 120-121 6.9 ELWP不规范现象分析 121-122 6.10 小结 122-123 第七章 字母词语释义初探 123-132 7.1 引言 123 7.2 字母词语释义的原则探讨 123-125 7.3 字母词语释义模式的划分 125-127 7.4 “是”字结构的字母词语释义模式 127-129 7.5 字母词语释义自动提取的算法 129 7.6 实验结果分析 129-131 7.7 进一步的工作 131-132 第八章 结语 132-138 8.1 存在的问题 132-133 8.2 几点思考 133-134 8.3 余论:关于字母词语入典的量化计算的设想 134-138 参考文献 138-145 附录说明 145-146 附录1:字母词语校对标准 146-154 附录2:《人民日报》字母词语总表(5090条)样例 154-155 附录3:《北京青年报》字母词语总表(46400条)样例 155-156 附录4:《羊城晚报》字母词语总表(10580条)样例 156-157 附录5:《北京青年报》-《人民日报》差集字母词语表(45233条)样例 157-158 附录6:《人民日报》-《北京青年报》差集字母词语表(3923条)样例 158-159 附录7:《北京青年报》-《羊城晚报》差集字母词语表(44152条)样例 159-160 附录8:《羊城晚报》-《北京青年报》差集字母词语表(8332条)样例 160-161 附录9:《人民日报》-《羊城晚报》差集字母词语表(4423条)样例 161-162 附录10:《羊城晚报》-《人民日报》差集字母词语表(9913条)样例 162-163 附录11:《人民日报》∩《北京青年报》字母词语表(1167条)样例 163-164 附录12:《人民日报》∩《羊城晚报》字母词语表(667条)样例 164-165 附录13.《北京青年报》∩《羊城晚报》字母词语表(2248条)样例 165-166 附录14:《北京青年报》一次性出现字母词语表(33682条)样例 166-167 附录15:《人民日报》一次性出现字母词语表(4034条)样例 167-168 附录16:《羊城晚报》一次性出现字母词语表(7066条)样例 168-169 附录17:三种报纸交集字母词语表(544条) 169-183 附录18:《人民日报》单字母词语表(350条)样例 183-184 附录19:《人民日报》光杆字母词语(744条)样例 184-185 附录20:《人民日报》数字在前字母词语表(212条)样例 185-186 附录21:《人民日报》数字在后字母词语表(479条)样例 186-187 附录22:《人民日报》双语对照字母词语表(712条)样例 187-188 附录23:《人民日报》并列结构字母词语表(127条) 188-192 附录24:《北京青年报》散布数排前200位的字母词语(200条)样例 192-193 攻读博士学位期间发表的学术论文 193-194 致谢 194-195
|
相似论文
- 词义消歧语料库自动获取方法研究,TP391.1
- 基于自然语言打印机人机交互方法研究与实现,TP11
- 基于话题的多文档文摘技术研究,TP391.1
- 基于WEB的社区智能医疗服务系统的研究,TP311.52
- 面向自然语言处理的汉语句子语义知识库构建研究,H13
- 主观题辅助评分方法的研究与应用,TP391.1
- 服饰期刊中的字母词语研究,H136
- 汉语联合短语结构分析与识别,H146
- 现代汉语字母词语的多角度研究,H136
- 融合统计与规则技术的蒙古语词法分析研究,TP391.1
- 基于统计的多文档关键短语和文摘抽取研究,TP391.1
- 面向经济普查项目需求的模糊中文地址匹配方法研究,P208
- 中文问答系统中多策略答案抽取技术的研究,TP391.3
- 一种基于领域本体的程序理解方法研究,TP311.52
- 中文自动分词系统的研究与实现,TP391.1
- 列表类自动问题问答系统的设计与实现,TP311.52
- 汉语基本名词短语的自动识别模型,TP391.4
- 利用知网进行(计算机)自然语言处理,TP391.1
- 基于抽象嵌入单元的自然语言信息隐藏算法研究与实现,TP309
- 企业经营范围自动分类及多语种经营范围术语自动获取,TP391.1
- 基于内容的网站聚类算法研究,TP393.092
中图分类: > 语言、文字 > 语言学 > 应用语言学 > 数理语言学
© 2012 www.xueweilunwen.com
|