学位论文 > 优秀研究生学位论文题录展示
基于Web的领域词典构建技术研究
作 者: 高锐
导 师: 王宇颖
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 术语 术语学 领域术语自动抽取 新词发现
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 116次
引 用: 2次
阅 读: 论文下载
内容摘要
领域术语是反映领域特征的词语,可以从一定规模的语料中自动抽取。领域术语自动抽取是自然语言处理中的一项重要任务,可以应用到领域本体构建、专业搜索、文本分类、类语言建模等诸多领域。同时,互联网上特定领域的文本资源非常丰富,因此,如何利用互联网上大规模的特定领域语料来构建领域词典就成为一个既有挑战性又有实际价值的课题。本文系统阐述并实现了一套WEB领域词典构建技术。通过对系统功能的分析,我们把系统分成了WEB领域文本收集、语料预处理、领域新词发现和领域特征词抽取四部分。与传统的领域术语抽取不同,我们首先需要收集WEB领域文本。该部分采用广度优先的算法获取特定类型的网页,我们针对其中的关键点快速的主题过滤算法展开了相关研究,设计并实现了一个基于向量空间模型的主题过滤模块。在语料的预处理部分,我们采用了一种基于统计的网页正文抽取方法,首先对网页进行规范化处理表示为一棵DOM树,然后统计各节点的内容信息进行正文抽取,该方法实现简单,通用性好,在准确性和速度上基本都能满足系统的需要。在领域新词发现部分,我们采用了基于统计和规则相结合的方法识别新词,在词频统计的基础上通过添加独立成词概率等层层过滤候选词。目前该模块综合F值可达70%以上。在领域特征词抽取部分,我们使用基于正规化分布熵的领域词汇抽取策略,并且将位置成词概率引入该方法中,取得了不错的效果。总之,通过对实验观察和结果分析,本课题实现了WEB领域文本收集、语料预处理、领域新词发现和领域特征词提取的关键技术,并在研究的基础上提出并实现了一套面向互联网领域词典构建的技术方案。
|
全文目录
摘要 4-5 Abstract 5-10 第1章 绪论 10-16 1.1 课题研究的背景及意义 10-11 1.2 国内外对领域术语自动获取的研究 11-14 1.2.1 国外的研究状况 11-13 1.2.2 国内的研究状况 13-14 1.3 主要工作与本文组织 14-16 第2章 关于术语的相关概念 16-24 2.1 术语与术语学 16-19 2.2 术语的特征 19-23 2.2.1 术语的领域特征 19 2.2.2 术语的结构特征 19-20 2.2.3 术语的单元性(Unithood)与术语性(Termhood) 20-21 2.2.4 简单术语与复杂术语 21-22 2.2.5 术语的内部特征与外部特征 22-23 2.3 本章小结 23-24 第3章 基于互联网的领域词典构建的关键技术 24-40 3.1 面向领域主题的信息采集相关研究 24-27 3.1.1 主题的描述 25 3.1.2 网页内容与主题相关性的判定 25-26 3.1.3 URL与主题的相关性预测 26-27 3.2 领域语料内容的预处理相关研究 27-31 3.2.1 网页规范化处理 27-28 3.2.2 网页形式化表示 28-29 3.2.3 网页节点选择 29-31 3.3 领域新词发现相关研究 31-34 3.3.1 上下文邻接分析 32-33 3.3.2 独立成词概率 33 3.3.3 位置成词概率 33 3.3.4 双字耦合度 33-34 3.4 领域特征词抽取相关研究 34-39 3.4.1 领域术语抽取标准 35-36 3.4.2 符号定义 36 3.4.3 信息熵 36-37 3.4.4 正规化的类间分布熵 37-38 3.4.5 正规化的类内分布熵 38 3.4.6 词语的排序公式 38-39 3.5 本章小结 39-40 第4章 Web术语抽取系统的设计与实现 40-51 4.1 系统功能 40 4.2 系统总体架构 40-41 4.3 主题信息采集的实现 41-43 4.4 网页正文抽取的实现 43-44 4.4.1 预处理 43 4.4.2 噪声过滤 43-44 4.4.3 正文抽取 44 4.5 领域新词发现的实现 44-47 4.5.1 训练模块 44-45 4.5.2 频度统计 45-47 4.5.3 垃圾串过滤 47 4.6 领域特征词抽取的实现 47-50 4.7 本章小结 50-51 第5章 系统功能评测 51-59 5.1 针对主题过滤模块的评测 51-52 5.2 针对正文抽取模块的评测 52-53 5.3 针对领域新词发现模块的评测 53-56 5.3.1 小规模语料测试 53-55 5.3.2 分词实验 55-56 5.4 针对领域特征词抽取模块的评测 56-58 5.4.1 特征词精度测试 56-57 5.4.2 文本分类实验 57-58 5.5 本章小结 58-59 结论 59-61 参考文献 61-66 致谢 66
|
相似论文
- 中国健身房健身器材术语的现状及规范化探索研究,G812.0
- 模因理论视角下术语的非术语化现象及其过程研究,H083
- 医学语篇结论部分的人际功能研究,R-5
- 特定领域中文术语抽取,TP391.1
- 科技文翻译之实、准、简—译Harmony有感,H059
- 从比较法律文化的视角论法律术语翻译,H315.9
- 航空术语的特点及其翻译,H35
- 从社会符号学的角度解析法律术语的翻译,H059
- 法律术语的文化因素及其翻译策略,H059
- 箱包结构研究,TS959.9
- 古代中国国家诸术语考,K207
- 声乐教学术语的辩证解析,J616
- 领域概念自动抽取研究,TP391.1
- 专利信息检索系统的研究与实现,TP391.3
- 会计术语研究,F230
- 《本草纲目》“主治”项药物功效术语研究,R281
- 医学英语术语的理据特点,H319
- 谈中医药英语翻译的难点与对策,H315.9
- 现代俄语词汇学术语的语义及构成研究,H35
- 语言学术语汉译规范化研究,H059
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|