学位论文 > 优秀研究生学位论文题录展示
上下文相关的词汇复述研究
作 者: 赵琳
导 师: 刘挺
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 词汇复述 上下文相关 复述抽取 复述词典构建 二元分类
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 35次
引 用: 0次
阅 读: 论文下载
内容摘要
词汇复述研究旨在为词汇获取复述。词汇复述是上下文相关的,即对同一个词在不同上下文中应获取不同的复述词。本文定义了两个问题:(1)动态的词汇复述获取;(2)构建复述词典。对于前者,我们提出了一种获取上下文相关词汇复述的新方法,它包括两部分:基于网络挖掘的候选复述词获取以及基于二元分类的复述词确认。后者是在我们在分析前一部分方法问题的基础上提出的,它主要包括:基于句法的候选复述词的获取及其二元分类的复述词确认。这两个问题是从词汇复述的两个方面进行研究,它们的相同之处在于都是获取上下文相关的词汇复述,不同之处在于:(1)前者是动态的,后者为静态的;(2)前者使用的上下文是不确定的,后者是确定的;(3)前者针对的目标词是任意的,后者只针对动词。对于我们定义的两个问题的解决方法,实验结果表明:(1)对于动态的词汇复述获取,利用二元分类的方法进行复述确认是有效的,其F-值达到0.6023;(2)基于网络挖掘的候选复述词获取方法是切实可行的,平均为每个待复述词在每个给定的上下文句子中获取2.3个正确复述词;(3)对于构建复述词典,利用二元分类的方法进行复述确认是有效的,它的准确率达到70.35%;(4)我们构建的复述词典是有效的,它的覆盖效果达到36.57%;(5)多数通过我们上下文相关的方法获取的复述是上下文相关的,它们不能通过上下文无关的方法获取。
|
全文目录
摘要 4-5 Abstract 5-8 第1章 绪论 8-14 1.1 课题背景与意义 8-10 1.1.1 课题背景 8-10 1.1.2 课题意义 10 1.2 国内外研究现状与分析 10-12 1.3 本文的主要研究内容及结构安排 12-14 1.3.1 本文的主要研究内容 12-13 1.3.2 本文的结构安排 13-14 第2章 基于网络挖掘的动态的词汇复述获取 14-22 2.1 从互联网上挖掘候选替换词 14-17 2.1.1 构建查询 15-16 2.1.2 获取候选替换词 16-17 2.2 复述确认二元分类 17-21 2.2.1 特征选取 17-19 2.2.2 分类器 19-21 2.3 本章小结 21-22 第3章 复述词典构建 22-32 3.1 复述词典问题定义 22-24 3.2 候选搭配复述获取 24-25 3.3 搭配复述确认二元分类 25-31 3.3.1 特征选取 26-30 3.3.2 分类器 30-31 3.4 本章小结 31-32 第4章 实验评价与分析 32-46 4.1 基于网络挖掘的动态的词汇复述获取的评价 32-37 4.1.1 实验设置 32-33 4.1.2 候选获取评价 33 4.1.3 复述确认评价 33-34 4.1.4 特征贡献 34-35 4.1.5 错误分析 35 4.1.6 与上下文无关方法比较 35-37 4.2 复述词典构建的评价 37-45 4.2.1 实验设置 37-38 4.2.2 特征贡献 38-40 4.2.3 PAUM分类器与SVM分类器的比较 40-41 4.2.4 与上下文无关方法比较 41-42 4.2.5 评价生成的词汇级复述词典的实际运用效果 42-43 4.2.6 错误分析 43-45 4.3 本章小结 45-46 结论 46-47 参考文献 47-51 攻读学位期间发表的学术论文 51-53 致谢 53
|
相似论文
- 领域实体关系自动抽取研究,TP391.3
- 基于内容的商标图像检索技术研究,TP391.3
- 一种用于本体排序的内容分析方法的研究,TP391.1
- 面向动漫素材的特征提取与分类识别,TP391.41
- 基于打印指令的检测数据快速解析与输出系统研究与实现,TP311.52
- 连续语音识别中声学模型的建立,TN912.3
- 从网页中精确提取链接上下文相关文本,TP393.092
- 基于HMM的中文语音合成研究,TN912.33
- 基于FPGA的数字图像处理基本算法研究与实现,TP391.41
- 用于检索的人脸特征提取与匹配算法研究,TP391.41
- 基于FPGA的高速图像预处理技术的研究,TP391.41
- 2D人脸模板保护算法研究,TP391.41
- 导弹虚拟试验可视化技术研究,TP391.9
- 基于用户兴趣特征的图像检索研究与实现,TP391.41
- 图像拼接技术研究,TP391.41
- 高效精确字符串匹配算法的研究与实现,TP391.41
- 基于词义及语义分析的问答技术研究,TP391.1
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 舌体特征的提取及融合分类方法研究,TP391.41
- 统计机器翻译中结构转换技术的研究,TP391.2
- 基于人眼检测的驾驶员疲劳状态识别技术,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|