学位论文 > 优秀研究生学位论文题录展示

基于聚类的英汉人名消歧研究

作　者: 裴飞
导　师: 姚建民
学　校: 苏州大学
专　业: 计算机技术
关键词: 人名消歧特征抽取聚类算法命名实体评估指标 n元文法
分类号: TP391.1
类　型: 硕士论文
年　份: 2011年
下　载: 97次
引　用: 1次
阅　读: 论文下载

内容摘要

命名实体消歧是自然语言处理的一个重要问题,在命名实体类别中,人名具有很强的歧义性,导致人名消歧是命名实体消歧任务中较难处理的一类。人名消歧主要应用于搜索引擎、社交网络和人名知识库构建等。由于人名歧义问题仍存在巨大挑战性,国际学术界在ACL-SemEval 2007,WWW 2009和CLEF 2010已经分别组织了三次英文人名消歧评测(Web People Search,WePS),一次中文人名消歧评测(The First CIPS-Sighan Joint Conference on Chinese Language Processing Task 3,CIPS-Sighan 2010 bakeoff-3)。本文采用自底向上层次聚类(Hierarchical Agglomerative Clustering,HAC)开发了一个英文人名消歧系统,此外,采用两步仿射传播(Affinity Propagation,AP)实现了聚类一个中文人名消歧系统。本文首先重点介绍了WePS和CIPS-Sighan 2010 bakeoff-3相关工作,包括评测语料(训练集与测试集)、评估指标、baseline系统、参赛队伍评测情况以及常用人名消歧技术等。英文人名消歧中首先抽取出各种特征,再通过详细实验选取有效的特征,然后采用融合多特征技术来提高消歧效果。本文采用比较成熟的自底向上层次聚类算法(HAC)实现英文人名消歧,与其它系统不同的是本文采用相似度函数是平均连通相似度函数。实验结果表明平均连通相似度函数相对于单连通相似度函数的性能有所提高。中文人名消歧中采用一种跳跃距离树算法抽取人名的上下文N-Gram字符做作为特征词,相似度度量计算采用改进后的词频-逆文档频率(TF*IDF)。同时该方法也解决中文分词的问题,从而实现对干扰文档的识别。对于中文人名消歧中聚类算法,本文采用两步仿射传播聚类算法,其中第一步保证较高的准确率,第二步聚类主要提升系统召回率。实验结果显示两步聚类明显提升实验结果,诊断测试实验结果说明了中文切词性能对人名消歧也有重要影响。

全文目录

相似论文

K-均值聚类算法的研究与改进,TP311.13
细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
基于变异粒子群的聚类算法研究,TP18
K-means聚类优化算法的研究,TP311.13
融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
基于遗传算法和粗糙集的聚类算法研究,TP18
工科高校教学评估指标体系研究,G642.4
SAR干涉像对优化选取方法研究,P225.2
基于粒子群优化的Fuzzy c-mean聚类算法的基因芯片图像处理,TP391.41
汉语嵌套命名实体识别方法研究,TP391.1
数据挖掘技术在高职教师绩效考核中的应用研究,TP311.13
基于VaR的上市公司财务风险评估指标体系构建及有效性分析,F832.51;F224
空间路径聚类算法的建模与研究,TP311.13
蛋白质相互作用网络实验对比分析,Q51
基于规则的Web文本信息抽取技术的研究,TP391.1
应用于搜索引擎的人物分类系统设计与实现,TP391.3
英文文本中命名实体识别及关系抽取技术研究,TP391.1
Web数据挖掘技术在网络教育论坛中的应用研究,G434
心电特征提取及分类方法研究,TN911.7
改进分水岭算法在医学图像分割中的应用研究,TP391.41