学位论文 > 优秀研究生学位论文题录展示
分众分类与受控词表的集成研究
作 者: 李艳
导 师: 贾君枝
学 校: 山西大学
专 业: 情报学
关键词: 分众分类法 聚类 标签语义 标签本体 主题词扩展
分类号: G254.1
类 型: 硕士论文
年 份: 2013年
下 载: 1次
引 用: 0次
阅 读: 论文下载
内容摘要
分众分类法作为一种平民分类方法,其分类标签具有个人自发性定义,标签分类公开共享等特点,但是分众分类系统标签具有语义模糊、不精确、随意的缺点,导致用户信息发现和分享效率低下。此外,词形的变化、拼写错误、同名异义的问题也导致了它的模糊性。同时,在分众分类法的中文运用问题上还存在着分词结构模糊的问题。面对分众分类系统出现的发展瓶颈,我们求助于传统分类法。传统分类法特别是受控词表历史悠久,在一定程度上体现了知识分类的科学性。其词汇的规范性和等级式结构便于按学科对信息进行汇集;为此,应该将分众分类与受控词表进行融合,以提高信息分类的质量和效率,即能够运用受控词表中的语义关系扩展用户使用的标签,起到推荐标签、提高检索效率的作用,同时符合受控词表选词规范的标签可以作为受控词表词汇更新的数据源。论文以《中国分类主题词表》教育类高频主题词、Del. icio. us网站中用户、标签、资源数据作为数据源,分析了中文标签与主题词的特征,并对中文标签与主题词进行比较分析,以探讨标签和主题词融合的可能性。根据标签标注的资源构建标签向量、标签共现矩阵、标签相似性矩阵,利用SPSS软件完成了标签聚类,结合标签对相似系数将聚类的标签簇构建成一个小型的“标签树”(标签的层次结构)。同时,借助于在线词表《中国分类主题词表》和ERIC叙词表,完成了标签本体的构建。基于构建的轻型标签本体提出一种受控词表主题词扩展算法,并通过试验最终得到25个高频标签以及它们与主题词的关系作为《中国分类主题词表》的扩展主题词,从而验证了该算法的有效性。本文的创新之处在于:一方面设计了一套基于在线词表抽取标签语义关系,进而构建轻型标签本体的流程,并利用教育类的标签对该流程进行了验证;另一方面基于构建的轻型标签本体提出了扩展受控词表的算法,并通过实验验证了该算法的有效性。
|
全文目录
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 图像分割中阴影去除算法的研究,TP391.41
- 基于图分割的文本提取方法研究,TP391.41
- 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
- 高血压前期证候特征研究,R259
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- K-均值聚类算法的研究与改进,TP311.13
- 大学生综合素质测评研究,G645.5
- 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
- 21个荷花品种遗传多样性的ISSR分析,S682.32
- 基于聚类分析的P2P流量识别算法的研究,TP393.02
- 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
- 桃杂交后代(F1)幼苗光合效能评价,S662.1
- 南通市农业面源污染负荷研究与综合评价,X592
- 土壤环境功能区划研究,X321
- 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
- 大豆杂种优势及其遗传基础研究,S565.1
- 象草自交后代无性系的饲用价值及生物质能特性初步评价,S543.9
- 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
- 基于变异粒子群的聚类算法研究,TP18
- K-means聚类优化算法的研究,TP311.13
中图分类: > 文化、科学、教育、体育 > 信息与知识传播 > 图书馆学、图书馆事业 > 文献标引与编目 > 分类法
© 2012 www.xueweilunwen.com
|