学位论文 > 优秀研究生学位论文题录展示

基于自组织特征映射的海洋文献聚类分析的研究与实现

作 者: 赵文鹏
导 师: 王庆江;董晶
学 校: 中国海洋大学
专 业: 软件工程
关键词: 海洋文献 聚类分析 向量空间模型 自组织特征映射
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 47次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着国家海洋战略的实施,与海洋有关的Web文献数迅速增长。对海洋文献进行聚类分析,有助于海洋信息挖掘,这对于海洋科技有重要意义。中文文档聚类分析包括数据库文档抽取、文档中文分词、构建文档集的表示模型、基于文档集模型进行聚类分析等步骤。与英文文档处理不同,中文文档的处理必须先进行分词。常见的分词方法有基于字符串匹配的、基于理解的和基于统计的三种方法。目前的分词方法基本满足了实际需求,关键是选择合适的分词软件。信息获取领域中,一般采用向量空间模型作为文档集的表示模型,从该模型可容易地计算出文档之间的相关度,因而可用于文档聚类分析。聚类算法有很多,如基于划分的、基于层次的、基于密度的等多种算法,算法选择取决于应用目的。为构建基于自组织特征映射神经网络的海洋文献聚类系统,本文分析了中文分词的常用方法,研究了文档集的表示模型以及各种聚类算法,设计并实现了一个基于自组织特征映射神经网络的文档聚类分析系统OCA,主要工作及创新点如下:1.在分析和比较各种聚类算法的基础上,选择自组织特征映射(SOM)神经网络作为海洋文献聚类分析的算法,这里的SOM神经网络采用厨师帽获胜邻域,邻域内神经元调整权值。2.研究了中文分词技术,比较了各种分词方法,选择分词准确率高的软件MMSEG实现对中文海洋文献的分词。3.用向量空间模型表示文档集,用广为接受的TFIDF表示词汇对文档语义的贡献。4.在Eclipse环境下用Java实现了一个基于SOM的海洋文献聚类系统OCA,从CNKI下载若干海洋文献,用OCA系统对其进行处理,实验表明该系统可对海洋文献进行有效的聚类分析。

全文目录


摘要  4-6
ABSTRACT  6-10
绪论  10-13
  0.1 网络信息挖掘中的关键技术  10-11
  0.2 搜索引擎使用的信息检索技术及其不足  11-12
  0.3 论文所要研究的主要内容  12
  0.4 论文结构与章节安排  12-13
1 文本聚类的常用算法及评价标准  13-19
  1.1 文本聚类的主要步骤  13-14
  1.2 文本聚类算法的评价标准  14
  1.3 常用文本聚类算法的分析与比较  14-17
  1.4 文本聚类研究进展  17-18
  1.5 本章小结  18-19
2 中文分词技术  19-26
  2.1 基于字符串匹配的分词方法  19-20
  2.2 基于理解的分词方法  20
  2.3 基于统计的分词方法  20-21
  2.4 中文分词中的难点  21-23
  2.5 中文分词的研究现状  23-24
  2.6 中文分词技术MMSEG  24-25
  2.7 本章小结  25-26
3 自组织特征映射神经网络概述  26-34
  3.1 人工神经网络的特点  27-28
  3.2 神经网络的工作原理  28-29
  3.3 SOM 神经网络概述  29-33
  3.4 本章小结  33-34
4 聚类分析系统的设计  34-39
  4.1 海洋文献的存储表示  34-36
  4.2 聚类分析过程的设计  36-38
  4.3 本章小结  38-39
5 聚类分析系统OCA 的实现及实验分析  39-43
  5.1 中文分词  39-40
  5.2 VSM 的建立  40-41
  5.3 神经元的学习  41
  5.4 聚类结果与分析  41-42
  5.5 本章小结  42-43
6 总结与展望  43-44
参考文献  44-46
附录  46-58
致谢  58-59
个人简历、在学期间发表的学术论文与研究成果  59

相似论文

  1. 基于停用词处理的汉语语音检索方法,TP391.1
  2. 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
  3. 高血压前期证候特征研究,R259
  4. 大学生综合素质测评研究,G645.5
  5. 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
  6. 21个荷花品种遗传多样性的ISSR分析,S682.32
  7. 基于聚类分析的P2P流量识别算法的研究,TP393.02
  8. 桃杂交后代(F1)幼苗光合效能评价,S662.1
  9. 基于SVM分类算法的主题爬虫研究,TP391.3
  10. 南通市农业面源污染负荷研究与综合评价,X592
  11. 土壤环境功能区划研究,X321
  12. 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
  13. 大豆杂种优势及其遗传基础研究,S565.1
  14. 象草自交后代无性系的饲用价值及生物质能特性初步评价,S543.9
  15. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  16. 基于同化能力杂种优势早期评价的桃光合特性研究,S662.1
  17. 云南省直管县改革研究,D630
  18. 基于分治法的聚类方法研究,TP311.13
  19. 三十种中成药元素含量分析及基于元素含量的中成药分类研究,R286.0
  20. 面向社区教育的个性化学习系统的研究与实现,TP391.6
  21. 基于Moodle的高职网络教学系统设计与实现,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com