学位论文 > 优秀研究生学位论文题录展示
基于Web的内容挖掘技术研究
作 者: 刘洋
导 师: 张健沛
学 校: 哈尔滨工程大学
专 业: 计算机应用技术
关键词: Web内容挖掘 聚类 搜索引擎 PAT-Tree
分类号: TP393.09
类 型: 硕士论文
年 份: 2003年
下 载: 279次
引 用: 8次
阅 读: 论文下载
内容摘要
随着Web文档数量的剧增,搜索引擎也暴露了许多问题。对于一般的查询返回的结果很多,其中很多是无用或无关的结果,为了找到想要的结果,用户不得不在搜索引擎返回的大量文档摘要列表中查找。本文将Web内容挖掘技术应用于搜索引擎领域,它依赖于搜索引擎结果所提供的信息来归纳出聚类,使得在搜索引擎返回的非常大的文档列表中的过滤操作变得十分方便。PAT-tree是广泛用于中文关键字抽取和句子分割等领域的一种数据结构。本文将PAT-tree应用于搜索引擎结果聚类领域,并在修改的PAT-tree基础上提出了一个新的中文搜索引擎结果聚类算法。实验结果证明我们的算法是可行的,并且能够满足我们给出的搜索引擎结果聚类技术的几个重要指标。
|
全文目录
第1章 绪论 9-14 1.1 研究课题的来源、目的和意义 9-10 1.2 Web挖掘的问题与挑战 10-11 1.3 搜索引擎面对的挑战 11 1.4 Web挖掘与搜索引擎的关系 11-12 1.5 论文组织 12-14 第2章 Web挖掘与Web信息检索 14-26 2.1 Web挖掘(Web mining) 14-17 2.1.1 Web挖掘的定义 14-15 2.1.2 Web挖掘的分类 15-17 2.2 Web信息检索(Web Information Retrieval) 17-24 2.2.1 Web信息检索定义 17 2.2.2 搜索引擎检索技术研究现状 17-19 2.2.3 中文搜索引擎检索技术存在问题分析 19-20 2.2.4 目前搜索引擎所使用的关键技术 20-24 2.3 Web挖掘与Web信息检索 24-25 2.4 本章小结 25-26 第3章 关键词抽取 26-37 3.1 关键词抽取概念 26-28 3.1.1 汉字编码体系 26-27 3.1.2 汉语词的特点 27 3.1.3 关键词自动抽取存在的问题 27-28 3.2 关键词抽取方法分类 28-30 3.2.1 字典的方法(Dictionary approach) 29 3.2.2 语言的方法(Linguistic approach) 29 3.2.3 统计的方法(Statistical approach) 29-30 3.3 基于PAT-tree的关键词抽取方法 30-36 3.3.1 算法综述 31-32 3.3.2 PAT-tree 32-33 3.3.3 重要词汇模式评价方法 33-34 3.3.4 基于PAT-tree的过滤算法 34-36 3.4 本章小结 36-37 第4章 聚类分析 37-49 4.1 聚类的概念 37 4.2 主要聚类方法的分类 37-42 4.2.1 划分聚类算法(partitioning method) 37-40 4.2.2 层次聚类算法(hierarchical method) 40-42 4.3 搜索引擎结果聚类 42-48 4.3.1 搜索引擎结果聚类概念 42-43 4.3.2 搜索引擎结果聚类方面的相关研究工作 43-48 4.4 本章小结 48-49 第5章 基于PAT-tree的中文搜索引擎结果聚类 49-62 5.1 PAT-tree介绍 49-53 5.1.1 半无限长字串 49-50 5.1.2 PAT-tree定义 50-51 5.1.3 PAT-tree算法 51-53 5.2 基于修改的PAT-tree的中文搜索引擎结果聚类算法 53-58 5.2.1 修改的中文PAT-tree 53-54 5.2.2 基于PAT-tree的聚类算法 54-58 5.3 系统设计及实现 58-60 5.3.1 系统的体系结构 58 5.3.2 系统各部分的实现 58-60 5.4 算法分析 60-61 5.4.1 主要评价指标 60 5.4.2 实验结果 60-61 5.5 本章小结 61-62 结论 62-64 参考文献 64-67 攻读硕士学位期间发表的论文和取得的科研成果 67-68 致谢 68
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 图像分割中阴影去除算法的研究,TP391.41
- 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
- 高血压前期证候特征研究,R259
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 大学生综合素质测评研究,G645.5
- 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
- 21个荷花品种遗传多样性的ISSR分析,S682.32
- 基于聚类分析的P2P流量识别算法的研究,TP393.02
- 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
- 桃杂交后代(F1)幼苗光合效能评价,S662.1
- 南通市农业面源污染负荷研究与综合评价,X592
- 土壤环境功能区划研究,X321
- 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
- 象草自交后代无性系的饲用价值及生物质能特性初步评价,S543.9
- 基于变异粒子群的聚类算法研究,TP18
- K-means聚类优化算法的研究,TP311.13
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 基于同化能力杂种优势早期评价的桃光合特性研究,S662.1
- 云南省直管县改革研究,D630
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com
|