学位论文 > 优秀研究生学位论文题录展示
网络信息组织的质量控制研究
作 者: 熊化宇
导 师: 陈能华
学 校: 湘潭大学
专 业: 图书馆学
关键词: 网络信息组织 质量控制 信息采集 索引结构 相关性 信息检索模型 向量空间模型 隐含语义索引 超链分析
分类号: G203
类 型: 硕士论文
年 份: 2005年
下 载: 250次
引 用: 3次
阅 读: 论文下载
内容摘要
网络信息的海量化正在导致网络信息的垃圾化,网络信息本身的价值正在被创造海量网络信息的网络本身所消减,解决了信息资源的短缺问题并不一定会带来价值的提升,只有加强网络信息组织的质量控制,解决信息的甄别、加工、提纯和挖掘,从海量形如垃圾的信息中发现真正的知识,才能带来价值的提升。正因为如此,本文试图从质量控制的角度,阐述网络信息的组织,内容主要涉及四个方面:第一章概要介绍网络信息组织的原理和网络信息组织的方式方法,并对传统文献信息组织和网络信息组织的异同作了一个简单的比较分析。第二章介绍网络信息的采集原则、采集技术,认为对于网络信息服务来说,过分强调查全率并没有多大的实际意义,更重要的是要快速准确的查找到用户想查找的信息。网络信息组织采集过程中的质量控制包括两个方面:网络信息采集内容的选择和网络信息采集策略的控制,并分别作了介绍。第三章在介绍网络信息的标引原理的基础上,着重就如何确定Web 页面标引关键词进行了分析和讨论,然后讨论了各种信息检索模型的索引结构及其索引词的处理。第四章在三大传统信息检索模型的相关性分析的基础上,着重分析了隐含语义索引模型对向量空间模型的改进和基于超链接分析的相关性策略。
|
全文目录
中文摘要 4-5 英语摘要 5-10 引言 10-12 第一章 网络信息组织概述 12-18 1.1 网络信息组织的定义 12 1.2 网络信息组织原理 12-13 1.3 网络信息组织方式概述 13-15 1.3.1 一次网络信息组织方式 13-14 1.3.2 二次网络信息组织方式 14-15 1.3.3 三次网络信息组织方式 15 1.4 传统文献信息组织和网络信息组织的比较 15-18 第二章 网络信息的采集及其质量控制 18-31 2.1 网络信息采集的原则 18-19 2.2 网络信息采集方式 19-22 2.2.1 通常的网络信息采集方式 19 2.2.2 采集技术 19-21 2.2.3 推送技术 21 2.2.4 采集技术与推送技术的比较 21-22 2.3 网络信息采集过程中的质量控制 22-31 2.3.1 网络信息服务的查全率和查准率意义 23-25 2.3.2 网络信息内容的选择 25-28 2.3.3 网络信息的采集策略 28-31 第三章 网络信息的标引和索引控制 31-48 3.1 网络信息的标引原理 31-32 3.2 Web页面标引关键词的确定 32-38 3.2.1 网页文档的预处理 32-33 3.2.2 传统的加权词频统计法在搜索引擎中的应用 33-34 3.2.3 位置信息对词的权重的影响 34-35 3.2.4 HTML标签对词的权重的影响 35 3.2.5 网页的声望对词的权重的影响 35-37 3.2.6 利用后控词表改进关键词语言的性能 37-38 3.3 网络信息组织的索引模型介绍 38-41 3.3.1 全文扫描 38-39 3.3.2 位图 39 3.3.3 署名文件 39 3.3.4 倒排文档模型 39-41 3.4 向量空间模型和文档的聚类分类 41-48 3.4.1 聚类产生方法 43-45 3.4.2 聚类搜索 45-46 3.4.3 文本聚类中权重计算的对偶性策略 46-48 第四章 网络信息组织的相关性策略 48-62 4.1 信息检索的相关性概述 48-50 4.2 三大传统信息检索模型的相关性分析 50-53 4.2.1 布尔模型 50-51 4.2.2 向量空间模型 51-52 4.2.3 概率模型 52-53 4.3 关键词(索引词)的加权策略 53 4.4 隐含语义标引对向量空间模型的改进 53-57 4.4.1 LSI的做法 55-56 4.4.2 LSI在文本信息处理中的应用 56-57 4.4.3 LSI相对于传统信息检索模型的优势 57 4.5 基于超链分析的相关性策略 57-62 4.5.1 Page Rank算法 57-59 4.5.2 HITS算法 59-60 4.5.3 超链分析的不足 60-62 结束语 62-63 参考文献 63-66 攻读硕士研究生期间已公开发表的论文 66-67 后记 67-68 详细摘要 68-80
|
相似论文
- 模糊聚类在搜索引擎自动分类上的应用,TP391.3
- Web超链分析及其在搜索引擎中的应用研究,TP393.092
- web超链分析应用研究,G354
- 聚焦爬行系统的设计—算法视角,TP301.6
- 搜索引擎中主题爬虫的研究与实现,TP391.3
- 自动主题搜索的应用研究,G254.0
- 潜在语义索引在中文文本聚类中的应用研究,TP391.1
- 基于停用词处理的汉语语音检索方法,TP391.1
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 应用于搜索引擎的人物分类系统设计与实现,TP391.3
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 网络教育新闻文本分类系统的设计与实现,TP391.1
- 基于Lucene的二手汽车交易信息垂直搜索引擎的研究与实现,TP391.3
- 基于SVM的新闻报道特征新事件检测研究,TP18
- 基于VSM模型和特征选择算法的中文文本自动分类研究,TP391.1
- 基于语义网络的自动文摘研究,TP391.1
- 中文领域术语自动获取方法的研究,TP391.1
- Web信息语义特征获取技术,TP391.1
中图分类: > 文化、科学、教育、体育 > 信息与知识传播 > 信息与传播理论 > 信息资源及其管理
© 2012 www.xueweilunwen.com
|