学位论文 > 优秀研究生学位论文题录展示
Web数据挖掘及其在网络新闻文本数据中的应用
作 者: 胡峰
导 师: 章毅
学 校: 电子科技大学
专 业: 计算机软件与理论
关键词: Web挖掘 新闻 文本分类 MinApriori 相似度检测
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 270次
引 用: 0次
阅 读: 论文下载
内容摘要
随着计算机软件,硬件以及网络技术的发展,人们已经习惯将因特网作为信息发布与交流的主要载体,Web上的信息呈爆炸式增长。现在的万维网有超过8亿的网页,这些网页覆盖了人类活动的大部分领域。因此,它已经成为用以改变信息查找效率的数据挖掘研究的肥沃土壤。目前,我们主要通过两种方式来访问互联网:点击超链接和关键字搜索。这个过程是一种试探性的,往往不能让人满意。我们现在需要更好的支持来表达自己的信息需求,以比目前更具结构化的方式来处理搜索结果。数据挖掘和机器学习将在如何达到此目的方面发挥重要的作用。Web挖掘就是在这种背景下兴起的将数据挖掘技术应用到半结构化的Web数据上,针对Web数据的特点进行知识发现的一个新的研究领域。本文以Web上的新闻网页数据作为载体,来研究Web挖掘。Web挖掘可以分为三大类:Web内容挖掘,Web结构挖掘,Web使用挖掘。本文的研究侧重于Web内容挖掘,即Web挖掘在新闻网页文本中的应用。本文主要工作有以下几个方面:1.系统地探讨了Web挖掘和超文本挖掘的基本理论。2.实现了基于新闻网页内容挖掘所需的相关预处理技术。这些预处理技术包括数据的采集,网页内容的抽取,中英文的分词等。3.提出了一种基于MinApriori度量的相似性检测方法。该方法受关联规则在处理数值数据时的处理方式的启发,应用于文档相似度检测时,能极大地提高检测的速度,并能保持检测的准确性。4.将分类引入新闻网页中,方便用户浏览新闻。本文系统分析了能应用于文本分类的学习算法和降维方法,并通过系统的实验,分析了各种算法在文本分类中的表现,以及降维对分类效果的影响。最后实现了一个基于ComplementNaiveBaye方法的新闻文本自动分类系统。5.构建了一个网络数据在线挖掘服务平台。该平台集成了上述工作。通过网络数据在线挖掘服务平台,能在较少人工干预的前提下,实现对网络新闻数据的重复检测、分类等挖掘功能,这些功能的实现,能有效地提高信息的使用效率,该平台具有广泛的应用前景和潜在的商业价值。
|
全文目录
摘要 4-5 Abstract 5-10 第一章 引言 10-16 1.1 研究背景及意义 10-14 1.1.1 Web 挖掘 10-11 1.1.2 网页去重 11-13 1.1.3 文本分类 13-14 1.2 本文的主要工作 14 1.3 本文的章节安排 14-16 第二章 基于文本的 Web 挖掘概述 16-26 2.1 Web 挖掘概述 16-20 2.1.1 产生背景 16 2.1.2 主要任务 16-17 2.1.3 相关学科 17 2.1.4 Web 挖掘分类 17-20 2.2 超文本挖掘概述 20-26 2.2.1 相关表示模型 20-22 2.2.2 有指导学习 22 2.2.3 无指导学习 22 2.2.4 半指导学习 22-23 2.2.5 社交网络分析 23-26 第三章 基于 MinApriori 度量的网页相似度检测 26-44 3.1 Web 挖掘的基本过程 26 3.2 Web 信息采集 26-30 3.2.1 信息采集的基本原理 26-27 3.2.2 信息采集器的基本结构 27-29 3.2.3 Web 信息采集的实现 29-30 3.3 Web 信息抽取 30-33 3.3.1 常用的 Web 信息抽取方法 30-32 3.3.2 Web 信息抽取实现 32-33 3.4 中英文分词 33-36 3.4.1 三种常用中文分词方法 33-35 3.4.2 三种分词方法的优劣对比 35-36 3.4.3 英文分词 36 3.5 基于 MinApriori 相似度度量的网页重复检测 36-44 3.5.1 常用重复检测方法分类 36 3.5.2 基于语义方法的常见相似度度量 36-38 3.5.3 MinApriori 方法 38-40 3.5.4 MinApriori 度量 40-41 3.5.5 MinApriori 度量和其他度量的比较 41-42 3.5.6 基于MinApriori 度量的相似度检测方法及其在新闻网页中的应用 42-44 第四章 基于 ComplementNaiveBayes 的新闻分类 44-72 4.1 文本分类概述 44-47 4.1.1 文本分类定义 44 4.1.2 文本分类的种类 44-45 4.1.3 文本分类的评估 45-47 4.2 文本分类的基本流程 47 4.3 常用文本分类算法 47-60 4.3.1 基于贝叶斯理论的分类算法 47-55 4.3.2 基于 SVM 的分类算法 55-57 4.3.3 基于实例学习的分类算法 57-58 4.3.4 基于决策树的分类算法 58-59 4.3.5 基于规则的分类算法 59-60 4.4 常用文本分类算法的比较 60-65 4.5 属性降维 65-67 4.5.1 用于降维的常用函数 65-67 4.6 降维试验 67-68 4.7 基于 ComplementNaiveBayes 新闻自动分类系统 68-72 第五章 网络新闻在线挖掘服务系统的实现 72-80 5.1 系统开发背景 72-73 5.2 硬件拓扑结构 73-75 5.3 系统体系结构 75-76 5.4 在线挖掘服务模块架构 76-78 5.5 系统界面效果图 78-80 5.5.1 新闻自动分类界面 78-79 5.5.2 相似性检测界面 79-80 第六章 总结与展望 80-82 致谢 82-83 参考文献 83-86
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 体育新闻报道中的侵权行为研究,G812
- 我国公共危机事件中政府与新闻媒体的互动研究,D630
- 穗港中文报纸新闻标题语言比较研究,G213
- 对台电视新闻节目传播策略研究,G222
- 《瞭望》与《南风窗》群体性事件报道策略比较研究,G212.2
- 从西方修辞的角度评析新华网对外报道的有效性,H315
- 关于当前新闻传媒道德的几点思考,B82-05
- 体育新闻的异化现象与大学生体育行为研究,G80-05
- 传媒预警与新闻舆论引导建构研究,G210
- 胡锦涛新闻思想研究,G210
- 我国法制新闻报道的现状与未来发展趋势研究,G212
- 以刘翔的媒介形象为例看新闻传播的神话性,G206
- 电视民生新闻主持人品牌化研究,G222.2
- 地市电视台民生新闻栏目研究,G222
- 解析第六次改版后的央视新闻频道,G229.2
- 基于数据分布特征的文本分类研究,TP391.1
- 汉英报刊体育新闻语篇的主位推进模式对比,H315
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|