学位论文 > 优秀研究生学位论文题录展示

Web数据挖掘及其在网络新闻文本数据中的应用

作 者: 胡峰
导 师: 章毅
学 校: 电子科技大学
专 业: 计算机软件与理论
关键词: Web挖掘 新闻 文本分类 MinApriori 相似度检测
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 270次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着计算机软件,硬件以及网络技术的发展,人们已经习惯将因特网作为信息发布与交流的主要载体,Web上的信息呈爆炸式增长。现在的万维网有超过8亿的网页,这些网页覆盖了人类活动的大部分领域。因此,它已经成为用以改变信息查找效率的数据挖掘研究的肥沃土壤。目前,我们主要通过两种方式来访问互联网:点击超链接和关键字搜索。这个过程是一种试探性的,往往不能让人满意。我们现在需要更好的支持来表达自己的信息需求,以比目前更具结构化的方式来处理搜索结果。数据挖掘和机器学习将在如何达到此目的方面发挥重要的作用。Web挖掘就是在这种背景下兴起的将数据挖掘技术应用到半结构化的Web数据上,针对Web数据的特点进行知识发现的一个新的研究领域。本文以Web上的新闻网页数据作为载体,来研究Web挖掘。Web挖掘可以分为三大类:Web内容挖掘,Web结构挖掘,Web使用挖掘。本文的研究侧重于Web内容挖掘,即Web挖掘在新闻网页文本中的应用。本文主要工作有以下几个方面:1.系统地探讨了Web挖掘和超文本挖掘的基本理论。2.实现了基于新闻网页内容挖掘所需的相关预处理技术。这些预处理技术包括数据的采集,网页内容的抽取,中英文的分词等。3.提出了一种基于MinApriori度量的相似性检测方法。该方法受关联规则在处理数值数据时的处理方式的启发,应用于文档相似度检测时,能极大地提高检测的速度,并能保持检测的准确性。4.将分类引入新闻网页中,方便用户浏览新闻。本文系统分析了能应用于文本分类的学习算法和降维方法,并通过系统的实验,分析了各种算法在文本分类中的表现,以及降维对分类效果的影响。最后实现了一个基于ComplementNaiveBaye方法的新闻文本自动分类系统。5.构建了一个网络数据在线挖掘服务平台。该平台集成了上述工作。通过网络数据在线挖掘服务平台,能在较少人工干预的前提下,实现对网络新闻数据的重复检测、分类等挖掘功能,这些功能的实现,能有效地提高信息的使用效率,该平台具有广泛的应用前景和潜在的商业价值。

全文目录


摘要  4-5
Abstract  5-10
第一章 引言  10-16
  1.1 研究背景及意义  10-14
    1.1.1 Web 挖掘  10-11
    1.1.2 网页去重  11-13
    1.1.3 文本分类  13-14
  1.2 本文的主要工作  14
  1.3 本文的章节安排  14-16
第二章 基于文本的 Web 挖掘概述  16-26
  2.1 Web 挖掘概述  16-20
    2.1.1 产生背景  16
    2.1.2 主要任务  16-17
    2.1.3 相关学科  17
    2.1.4 Web 挖掘分类  17-20
  2.2 超文本挖掘概述  20-26
    2.2.1 相关表示模型  20-22
    2.2.2 有指导学习  22
    2.2.3 无指导学习  22
    2.2.4 半指导学习  22-23
    2.2.5 社交网络分析  23-26
第三章 基于 MinApriori 度量的网页相似度检测  26-44
  3.1 Web 挖掘的基本过程  26
  3.2 Web 信息采集  26-30
    3.2.1 信息采集的基本原理  26-27
    3.2.2 信息采集器的基本结构  27-29
    3.2.3 Web 信息采集的实现  29-30
  3.3 Web 信息抽取  30-33
    3.3.1 常用的 Web 信息抽取方法  30-32
    3.3.2 Web 信息抽取实现  32-33
  3.4 中英文分词  33-36
    3.4.1 三种常用中文分词方法  33-35
    3.4.2 三种分词方法的优劣对比  35-36
    3.4.3 英文分词  36
  3.5 基于 MinApriori 相似度度量的网页重复检测  36-44
    3.5.1 常用重复检测方法分类  36
    3.5.2 基于语义方法的常见相似度度量  36-38
    3.5.3 MinApriori 方法  38-40
    3.5.4 MinApriori 度量  40-41
    3.5.5 MinApriori 度量和其他度量的比较  41-42
    3.5.6 基于MinApriori 度量的相似度检测方法及其在新闻网页中的应用  42-44
第四章 基于 ComplementNaiveBayes 的新闻分类  44-72
  4.1 文本分类概述  44-47
    4.1.1 文本分类定义  44
    4.1.2 文本分类的种类  44-45
    4.1.3 文本分类的评估  45-47
  4.2 文本分类的基本流程  47
  4.3 常用文本分类算法  47-60
    4.3.1 基于贝叶斯理论的分类算法  47-55
    4.3.2 基于 SVM 的分类算法  55-57
    4.3.3 基于实例学习的分类算法  57-58
    4.3.4 基于决策树的分类算法  58-59
    4.3.5 基于规则的分类算法  59-60
  4.4 常用文本分类算法的比较  60-65
  4.5 属性降维  65-67
    4.5.1 用于降维的常用函数  65-67
  4.6 降维试验  67-68
  4.7 基于 ComplementNaiveBayes 新闻自动分类系统  68-72
第五章 网络新闻在线挖掘服务系统的实现  72-80
  5.1 系统开发背景  72-73
  5.2 硬件拓扑结构  73-75
  5.3 系统体系结构  75-76
  5.4 在线挖掘服务模块架构  76-78
  5.5 系统界面效果图  78-80
    5.5.1 新闻自动分类界面  78-79
    5.5.2 相似性检测界面  79-80
第六章 总结与展望  80-82
致谢  82-83
参考文献  83-86

相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. 基于仿生模式识别的文本分类技术研究,TP391.1
  3. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  4. 体育新闻报道中的侵权行为研究,G812
  5. 我国公共危机事件中政府与新闻媒体的互动研究,D630
  6. 穗港中文报纸新闻标题语言比较研究,G213
  7. 对台电视新闻节目传播策略研究,G222
  8. 《瞭望》与《南风窗》群体性事件报道策略比较研究,G212.2
  9. 从西方修辞的角度评析新华网对外报道的有效性,H315
  10. 关于当前新闻传媒道德的几点思考,B82-05
  11. 体育新闻的异化现象与大学生体育行为研究,G80-05
  12. 传媒预警与新闻舆论引导建构研究,G210
  13. 胡锦涛新闻思想研究,G210
  14. 我国法制新闻报道的现状与未来发展趋势研究,G212
  15. 以刘翔的媒介形象为例看新闻传播的神话性,G206
  16. 电视民生新闻主持人品牌化研究,G222.2
  17. 地市电视台民生新闻栏目研究,G222
  18. 解析第六次改版后的央视新闻频道,G229.2
  19. 基于数据分布特征的文本分类研究,TP391.1
  20. 汉英报刊体育新闻语篇的主位推进模式对比,H315
  21. 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com