学位论文 > 优秀研究生学位论文题录展示

Web新闻热点信息的自动发现及展示

作　者: 唐远华
导　师: 王振宇; 杨春晖
学　校: 华南理工大学
专　业: 软件工程
关键词: 话题检测与跟踪关键词自动抽取文本聚类 PAT-Tree
分类号: TP391.1
类　型: 硕士论文
年　份: 2012年
下　载: 84次
引　用: 0次
阅　读: 论文下载

内容摘要

随着互联网的飞速发展，网络媒体已经成为继报纸、广播、电视之后的第四大媒体。由于网络新闻所具备的开放性、信息传播的快速性等特点，使其成为热点信息传播的主要途径，也是产生热点信息的重要来源，因此，如何自动的从巨大的网络资源中发现当前的热点事件及实体具有非常重要的意义。热点信息包括热点话题及热点词语，是指某段时间内社会上发生的重大事件或人们普遍关注的对象；本文通过研究现有的话题检测与跟踪以及关键词的自动抽取等技术，利用这些技术来自动发现网络新闻报道中热点信息，本文的主要工作有：1、新闻网页的分类抓取及预处理操作。本文利用各大网站的编辑者将网页按目录结构存放这一特点，设计了一个分类抓取的网络爬虫，并在抓取的过程中进行网页的正文抽取。然后对正文信息进行分词、特征抽取等预处理操作，为后面的热点信息的发现提供数据。2、针对高维向量的稀疏问题，提出了一种稀疏向量压缩存储和相似度计算方法。3、热点信息的自动发现功能。首先分析了热点词语和热点话题的特点，采用中科院的分词工具ICTCLAS进行命名实体的抽取，结合PAT-Tree和互信息评估方法对非实体串进行抽取，最后进行热度评估，抽取出热点词语；使用Single-Pass二次聚类算法进行话题的检测与跟踪，首先对当天报道进行局部聚类，形成候选话题集，然后再与旧话题集进行归并聚类，形成最终的话题集，然后对这些话题进行热度排序，最终形成热点话题。4、热点信息的展示功能。通过对热点话题和热点词语进行统计分析，最终以各种图表的方式进行了展示。

全文目录

摘要  5-6
Abstract  6-8
目录  8-10
第一章绪论  10-16
  1.1 研究背景及意义  10-11
  1.2 国内外研究现状  11-14
    1.2.1 话题的检测与跟踪研究现状  11-13
    1.2.2 关键词自动抽取研究现状  13-14
  1.3 本文的研究内容  14
  1.4 论文的组织结构  14-16
第二章相关理论和技术  16-25
  2.1 PAT-Tree 技术  16-18
  2.2 网页正文抽取技术  18-20
  2.3 文本相似度计算方法  20-21
  2.4 文本聚类  21-24
    2.4.1 文本聚类概述  21
    2.4.2 常用静态聚类算法  21-23
    2.4.3 常用动态聚类算法  23-24
  2.5 本章小结  24-25
第三章 Web 页面采集与文本预处理  25-36
  3.1 网络爬虫设计与实现  25-28
    3.1.1 真实站点目录层次结构抽取  25-27
    3.1.2 网页分类抓取实现  27-28
  3.2 网页正文抽取  28-30
  3.3 文本预处理  30-34
    3.3.1 中文分词  31-32
    3.3.2 停用词处理  32
    3.3.3 特征词抽取及权重计算  32-33
    3.3.4 稀疏向量压缩存储及相似度计算  33-34
  3.4 本章小结  34-36
第四章热点信息发现  36-54
  4.1 热点信息发现功能划分  36
  4.2 热点词语发现  36-48
    4.2.1 热点命名实体抽取  37-40
    4.2.2 热点非实体串识别  40-48
  4.3 热点话题发现  48-53
    4.3.1 热点话题定义  48
    4.3.2 话题检测与跟踪的设计与实现  48-51
    4.3.3 话题的热度分析  51-52
    4.3.4 话题发现与跟踪的类图  52-53
  4.4 本章小结  53-54
第五章热点信息分析及展示  54-64
  5.1 热点话题的分析及展示  54-61
    5.1.1 话题的标题抽取及展示  54-59
    5.1.2 话题的趋势图分析及展示  59-60
    5.1.3 话题的信息岛图分析及展示  60-61
  5.2 热点词语的分析及展示  61-63
  5.3 本章小结  63-64
结论  64-65
参考文献  65-69
致谢  69

Web新闻热点信息的自动发现及展示

内容摘要

全文目录

相似论文