学位论文 > 优秀研究生学位论文题录展示
Web新闻热点信息的自动发现及展示
作 者: 唐远华
导 师: 王振宇; 杨春晖
学 校: 华南理工大学
专 业: 软件工程
关键词: 话题检测与跟踪 关键词自动抽取 文本聚类 PAT-Tree
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 84次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网的飞速发展,网络媒体已经成为继报纸、广播、电视之后的第四大媒体。由于网络新闻所具备的开放性、信息传播的快速性等特点,使其成为热点信息传播的主要途径,也是产生热点信息的重要来源,因此,如何自动的从巨大的网络资源中发现当前的热点事件及实体具有非常重要的意义。热点信息包括热点话题及热点词语,是指某段时间内社会上发生的重大事件或人们普遍关注的对象;本文通过研究现有的话题检测与跟踪以及关键词的自动抽取等技术,利用这些技术来自动发现网络新闻报道中热点信息,本文的主要工作有:1、新闻网页的分类抓取及预处理操作。本文利用各大网站的编辑者将网页按目录结构存放这一特点,设计了一个分类抓取的网络爬虫,并在抓取的过程中进行网页的正文抽取。然后对正文信息进行分词、特征抽取等预处理操作,为后面的热点信息的发现提供数据。2、针对高维向量的稀疏问题,提出了一种稀疏向量压缩存储和相似度计算方法。3、热点信息的自动发现功能。首先分析了热点词语和热点话题的特点,采用中科院的分词工具ICTCLAS进行命名实体的抽取,结合PAT-Tree和互信息评估方法对非实体串进行抽取,最后进行热度评估,抽取出热点词语;使用Single-Pass二次聚类算法进行话题的检测与跟踪,首先对当天报道进行局部聚类,形成候选话题集,然后再与旧话题集进行归并聚类,形成最终的话题集,然后对这些话题进行热度排序,最终形成热点话题。4、热点信息的展示功能。通过对热点话题和热点词语进行统计分析,最终以各种图表的方式进行了展示。
|
全文目录
摘要 5-6 Abstract 6-8 目录 8-10 第一章 绪论 10-16 1.1 研究背景及意义 10-11 1.2 国内外研究现状 11-14 1.2.1 话题的检测与跟踪研究现状 11-13 1.2.2 关键词自动抽取研究现状 13-14 1.3 本文的研究内容 14 1.4 论文的组织结构 14-16 第二章 相关理论和技术 16-25 2.1 PAT-Tree 技术 16-18 2.2 网页正文抽取技术 18-20 2.3 文本相似度计算方法 20-21 2.4 文本聚类 21-24 2.4.1 文本聚类概述 21 2.4.2 常用静态聚类算法 21-23 2.4.3 常用动态聚类算法 23-24 2.5 本章小结 24-25 第三章 Web 页面采集与文本预处理 25-36 3.1 网络爬虫设计与实现 25-28 3.1.1 真实站点目录层次结构抽取 25-27 3.1.2 网页分类抓取实现 27-28 3.2 网页正文抽取 28-30 3.3 文本预处理 30-34 3.3.1 中文分词 31-32 3.3.2 停用词处理 32 3.3.3 特征词抽取及权重计算 32-33 3.3.4 稀疏向量压缩存储及相似度计算 33-34 3.4 本章小结 34-36 第四章 热点信息发现 36-54 4.1 热点信息发现功能划分 36 4.2 热点词语发现 36-48 4.2.1 热点命名实体抽取 37-40 4.2.2 热点非实体串识别 40-48 4.3 热点话题发现 48-53 4.3.1 热点话题定义 48 4.3.2 话题检测与跟踪的设计与实现 48-51 4.3.3 话题的热度分析 51-52 4.3.4 话题发现与跟踪的类图 52-53 4.4 本章小结 53-54 第五章 热点信息分析及展示 54-64 5.1 热点话题的分析及展示 54-61 5.1.1 话题的标题抽取及展示 54-59 5.1.2 话题的趋势图分析及展示 59-60 5.1.3 话题的信息岛图分析及展示 60-61 5.2 热点词语的分析及展示 61-63 5.3 本章小结 63-64 结论 64-65 参考文献 65-69 致谢 69
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 演化聚类算法及其应用研究,TP311.13
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- 基于标记样本和相似度调整的k均值算法在文本聚类中的应用,TP181
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 教育新闻热点话题发现系统的设计与实现,TP391.1
- 基于文本聚类和语料库的信誉维度发现研究,TP391.1
- Web新闻热点发现系统的设计与实现,TP393.09
- 面向海量数据的云存储系统实现与应用研究,TP333
- 面向学科的文献资源聚类系统研究及应用,TP391.1
- 网络舆情预警辅助决策支持系统模型及关键技术研究,TP393.09
- 博客热点话题挖掘方法,TP393.092
- 互联网新闻热点挖掘系统的研究与实现,TP393.09
- 网络热点事件挖掘及特征描述研究,TP393.09
- 改进的模糊C-均值算法在文本聚类中的应用研究,TP391.1
- SOM算法的改进及其在中文文本聚类的应用,TP391.1
- 基于Web文本挖掘的网络口碑监测系统研究,TP391.1
- Web中文文本聚类研究,TP391.1
- 中文文本聚类的评价与改进研究,TP391.1
- 面向金融领域BBS的话题发现和热度评价,TP393.094
- Web页面语义信息提取方法的研究,TP393.09
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|