学位论文 > 优秀研究生学位论文题录展示
网络教育新闻文本分类系统的设计与实现
作 者: 王霞
导 师: 刘威
学 校: 华中科技大学
专 业: 通信与信息系统
关键词: 文本分类 向量空间模型 中心向量法 敏感词过滤 教育新闻
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 39次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网的持续发展,网络媒体迅速壮大并逐渐渗透到人们工作生活的各个方面。由于具备开放、自由及高效等优势,网络媒体的影响力越来越大,已成为我国新闻传播事业的重要组成部分。网络新闻的极大丰富给实时掌握特定领域的新闻热点带来了挑战。因此,设计一个专门化、自动化的网络新闻文本分类系统来实现网络媒体中海量信息的自动分类,对于提高新闻热点分析的效率具有重要的现实意义。本文系统主要实现教育领域网络新闻的自动分类。针对海量且繁杂的网络信息资源,本文重点设计了基于文本分类技术的中心向量分类法,完成对教育新闻的教育类判定以及校园新闻、高考等子类分类。中心向量分类法的实现涉及自然语言处理的相关技术,本文给出了中心向量分类器的具体实现过程:首先对网络爬虫抓取的文本进行人工研判,生成文本分类语料库;其次结合中文分词技术及文本分类技术,利用语料库中的训练样本训练类别中心向量,实现分类器;最后利用语料库中的测试样本对训练好的分类器进行测试。根据实际需求,本文还设计了提供用户自定义功能的敏感词过滤和预设主题匹配,分别实现对海量网络信息中敏感话题和预警主题的快速识别,提高了本文系统的灵活性和针对性。最后对系统进行集成测试,测试结果表明本文系统分类设计方案的可行性与有效性。本文给出了网络教育新闻文本分类的实现方案,解决了教育新闻热点分析课题中的重要问题,对其它领域的网络热点分析及文本分类具有借鉴意义。
|
全文目录
摘要 4-5 Abstract 5-8 英文缩略语 8-9 1 绪论 9-14 1.1 课题背景 9-10 1.2 项目背景及研究内容 10-12 1.3 本文组织结构 12-14 2 理论基础及相关技术 14-20 2.1 中文分词技术 14-15 2.2 文本分类技术 15-19 2.3 本章小结 19-20 3 网络教育新闻文本分类系统的设计 20-33 3.1 需求分析 20-24 3.2 总体设计 24-25 3.3 概要设计 25-32 3.4 本章小结 32-33 4 网络教育新闻文本分类系统的实现 33-54 4.1 开发环境 33 4.2 分类任务调度实现 33-34 4.3 敏感词过滤实现 34-36 4.4 内容分类实现 36-43 4.5 预设主题匹配实现 43-46 4.6 系统运行测试 46-53 4.7 本章小结 53-54 5 总结与展望 54-56 5.1 论文总结 54 5.2 今后工作展望 54-56 致谢 56-57 参考文献 57-60
|
相似论文
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 基于数据分布特征的文本分类研究,TP391.1
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
- 应用于搜索引擎的人物分类系统设计与实现,TP391.3
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 跨语言文本分类的研究,TP391.1
- 多角色社交网络研究,TP393.09
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 基于语义分析的文本挖掘研究,TP391.1
- 基于MapReduce的分布式文本数据过滤技术研究与系统实现,TP391.1
- 中国高校新闻教育人才培养的国际化研究,G642
- 网络舆情分析关键技术研究与实现,TP393.09
- 基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
- 基于关联技术的中文文本分类研究,TP391.1
- 软件缺陷自动分派研究,TP311.52
- 基于决策树分类算法的Web文本分类研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|