学位论文 > 优秀研究生学位论文题录展示
基于最大熵模型的中文网页分类器设计和实现
作 者: 杨芹
导 师: 李培峰
学 校: 苏州大学
专 业: 软件工程
关键词: 网页 分类器 最大熵模型 特征项
分类号: TP393.092
类 型: 硕士论文
年 份: 2010年
下 载: 51次
引 用: 0次
阅 读: 论文下载
内容摘要
互联网的迅猛发展导致了网络中的信息成指数级增长,如何高效处理这些网页信息成一个重要的研究课题。本文通过对网页预处理、网页分类算法等方面的研究,设计和实现一个基于最大熵模型的中文网页分类器。首先,介绍了中文网页分类技术的研究背景,重点对目前常用的分类算法进行了分析和比较。其次,本文结合网页的半结构化特性,提取网页的结构特征,对网页内容进行初步的信息抽取,将网页表示成网页特征向量,并对使用不同特征组合的分类性能进行了对比实验。最后,本文将最大熵方法应用到网页分类中,提出了基于最大熵的中文网页分类器的基本框架。并将最大熵方法与其它常用的网页分类方法进行了性能比较,实验结果表明,这种方法在召回率、正确率、F1值、错误率等方面表现出了良好的性能。
|
全文目录
中文摘要 4-5 Abstract 5-8 第一章 序言 8-11 1.1 课题背景 8 1.2 国内外研究现状 8-10 1.3 课题研究目的与相关问题 10 1.4 论文的结构 10-11 第二章 网页分类的相关技术介绍 11-17 2.1 网页信息提取的相关工作 11 2.2 网页分类一般架构 11-12 2.3 特征选择算法 12-15 2.4 常用的网页分类方法 15-17 第三章 网页语料解析与预处理 17-27 3.1 网页语料分析 17-19 3.2 网页语料提取 19-24 3.2.1 网页语料提取流程 19 3.2.2 网页提取算法的部分实现 19-24 3.3 网页语料的预处理 24-26 3.3.1 网页语料的分词标注 24-25 3.3.2 解析后的预处理 25-26 3.3.3 结果分析 26 3.4 本章小结 26-27 第四章 网页分类器的设计和实现 27-45 4.1 系统环境 27 4.2 系统框架 27 4.3 网页特征提取模块的设计 27-29 4.4 最大熵模型 29-31 4.4.1 最大熵模型的介绍 29-31 4.4.2 分类器模块的设计 31 4.5 系统实现 31-38 4.5.1 网页特征提取模块的实现 31-34 4.5.2 分类器模块的实现 34-38 4.6 系统演示 38-41 4.7 实验结果与分析 41-44 4.7.1 语料选择 41 4.7.2 实验结果 41-43 4.7.3 实验结果分析 43-44 4.8 本章小结 44-45 第五章 总结与展望 45-46 5.1 本文总结 45 5.2 未来工作 45-46 参考文献 46-48 攻读学位期间公开发表的论文 48-49 致谢 49-50
|
相似论文
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
- 领域实体属性及事件抽取技术研究,TP391.1
- 人物言论抽取与跟踪技术研究,TP391.1
- 基于比对技术的非法网站探测系统的实现与研究,TP393.08
- 基于HTTP的智能家居网络改进方案,TP273.5
- 网络搜索引擎的相关技术研究,G354
- 汉语框架自动识别中的歧义消解,TP391.1
- 网页设计元素解析与探究,TP393.092
- 藏文新闻网页新词语调查研究,H214
- 论搜索引擎提供“快照”服务之违法性,D923.41
- 基于Web Services的电子警察系统设计与实现,TP311.52
- 基于单目视觉的车辆检测算法研究与实现,TP274
- 基于多核学习的高性能核分类方法研究,TP391.41
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 基于参考图像的乳腺肿块诊断方法研究,TP391.41
- 嵌入式浏览器网页排版技术研究与实现,TP393.092
- 基于改进的非参数回归交通流量预测方法,F570
- 基于最近邻及相似度测量检测钓鱼网页技术的研究,TP393.08
- 基于相似性测量检测图像型垃圾邮件技术的研究,TP393.098
- 心电特征提取及分类方法研究,TN911.7
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|