学位论文 > 优秀研究生学位论文题录展示

基于最大熵模型的中文网页分类器设计和实现

作 者: 杨芹
导 师: 李培峰
学 校: 苏州大学
专 业: 软件工程
关键词: 网页 分类器 最大熵模型 特征项
分类号: TP393.092
类 型: 硕士论文
年 份: 2010年
下 载: 51次
引 用: 0次
阅 读: 论文下载
 

内容摘要


互联网的迅猛发展导致了网络中的信息成指数级增长,如何高效处理这些网页信息成一个重要的研究课题。本文通过对网页预处理、网页分类算法等方面的研究,设计和实现一个基于最大熵模型的中文网页分类器。首先,介绍了中文网页分类技术的研究背景,重点对目前常用的分类算法进行了分析和比较。其次,本文结合网页的半结构化特性,提取网页的结构特征,对网页内容进行初步的信息抽取,将网页表示成网页特征向量,并对使用不同特征组合的分类性能进行了对比实验。最后,本文将最大熵方法应用到网页分类中,提出了基于最大熵的中文网页分类器的基本框架。并将最大熵方法与其它常用的网页分类方法进行了性能比较,实验结果表明,这种方法在召回率、正确率、F1值、错误率等方面表现出了良好的性能。

全文目录


中文摘要  4-5
Abstract  5-8
第一章 序言  8-11
  1.1 课题背景  8
  1.2 国内外研究现状  8-10
  1.3 课题研究目的与相关问题  10
  1.4 论文的结构  10-11
第二章 网页分类的相关技术介绍  11-17
  2.1 网页信息提取的相关工作  11
  2.2 网页分类一般架构  11-12
  2.3 特征选择算法  12-15
  2.4 常用的网页分类方法  15-17
第三章 网页语料解析与预处理  17-27
  3.1 网页语料分析  17-19
  3.2 网页语料提取  19-24
    3.2.1 网页语料提取流程  19
    3.2.2 网页提取算法的部分实现  19-24
  3.3 网页语料的预处理  24-26
    3.3.1 网页语料的分词标注  24-25
    3.3.2 解析后的预处理  25-26
    3.3.3 结果分析  26
  3.4 本章小结  26-27
第四章 网页分类器的设计和实现  27-45
  4.1 系统环境  27
  4.2 系统框架  27
  4.3 网页特征提取模块的设计  27-29
  4.4 最大熵模型  29-31
    4.4.1 最大熵模型的介绍  29-31
    4.4.2 分类器模块的设计  31
  4.5 系统实现  31-38
    4.5.1 网页特征提取模块的实现  31-34
    4.5.2 分类器模块的实现  34-38
  4.6 系统演示  38-41
  4.7 实验结果与分析  41-44
    4.7.1 语料选择  41
    4.7.2 实验结果  41-43
    4.7.3 实验结果分析  43-44
  4.8 本章小结  44-45
第五章 总结与展望  45-46
  5.1 本文总结  45
  5.2 未来工作  45-46
参考文献  46-48
攻读学位期间公开发表的论文  48-49
致谢  49-50

相似论文

  1. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  2. 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
  3. 领域实体属性及事件抽取技术研究,TP391.1
  4. 人物言论抽取与跟踪技术研究,TP391.1
  5. 基于比对技术的非法网站探测系统的实现与研究,TP393.08
  6. 基于HTTP的智能家居网络改进方案,TP273.5
  7. 网络搜索引擎的相关技术研究,G354
  8. 汉语框架自动识别中的歧义消解,TP391.1
  9. 网页设计元素解析与探究,TP393.092
  10. 藏文新闻网页新词语调查研究,H214
  11. 论搜索引擎提供“快照”服务之违法性,D923.41
  12. 基于Web Services的电子警察系统设计与实现,TP311.52
  13. 基于单目视觉的车辆检测算法研究与实现,TP274
  14. 基于多核学习的高性能核分类方法研究,TP391.41
  15. 面向汽车行业的主题爬虫研究与实现,TP391.3
  16. 基于参考图像的乳腺肿块诊断方法研究,TP391.41
  17. 嵌入式浏览器网页排版技术研究与实现,TP393.092
  18. 基于改进的非参数回归交通流量预测方法,F570
  19. 基于最近邻及相似度测量检测钓鱼网页技术的研究,TP393.08
  20. 基于相似性测量检测图像型垃圾邮件技术的研究,TP393.098
  21. 心电特征提取及分类方法研究,TN911.7

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com