学位论文 > 优秀研究生学位论文题录展示
面向信息服务的Web文本分类技术研究
作 者: 隋福宁
导 师: 杨强
学 校: 国防科学技术大学
专 业: 管理科学与工程
关键词: 信息服务 特征选择 用户建模 文本分类 神经网络
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 56次
引 用: 1次
阅 读: 论文下载
内容摘要
信息技术的发展使得网络用户对信息资源的需求产生了更加复杂和差异化的变化。如何从海量的网络信息中快速准确地找到用户需求的信息数据是信息服务研究的主要问题。同时随着信息网络的发展,信息服务的范围逐渐扩大,服务深度和服务内容都在往更高的层次发展。影响信息服务质量的两大因素是服务对象的需求描述准确度即服务对象模型准确性和数据挖掘的准确性。服务对象的兴趣以及需求描述不准确就从根本上决定了信息服务的针对性和个性化水平不高;而数据挖掘水平的高低也直接对信息服务质量产生重大影响。本文立足两大因素,在服务对象建模和数据挖掘领域中文本分类技术进行了针对性研究。本文对信息服务对象建模技术以及中文文本分类技术进行了归纳总结,主要讨论了信息过滤、用户兴趣描述为主的信息服务技术以及中文文本分词、文本数据化表示、文本特征提取、文本分类器构建等文本分类流程中涉及的主要技术。比较了基于规则的分词方法和基于统计的分词方法的差异,研究了特征提取中的信息增益、CHI统计、互信息等特征选择方法和潜在语义索引(LSI)等特征抽取方法,对比了各自的优劣性;在文本分类方法中介绍了朴素贝叶斯方法、KNN方法以及支持向量机(SVM)分类器的分类原理;同时讨论了语料库的构建规则以及中英文语料库的构建现状。在分析传统特征降维方法的基础上,对信息增益方法进行改进得到一种新的特征选择算法,通过绝对相关的概念以及对干扰特征的消除方法来对该算法进行改进,有利于消除信息增益过程中产生的干扰特征;将国外基于知识库的特征提取方法在中文知识库中进行了尝试,并分析了其优劣性;通过对网页链接结构的分析以及PageRank算法的引用,尝试了基于网页结构信息的特征权值调整方法TermRank,并通过成熟的SVM分类器对此进行了对比实验。对信息服务对象描述与建模技术进行了深入研究并产生了一种完整的服务对象模型描述与建立、更新方法。在对中文分类器研究的基础上特别针对神经网络分类方法进行讨论,结合最小-最大模块网络(Min-Max Modular)分解组合优化方法与传统的BP神经网络,运用MATLAB进行了仿真实验。
|
全文目录
摘要 8-9 ABSTRACT 9-10 第一章 绪论 10-16 1.1 论文研究背景与意义 10-11 1.2 相关领域国内外研究现状 11-15 1.2.1 信息服务 11-12 1.2.2 服务对象建模 12 1.2.3 文本分类 12-15 1.3 本文的主要研究工作 15-16 1.4 本文组织结构 16 第二章 信息服务与文本分类的关键技术 16-33 2.1 信息服务的概念 17-19 2.1.1 信息服务的一般概念 17 2.1.2 本文信息服务的研究范围 17-18 2.1.3 信息服务的流程分析 18-19 2.2 信息服务的主要内容和关键技术 19-24 2.2.1 用户兴趣建模技术 20-21 2.2.2 信息过滤技术 21-24 2.3 中文文本分类的主要技术 24-32 2.3.1 中文文本分词 24-25 2.3.2 文本的数据化表示 25-27 2.3.3 文本特征提取 27-28 2.3.4 文本分类算法 28-31 2.3.5 语料库构建方法 31-32 2.4 本章小结 32-33 第三章 文本特征降维 33-56 3.1 特征选择方法 33-38 3.1.1 传统的特征选择方法 33-35 3.1.2 基于改进信息增益方法的特征选择算法 35-38 3.2 特征抽取方法 38-45 3.2.1 主成分分析法(PCA) 39 3.2.2 潜在语义索引(LSI) 39-40 3.2.3 基于中文知识库的特征提取方法 40-45 3.3 基于网页结构信息的特征权值调整算法 45-54 3.3.1 网页链接结构分析 45-47 3.3.2 TermRank 网页文本特征权值调整算法 47-49 3.3.3 网页文本间特征词链接关系分析 49-51 3.3.4 验证TR 算法 51-52 3.3.5 实验结果及分析 52-54 3.4 本章小结 54-56 第四章 服务对象模型与文本分类器构造 56-73 4.1 信息服务对象描述与建模 56-63 4.1.1 服务对象模型结构 56-58 4.1.2 对象模型建立方法 58-60 4.1.3 对象模型的更新 60-63 4.2 改进的神经网络文本分类器 63-69 4.2.1 BP 神经网络文本分类器 63-65 4.2.2 Min-Max Modular 网络 65-66 4.2.3 基于M3 的神经网络文本分类器 66-69 4.3 分类器验证 69-72 4.3.1 实验环境 69-70 4.3.2 实验结果 70-72 4.3.4 实验结论 72 4.4 本章小结 72-73 第五章 总结与展望 73-75 5.1 论文总结 73 5.2 下一步工作展望 73-75 致谢 75-76 参考文献 76-81 作者在学期间取得的学术成果 81-82 附录A 攻读硕士学位期间参加科研情况 82
|
相似论文
- 天然气脱酸性气体过程中物性研究及数据处理,TE644
- 压气机优化平台建立与跨音速压气机气动优化设计,TH45
- 调频式电容位移传感器高速测频与非线性校正技术研究,TH822
- 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
- 红外超光谱图像的虚拟探测器研究,TP391.41
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 唇读中的特征提取、选择与融合,TP391.41
- 模糊控制、神经网络在平面二级倒立摆中的应用,TP273.4
- 基于神经网络的水厂投药预测控制研究,TP273.1
- 视觉伺服四自由度机械臂的研究,TP242.6
- 机械臂视觉伺服系统的研究,TP242.6
- 压电驱动微工作台的控制与校正技术研究,TP273
- 某武器检测装置的控制系统设计,TP183
- 市级旅游用地规划环境影响评价研究,X820.3
- 珠三角地区高性能混凝土配合比智能化系统,TU528
- 大学生综合素质测评研究,G645.5
- 不具备全局Lipschitz条件的时滞细胞神经网络的反周期解研究,TP183
- 基于并行算法的模糊综合评价模型的设计与应用,TP18
- 基于神经网络的牡蛎呈味肽制备及呈味特性研究,TS254.4
- 基于神经网络辨识的同步发电机励磁控制研究,TM31
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|