学位论文 > 优秀研究生学位论文题录展示
基于工程项目文档的文本挖掘系统的研究与实现
作 者: 宋菲
导 师: 朱群雄
学 校: 北京化工大学
专 业: 计算机应用技术
关键词: 文本挖掘 工程项目文档 非负矩阵因子分解(NMF) 概念全信息空间 物元 数值型结构化信息
分类号: TP391.1
类 型: 硕士论文
年 份: 2007年
下 载: 164次
引 用: 0次
阅 读: 论文下载
内容摘要
随着计算机应用技术的发展,电子文档的数量呈爆炸的趋势增长。各种形式的电子文档中蕴涵着丰富的信息,但由于它们是以非结构化或半结构化形式存储的,所以无法用传统的数据挖掘方法对其进行信息挖掘。在这种情况下,文本挖掘技术成了新的研究热点。文本挖掘过程以特征的提取、表示和选择为基础,将非结构化(半结构化)的文档数据形式转换成结构化的,然后运用文本分类、聚类、关联分析、分布分析和趋势预测等方法提取有用的知识。文本挖掘以最普遍、最自然的信息存储形式——文本为研究对象,具有很广阔的研究前景。目前,文本挖掘主要被应用于互联网领域的网页分类、相关检索、垃圾邮件过滤等方面,但在拥有大量技术文档的企业管理信息系统中,对文本挖掘的应用研究还很少。针对这个问题,本文以中石化项目“工程项目投标报价智能决策支持系统”的“文本管理模块”为对象,根据工程项目文档的特点和应用需求,设计并开发了“基于工程项目文档的文本挖掘系统”。该系统实现了文档的结构化管理,并通过提出的算法对文本信息进行深入的挖掘。首先,本文采用非负矩阵因子分解法(NMF)对工程项目文档进行聚类并提取类名,同时生成了基于概念的文本特征表示空间。在此基础上,本文提出了“基于概念全信息空间的文本知识挖掘算法”,该算法将经典的全信息理的思想应用于概念空间模型中,从应用的角度出发度量特征携带的全信息量,与传统的仅计算特征语义信息量的方法相比,能够为基于信息的决策提供更全面的参考依据。其次,本文按照物元理论提供的方法,对文档进行结构化的组织并提出了“基于简单文本型知识元的数值型结构化信息提取算法”。在此基础上,根据物元的可拓性质,拓展提取的信息空间。最后,以提出的两个算法作为核心算法,按照决策支持系统的三库结构(数据库、模型库、知识库),在Microsoft Visual Studio.Net 2003和SQL Sever环境下开发了界面友好文本知识挖掘系统。
|
全文目录
摘要 4-6 ABSTRACT 6-14 第一章 绪论 14-20 1.1 文本挖掘的发展 14 1.2 文本挖掘的概念 14-16 1.2.1 文本挖掘的定义 14-15 1.2.2 文本挖掘的步骤 15-16 1.3 文本挖掘的主要技术及研究现状 16-18 1.3.1 文本特征表示和选择 16 1.3.2 文本分类 16-17 1.3.3 文本聚类 17 1.3.4 关联分析 17 1.3.5 分布分析与趋势预测 17-18 1.4 文本挖掘与相关领域的关系 18 1.4.1 文本挖掘与数据挖掘的关系 18 1.4.2 文本挖掘与信息检索的关系 18 1.4.3 文本挖掘与信息提取的关系 18 1.5 文本挖掘的应用 18-19 1.6 本文的研究目的及内容 19-20 第二章 基于概念全信息空间的文本知识挖掘算法 20-29 2.1 常用的聚类算法 20-21 2.1.1 层次凝聚法 20-21 2.1.2 平面划分法 21 2.2 非负矩阵因子分解(NMF)聚类法 21-24 2.2.1 基于概念空间的文本表示 22-23 2.2.2 NMF算法 23-24 2.3 基于概念全信息空间的文本知识挖掘算法 24-26 2.3.1 语法信息c_(is)的计算 25 2.3.2 语义信息t_(is)的计算 25 2.3.3 语用信息u_(is)的计算 25-26 2.4 基于工程项目文档的应用 26-29 第三章 基于物元理论的文本信息的组织和应用 29-41 3.1 物元和物元的可拓性 29-32 3.1.1 物元的概念 29-30 3.1.2 物元的可拓性 30-32 3.2 基于物元的文本信息的组织 32-33 3.3 基于物元的结构化信息的提取 33-37 3.3.1 数值型结构化信息 34-35 3.3.2 基于简单文本型知识元的数值型结构化信息提取算法 35-36 3.3.3 基于物元发散性的信息空间的拓展 36-37 3.4 基于工程项目文档知识元的应用 37-41 第四章 文本知识挖掘系统的设计与实现 41-59 4.1 系统总体设计 41-43 4.1.1 系统的功能 41-42 4.1.2 系统的总体结构 42-43 4.2 模型库设计 43-46 4.2.1 文档结构提取模型 43-44 4.2.2 文档类别模板生成模型 44 4.2.3 文档制作模型 44 4.2.4 分词模型 44 4.2.5 统计模型 44 4.2.6 文档分类模型 44 4.2.7 数值型结构化信息提取模型 44 4.2.8 关联搜索模型 44-46 4.3 数据库设计 46-49 4.3.1 文档基本信息库 47-48 4.3.2 文档结构库 48-49 4.3.3 词—文档基本信息库 49 4.4 知识库设计 49-51 4.4.1 概念库 50-51 4.4.2 数值型信息库 51 4.4.3 文档类别模板库 51 4.5 系统流程 51-52 4.6 系统实现 52-59 第五章 结论 59-60 参考文献 60-64 致谢 64-65 研究成果和发表的学术论文 65-66 作者和导师简介 66-67 北京化工大学硕士研究生学位论文答辩委员会决议书 67-68
|
相似论文
- 公路生态系统健康评价方法研究,X826
- 土地生态安全评价方法综合应用研究,X826
- 福建省土地利用生态安全评价,X826
- 煤矿工人不安全行为测量与实践,X936
- 基于博客搜索的博文情感倾向性分析技术的研究,TP391.1
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 联合聚类算法研究及应用,TP311.13
- 美国影评人视野中的中国电影,J905
- 寒区旧水泥路面沥青罩面层间技术研究,U416.2
- 面向学科相关性分析的文本关联规则挖掘技术研究,TP311.13
- 辽宁省高新技术企业安全经营问题研究,F276.44
- 玛纳斯河流域水资源承载力评价模型研究,TV213.4
- 综合决策在边坡治理中的研究与应用,TU43
- n维复双曲空间上的离散群,稳定盆定理与基本域,O174.5
- 基于模糊物元的高速铣刀切削性能评价,TG714
- 数据挖掘在针灸文献经穴研究中的应用,TP311.13
- 面向企业竞争情报的Web文本挖掘关键技术的研究与实现,TP391.1
- 面向web文本挖掘的中文文本自动摘要关键技术研究,TP391.1
- 基于SOM聚类的WEB文本挖掘及其结果的可视化研究,TP311.13
- 我国房地产上市企业综合绩效分析及战略发展方向研究,F293.3
- 基于本体的个性化信息系统的应用研究,F49
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|