学位论文 > 优秀研究生学位论文题录展示

基于工程项目文档的文本挖掘系统的研究与实现

作 者: 宋菲
导 师: 朱群雄
学 校: 北京化工大学
专 业: 计算机应用技术
关键词: 文本挖掘 工程项目文档 非负矩阵因子分解(NMF) 概念全信息空间 物元 数值型结构化信息
分类号: TP391.1
类 型: 硕士论文
年 份: 2007年
下 载: 164次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着计算机应用技术的发展,电子文档的数量呈爆炸的趋势增长。各种形式的电子文档中蕴涵着丰富的信息,但由于它们是以非结构化或半结构化形式存储的,所以无法用传统的数据挖掘方法对其进行信息挖掘。在这种情况下,文本挖掘技术成了新的研究热点。文本挖掘过程以特征的提取、表示和选择为基础,将非结构化(半结构化)的文档数据形式转换成结构化的,然后运用文本分类、聚类、关联分析、分布分析和趋势预测等方法提取有用的知识。文本挖掘以最普遍、最自然的信息存储形式——文本为研究对象,具有很广阔的研究前景。目前,文本挖掘主要被应用于互联网领域的网页分类、相关检索、垃圾邮件过滤等方面,但在拥有大量技术文档的企业管理信息系统中,对文本挖掘的应用研究还很少。针对这个问题,本文以中石化项目“工程项目投标报价智能决策支持系统”的“文本管理模块”为对象,根据工程项目文档的特点和应用需求,设计并开发了“基于工程项目文档的文本挖掘系统”。该系统实现了文档的结构化管理,并通过提出的算法对文本信息进行深入的挖掘。首先,本文采用非负矩阵因子分解法(NMF)对工程项目文档进行聚类并提取类名,同时生成了基于概念的文本特征表示空间。在此基础上,本文提出了“基于概念全信息空间的文本知识挖掘算法”,该算法将经典的全信息理的思想应用于概念空间模型中,从应用的角度出发度量特征携带的全信息量,与传统的仅计算特征语义信息量的方法相比,能够为基于信息的决策提供更全面的参考依据。其次,本文按照物元理论提供的方法,对文档进行结构化的组织并提出了“基于简单文本型知识元的数值型结构化信息提取算法”。在此基础上,根据物元的可拓性质,拓展提取的信息空间。最后,以提出的两个算法作为核心算法,按照决策支持系统的三库结构(数据库、模型库、知识库),在Microsoft Visual Studio.Net 2003和SQL Sever环境下开发了界面友好文本知识挖掘系统。

全文目录


摘要  4-6
ABSTRACT  6-14
第一章 绪论  14-20
  1.1 文本挖掘的发展  14
  1.2 文本挖掘的概念  14-16
    1.2.1 文本挖掘的定义  14-15
    1.2.2 文本挖掘的步骤  15-16
  1.3 文本挖掘的主要技术及研究现状  16-18
    1.3.1 文本特征表示和选择  16
    1.3.2 文本分类  16-17
    1.3.3 文本聚类  17
    1.3.4 关联分析  17
    1.3.5 分布分析与趋势预测  17-18
  1.4 文本挖掘与相关领域的关系  18
    1.4.1 文本挖掘与数据挖掘的关系  18
    1.4.2 文本挖掘与信息检索的关系  18
    1.4.3 文本挖掘与信息提取的关系  18
  1.5 文本挖掘的应用  18-19
  1.6 本文的研究目的及内容  19-20
第二章 基于概念全信息空间的文本知识挖掘算法  20-29
  2.1 常用的聚类算法  20-21
    2.1.1 层次凝聚法  20-21
    2.1.2 平面划分法  21
  2.2 非负矩阵因子分解(NMF)聚类法  21-24
    2.2.1 基于概念空间的文本表示  22-23
    2.2.2 NMF算法  23-24
  2.3 基于概念全信息空间的文本知识挖掘算法  24-26
    2.3.1 语法信息c_(is)的计算  25
    2.3.2 语义信息t_(is)的计算  25
    2.3.3 语用信息u_(is)的计算  25-26
  2.4 基于工程项目文档的应用  26-29
第三章 基于物元理论的文本信息的组织和应用  29-41
  3.1 物元和物元的可拓性  29-32
    3.1.1 物元的概念  29-30
    3.1.2 物元的可拓性  30-32
  3.2 基于物元的文本信息的组织  32-33
  3.3 基于物元的结构化信息的提取  33-37
    3.3.1 数值型结构化信息  34-35
    3.3.2 基于简单文本型知识元的数值型结构化信息提取算法  35-36
    3.3.3 基于物元发散性的信息空间的拓展  36-37
  3.4 基于工程项目文档知识元的应用  37-41
第四章 文本知识挖掘系统的设计与实现  41-59
  4.1 系统总体设计  41-43
    4.1.1 系统的功能  41-42
    4.1.2 系统的总体结构  42-43
  4.2 模型库设计  43-46
    4.2.1 文档结构提取模型  43-44
    4.2.2 文档类别模板生成模型  44
    4.2.3 文档制作模型  44
    4.2.4 分词模型  44
    4.2.5 统计模型  44
    4.2.6 文档分类模型  44
    4.2.7 数值型结构化信息提取模型  44
    4.2.8 关联搜索模型  44-46
  4.3 数据库设计  46-49
    4.3.1 文档基本信息库  47-48
    4.3.2 文档结构库  48-49
    4.3.3 词—文档基本信息库  49
  4.4 知识库设计  49-51
    4.4.1 概念库  50-51
    4.4.2 数值型信息库  51
    4.4.3 文档类别模板库  51
  4.5 系统流程  51-52
  4.6 系统实现  52-59
第五章 结论  59-60
参考文献  60-64
致谢  64-65
研究成果和发表的学术论文  65-66
作者和导师简介  66-67
北京化工大学硕士研究生学位论文答辩委员会决议书  67-68

相似论文

  1. 公路生态系统健康评价方法研究,X826
  2. 土地生态安全评价方法综合应用研究,X826
  3. 福建省土地利用生态安全评价,X826
  4. 煤矿工人不安全行为测量与实践,X936
  5. 基于博客搜索的博文情感倾向性分析技术的研究,TP391.1
  6. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  7. 联合聚类算法研究及应用,TP311.13
  8. 美国影评人视野中的中国电影,J905
  9. 寒区旧水泥路面沥青罩面层间技术研究,U416.2
  10. 面向学科相关性分析的文本关联规则挖掘技术研究,TP311.13
  11. 辽宁省高新技术企业安全经营问题研究,F276.44
  12. 玛纳斯河流域水资源承载力评价模型研究,TV213.4
  13. 综合决策在边坡治理中的研究与应用,TU43
  14. n维复双曲空间上的离散群,稳定盆定理与基本域,O174.5
  15. 基于模糊物元的高速铣刀切削性能评价,TG714
  16. 数据挖掘在针灸文献经穴研究中的应用,TP311.13
  17. 面向企业竞争情报的Web文本挖掘关键技术的研究与实现,TP391.1
  18. 面向web文本挖掘的中文文本自动摘要关键技术研究,TP391.1
  19. 基于SOM聚类的WEB文本挖掘及其结果的可视化研究,TP311.13
  20. 我国房地产上市企业综合绩效分析及战略发展方向研究,F293.3
  21. 基于本体的个性化信息系统的应用研究,F49

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com