学位论文 > 优秀研究生学位论文题录展示

基于文本挖掘的定向性信息分析研究

作 者: 程文娟
导 师: 梁昌勇
学 校: 合肥工业大学
专 业: 信息管理与信息系统
关键词: 定向性信息分析 信息抽取 主题分类 文本聚类 用户参与
分类号: TP391.1
类 型: 博士论文
年 份: 2012年
下 载: 72次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着网络技术的应用和普及,越来越多的信息充斥在网络之上。如何在众多的资源中找到适合自己需求的信息,成为众多学者、专家和网络用户关心的核心问题之一。如何帮助信息相关主体及时了解、追踪自身或行业相关信息及社会评价对其宣传、决策、发展及危机管理至关重要。定向性信息分析是解决这一问题的有效方案,定向性信息分析指在挖掘个人用户或单位用户长期关注的领域信息或主题信息,针对个人或机构用户长期关注的兴趣点,对互联网信息进行分析和追踪,从中筛选出一个与用户兴趣相关的信息子集。本文针对定向性信息分析中的信息选择、主题分类文本聚类等问题展开深入研究,提出能够有效解决这些问题的相应方法和模型,为推动定向性信息分析更好的发展发挥积极的作用。本文通过搜索引擎关键字检索获取的文档来源信息,据此利用爬虫技术得到分析的文档,根据定向性信息分析任务的特点,对定向性信息分析过程每个阶段的技术和相关算法进行了深入研究和探讨,并提出一系列有效、适用的模型或算法,最终构建了一个高效、实用的定向性信息分析任务框架。本文重点研究了以下问题:1、基于搜索引擎返回文本的启发式信息抽取模型检索返同的结果包含了标题,内容摘要等信息,仅以返回结果为分析对象是远远不够的。为了得到全面的文档分析要素,本文构建了包含文档正文、点击量、发布时间、引用次数等文档的XML结构,对如何获取每个文档XML结构中的元素给出了具体方法,重点研究了文档止文的抽取,基于DOM树结构,在调查统计在基础上,根据标点符号和链接在止文分析中的提示作用,提出布局标签权重的计算办法,利用搜索引擎返回摘要确定止文的中心标签,描述了中心标签及其权重的聚合过程,将权重最大的标签作为正文抽取标签。2、用户参与的主题聚类与分类框架描述了主题分类的困难,针对定向性信息挖掘任务的特点,分析用户参与主题分类的必要性和可能性,引入文本分类的监督特征,提出定向性信息挖掘任务的完整主题聚类、分类框架。3、基于不确定概率逻辑的文本分类模型在对文本分类技术进行了较全面的研究基础上,详细分析了文本分类的特征,深入讨论造成分类器偏差的原闪,引入基于不确定概率逻辑的主观逻辑理论及模型,特征对类别的信任关系作为文本分类的证据,提出基于不确定概率逻辑的文本分类模型。通过观念空间计算特征的分布权值,并将分布权值作为参数调节基础权重得到特征权重,利用特征权重实现简单的线性分类器。通过在通用分类评测语料集上比较实验显示,本文模型相对NB、KNN、 LLSF、NNet比照算法性能(分类准确率)有显著提高,相对SVM,性能相当,但分类速度有明显提升。模型对不同语料集有较强的适应性,分类器在没有特征选择的情况下,仍保持较高的性能。4、基于文本分类和用户参与的K-Means聚类模型没有任何一种聚类聚类算法可以普遍适用于揭示各种多维数据集所呈现出来的多种多样的结构,不同的应用可利用的信息来源不尽相同,对聚类质量、效率等方面往往都有特定的要求,因此要根据应用场合,充分利用相关信息,选择合适的聚类算法。本文详细描述和比较了划分式聚类算法、层次聚类算法、基于密度的聚类算法、基于网格的聚类算法等聚类方法,K-Means聚类模型无论从算法的简洁性还是效率均显示较强的生命力,深入讨论了K-Means聚类模型的优缺点以及改进方法,本文引入文本分类和用户参与监督信息,整合系统自动监督与人工监督两方面优势,建立基于文本分类和用户参与的K-Means聚类模型,有效克服了K-Means聚类初始K值难以确定,易陷入局部最优等问题,通过用户监督确认下几轮迭代,产生了较理想的、人为可控的主题分类结果。为能使用户快速了解文档的主题内容和热度,本文将文本分类标签问题为父标签,并且TFIDF值作为子标签选取依据,将TFIDF值大的词语作为备选标签,引入HowNet词典网络,取得概念、范围较为宽泛的子标签。借鉴网站传播影响强度模型,定义本文文档热度计算方法。本文对定向性信息分析任务进行了初步探究,紧密结合相关任务的特点,研究更为有效、适用的模型和算法,为今后深入研究奠定基础。

全文目录


摘要  8-10
ABSTRACT  10-13
致谢  13-19
第一章 绪论  19-30
  1.1 研究背景与研究意义  19-20
    1.1.1 研究背景  19
    1.1.2 研究意义  19-20
  1.2 定向性信息挖掘的任务  20-24
    1.2.1 信息选择  20-21
    1.2.2 主题分类  21-22
    1.2.3 情感分析  22
    1.2.4 热度分析  22-23
    1.2.5 存在的问题  23-24
  1.3 国内外研究现状  24-28
    1.3.1 页面分析技术研究现状  24-25
    1.3.2 主题分类研究现状  25-26
    1.3.3 情感计算研究现状  26-27
    1.3.4 文档热度分析研究现状  27-28
  1.4 本文主要内容及组织结构  28-29
  1.5 本章小结  29-30
第二章 基于搜索引擎返回文本的信息抽取模型研究  30-49
  2.1 信息抽取现状分析  30-31
  2.2 信息抽取预处理  31-35
    2.2.1 文档结构表示  31-33
    2.2.2 文档信息检索  33-35
  2.3 信息抽取任务和流程  35-40
  2.4 一种启发HTML文档信息抽取模型研究  40-45
    2.4.1 一个观察案例  40-42
    2.4.2 启发式HTML文档信息抽取模型  42-45
  2.5 实验及性能分析  45-48
  2.6 本章小结  48-49
第三章 用户参与的主题聚类与分类框架研究  49-64
  3.1 主题分类描述  49-51
  3.2 主题聚类分类预处理  51-57
    3.2.1 文本预处理  51-52
    3.2.2 特征选择  52-54
    3.2.3 文本分类语料库  54-55
    3.2.4 评价指标  55-57
  3.3 主题分类的瓶颈及已有对策  57-58
    3.3.1 主题分类的困难  57-58
    3.3.2 国内外研究对问题的对策  58
  3.4 用户参与模型的必要性  58-60
  3.5 用户参与的主题聚类、分类模型  60-63
  3.6 本章小结  63-64
第四章 基于不确定概率逻辑的文本分类模型研究  64-87
  4.1 文本分类问题描述  64-65
  4.2 文本分类方法  65-68
  4.3 文本分类任务特征分析  68-71
    4.3.1 文本分类任务的特点  68
    4.3.2 预处理对分类性能的影响  68-70
    4.3.3 语料集对分类性能的影响  70
    4.3.4 文本分类假设对分类效果影响  70-71
  4.4 基于信任机制文本分类分析  71-74
  4.5 基于不确定概率逻辑的文本分类  74-80
    4.5.1 不确定概率逻辑  74-75
    4.5.2 特征概率方差  75-76
    4.5.3 特征分布权值  76-78
    4.5.4 线性分类器  78-80
  4.6 实验和性能分析  80-85
    4.6.1 实验设计方案  80-82
    4.6.2 实验结果  82-85
  4.7 本章小结  85-87
第五章 基于文本分类和用户参与的K-Means聚类模型研究  87-102
  5.1 文本聚类问题描述  87-88
  5.2 聚类算法的类别及综合评价  88-94
    5.2.1 划分式聚类算法  88-90
    5.2.2 层次聚类算法  90-91
    5.2.3 基于密度的聚类算法  91-92
    5.2.4 基于网格的聚类算法  92-93
    5.2.5 聚类算法综合比较  93-94
  5.3 聚类结果评价  94-95
  5.4 基于文本分类和用户参与的K-Means聚类模型  95-98
    5.4.1 文本分类对文本聚类的作用  95-96
    5.4.2 用户参与聚类  96
    5.4.3 改进的K-Means算法  96-98
  5.5 主题类别标签标注  98
  5.6 主题的热度分析  98-100
  5.7 实验结果及分析  100-101
    5.7.1 数据集  100
    5.7.2 评价标准  100
    5.7.3 实验结果  100-101
  5.8 本章小结  101-102
第六章 总结与展望  102-104
  6.1 主要研究工作  102-103
  6.2 展望  103-104
参考文献  104-113
在读期间发表的论文  113

相似论文

  1. 领域实体属性及事件抽取技术研究,TP391.1
  2. 隐式用户兴趣挖掘的研究与实现,TP311.13
  3. 时间表达式识别与归一化研究,TP391.1
  4. 基于文本挖掘的学者简历自动生成,TP391.1
  5. 基于本体的食品投诉文档文本聚类研究,TP391.1
  6. 基于本体的食品投诉文本危害信息抽取研究,TP391.1
  7. 基于本体的食品投诉文档事件追踪研究,TP391.1
  8. 数据挖掘技术在证券市场分析中的应用研究,F830.91
  9. 基于语义的Web信息抽取方法的研究与应用,TP393.09
  10. 构件垂直搜索引擎的关键技术研究,TP391.3
  11. 基于社会标注的主题分类及排序优化方法研究,TP391.1
  12. 主题搜索引擎关键技术研究,TP391.3
  13. 面向海量数据的云存储系统实现与应用研究,TP333
  14. 程序理解中的信息抽取和声明语句解释的研究,TP311.11
  15. 20世纪中美城市文学比较研究,I206.7
  16. 基于领域本体的Web信息抽取研究,TP393.09
  17. Web就业信息抽取系统的实现研究,TP393.09
  18. 博客热点话题挖掘方法,TP393.092
  19. 软件安全领域垂直搜索引擎的优化设计与实现,TP391.3
  20. 基于信息抽取技术的商业社会网络创建研究,TP391.1
  21. 基于Lucene的汽车信息垂直搜索引擎的设计与实现,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com