学位论文 > 优秀研究生学位论文题录展示

马尔可夫逻辑网在Web中的应用

作 者: 黄涛
导 师: 张玉芳
学 校: 重庆大学
专 业: 计算机系统结构
关键词: Markov逻辑网 统计关系学习 文本分类 重复数据删除
分类号: O211.62
类 型: 硕士论文
年 份: 2010年
下 载: 107次
引 用: 2次
阅 读: 论文下载
 

内容摘要


概率图模型能很好处理不确定性,一阶逻辑可以简洁地表示知识,将概率与逻辑整合在同一个表示之中一直是人工智能领域的一个长期目标。Markov逻辑网是公式附加权值的一阶逻辑知识库,且可作为构建Markov网的模板。传统的统计方法是基于数据间的独立同分布,并假设这些数据具有相同的结构。但是在现实的Web世界中,存在着大量的半结构化数据,数据本身不但具有复杂的内部结构,而且数据外部通过超链接、引用等联系起来构成关系数据集合。传统的统计方法忽略了这些数据间的关系结构,而这些“关系”却含有更多深层次的语义信息。统计关系学习就是针对“关系”的学习方法,集一阶逻辑/关系表示、不确定性处理和机器学习/数据挖掘于一体,其目的是挖掘关系数据中的似然模型。Markov逻辑网是一种将Markov网与一阶逻辑相结合的统计关系学习模型,已经成为人工智能领域的一个重要研究热点,在互联网、社会网、计算生物学、普适计算等领域应用广泛。本文重点研究了Markov逻辑网在Web领域的相关应用。主要工作归纳如下:1.研究了Markov逻辑网相关理论。本文首先介绍了Markov逻辑网的理论基础,即概率图模型、Markov随机场/Markov网和一阶逻辑。然后研究了Markov逻辑网的概念与特性,包括闭Markov逻辑网、三大基本假设和Markov逻辑网的知识库。最后讨论了Markov逻辑网的权值学习算法和推理算法。2.将Markov逻辑网应用到文本分类中在统计关系学习中,可以通过关系(逻辑)来很好的表示知识,故文本分类问题的Markov逻辑表示也十分的简洁。实验结合了判别式训练的学习算法,MC-SAT、吉布斯抽样和模拟退火等推理算法,结果表明基于Markov逻辑网的分类方法能够取得比传统KNN分类算法更好的效果。3.将Markov逻辑网应用到重复数据删除中本文给出了如何用少量的谓词公式来描述重复数据删除问题中不同方面的本质特征,并将Markov逻辑表示的各方面组合起来形成各种模型。实验采用了判别式训练的学习算法和MC-SAT推理算法,结果表明基于Markov逻辑网的重复数据删除方法涵盖了经典的Fellegi-Sunter模型,其效果明显优于基于聚类算法和基于相似度计算的方法,且可以通过Markov逻辑网构建此类问题的统一框架。4.总结了Markov逻辑网在Web领域的其他潜在应用针对信息抽取问题,本文仅从如何检测域边界的角度出发,构建了Markov逻辑网,虽然不太完善,但其效果略优于传统的隐马模型。而对于超文本分类、信息检索,则给出了较为简单的模型构建方法。综上所述,我们可以得出如下结论:Markov逻辑网是一种功能强大的统计关系学习方法,不仅能够灵活地将大量领域知识采用模块化的形式引入到Markov网中,还可以很好的处理不确定性、允许不完整和矛盾的知识,其应用领域非常广泛。

全文目录


中文摘要  3-5
英文摘要  5-10
1 绪论  10-14
  1.1 研究背景与意义  10-12
    1.1.1 研究背景——人工智能和Web 的发展  10-11
    1.1.2 学术意义  11
    1.1.3 实用意义  11-12
  1.2 国内外研究现状  12
  1.3 研究内容  12-13
  1.4 本文结构  13-14
2 统计关系学习  14-19
  2.1 数据挖掘  14-15
  2.2 多关系数据挖掘——统计关系学习  15-16
  2.3 统计关系学习方法分类  16-17
  2.4 统计关系学习的应用  17
  2.5 本章小结  17-19
3 Markov 逻辑网相关理论  19-37
  3.1 概率图模型  19-20
  3.2 Markov 随机场和 Markov 网  20-22
  3.3 一阶逻辑  22-25
    3.3.1 基本概念  22-23
    3.3.2 Markov 逻辑网中的一阶逻辑知识库  23-25
  3.4 Markov 逻辑网  25-30
    3.4.1 Markov 逻辑网概念  25-26
    3.4.2 闭Markov 逻辑网  26-27
    3.4.3 Markov 逻辑网的三大假设  27-28
    3.4.4 Markov 逻辑网与一阶逻辑知识库  28-30
  3.5 Markov 逻辑网算法  30-33
    3.5.1 权值学习算法  30-31
    3.5.2 推理算法  31-33
  3.6 Alchemy 简介  33-36
    3.6.1 输入文件  33
    3.6.2 Markov 逻辑网语法  33-34
    3.6.3 基本任务  34-36
  3.7 本章小结  36-37
4 Markov 逻辑网在文本分类中的应用  37-43
  4.1 文本分类概述  37-38
  4.2 基于 Markov 逻辑网的文本分类  38
  4.3 实验及分析  38-42
    4.3.1 数据集  38
    4.3.2 实验方法  38-39
    4.3.3 实验结果及分析  39-42
  4.4 本章小结  42-43
5 Markov 逻辑网在重复数据删除中的应用  43-54
  5.1 重复数据删除概述  43-44
  5.2 重复数据删除问题的 Markov 逻辑表示  44-48
    5.2.1 Markov 逻辑中的各种等价关系  44-45
    5.2.2 重复数据删除问题的Markov 逻辑表示  45-48
  5.3 实验及分析  48-53
    5.3.1 数据集  48
    5.3.2 模型  48-49
    5.3.3 实验方法  49-50
    5.3.4 结果分析  50-53
  5.4 本章小结  53-54
6 其它应用  54-59
  6.1 信息抽取  54-57
    6.1.1 信息抽取概述  54
    6.1.2 基于Markov 逻辑网的信息抽取  54-56
    6.1.3 实验及分析  56-57
  6.2 超文本分类(Hypertext Classification)  57-58
  6.3 信息检索(Information Retrieval)  58
  6.4 本章小结  58-59
7 总结与展望  59-62
  7.1 全文总结  59-60
  7.2 未来展望  60-62
致谢  62-63
参考文献  63-68
附录  68
  A.作者在攻读硕士学位期间发表的论文目录  68
  B.作者在攻读硕士学位期间所参与的科研课题  68

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  3. 基于数据分布特征的文本分类研究,TP391.1
  4. 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
  5. 广域网数据压缩算法的研究与实现,TP391.41
  6. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  7. 重复数据删除技术的研究与实现,TP333
  8. 在线备份系统中存储服务器的研究与实现,TP333
  9. 在线重复数据删除技术的研究与实现,TP333
  10. 虚拟桌面环境下数据去冗余系统的设计与实现,TP333
  11. 网络教育新闻文本分类系统的设计与实现,TP391.1
  12. 云备份中的双指纹校验与多线程传输技术研究,TP309.3
  13. 支持重复数据删除的网络备份系统中存储服务器的设计与实现,TP309.3
  14. 一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53
  15. 跨语言文本分类的研究,TP391.1
  16. 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
  17. 基于语义分析的文本挖掘研究,TP391.1
  18. 网络舆情分析关键技术研究与实现,TP393.09
  19. 基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
  20. 基于关联技术的中文文本分类研究,TP391.1
  21. 软件缺陷自动分派研究,TP311.52

中图分类: > 数理科学和化学 > 数学 > 概率论与数理统计 > 概率论(几率论、或然率论) > 随机过程 > 马尔可夫过程
© 2012 www.xueweilunwen.com