学位论文 > 优秀研究生学位论文题录展示

大规模网络数据中的平行句对抽取

作 者: 王超
导 师: 赵铁军
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 平行句对 挖掘句对评价 对照网页识别 平行网页判断 MapReduce
分类号: TP393.09
类 型: 硕士论文
年 份: 2011年
下 载: 19次
引 用: 0次
阅 读: 论文下载
 

内容摘要


本文由方法和实现两个不同角度给出了一套由全网网络数据源环境中抽取平行句对的方法。从句对挖掘算法角度上,将全网网络数据源分为对照网页和平行网页两种形式进行了网页中的平行文本段的抽取,对照网页部分依次使用基于词典的双语页面过滤和自适应模板匹配的方法进行文本段抽取,该部分达到了81%的召回率,平行网页集合则先根据URL字符串相似匹配获得平行网页对候选,再从配对网页中通过节点匹配方式进行平行文本段的挖掘,该部分数据召回率达到75%。后又通过句子切分和句对齐将平行文本段转为了平行句对,通过本文给出的句对整理方法对结果句对进行整理,并根据自定义的平行句对质量评价算法对句对进行了评分和过滤,最终得到非重复的结果平行句对约660万。该数据由随机抽样进行人工评价,覆盖率超过96%,可用性超过93%。从句对挖掘流程角度上,给出了两种网页集合分别的分布式方案,用于应对算法本身应对大规模数据困难的问题。给出了对照网页的分片处理方法,并给出了平行网页采用的子集分片挖掘方法,提出了可行的应对大规模数据处理及数据增量更新的方案。最终在约75亿网页数据集,进行对照数据部分抽取运行时间约48小时,平行数据部分抽取时间约24小时。本文提出了完整的由对照网页和平行网页两种混合的网络数据源进行平行句对抽取的方法,在实际条件下进行应用,并在可行时间开销内获取结果句对。通过对流程中增量更新的实现,完成了多数据集合并和网络新数据源的抽取问题。所提出的抽取流程支持大规模数据的抽取,同时支持增量更新,保证了该方法实践可用性。最终句对质量评价结果证明最终结果句对可用。

全文目录


摘要  4-5
ABSTRACT  5-8
第1章 绪论  8-15
  1.1 课题背景  8-9
  1.2 相关研究及现状  9-10
  1.3 平行句对抽取的一般方法  10-13
    1.3.1 网页集合构建  11-12
    1.3.2 由网页集合中过滤数据源候选  12
    1.3.3 对齐段落的抽取  12-13
    1.3.4 由对齐段落候选中获得对齐句对  13
    1.3.5 最终结果的过滤整理和去重  13
  1.4 本文的研究内容和章节安排  13-15
第2章 句对挖掘的系列算法  15-30
  2.1 引言  15
  2.2 从网页中抽取对齐段落的方法  15-25
    2.2.1 针对实例进行网络数据源分析  15-16
    2.2.2 用于对照网页的自适应模板匹配句对挖掘算法  16-21
    2.2.3 用于平行网页的最大节点匹配句对挖掘方法  21-25
  2.3 将对齐段落转化为对齐句对  25-26
    2.3.1 按照语言特征进行句对切分  26
    2.3.2 基于长度的句对齐算法  26
  2.4 句对评分过滤和句对整理方法  26-29
    2.4.1 结合多参数的句对质量预测方法  27-28
    2.4.2 对于结果句对的字符级整理  28-29
  2.5 本章小结  29-30
第3章 挖掘流程及其实现  30-40
  3.1 引言  30
  3.2 数据集简单分片的大规模对照网页挖掘步骤  30-33
    3.2.1 单次运行的数据过滤  30-32
    3.2.2 网页相互独立的挖掘流程  32
    3.2.3 数据集合并的增量更新方法  32-33
  3.3 按子集划分的分布式平行网页挖掘流程  33-39
    3.3.1 网页数据索引信息的简历  33-34
    3.3.2 通过MapReduce 进行网页的配对  34-36
    3.3.3 配对网页分散问题的解决  36-37
    3.3.4 应用分布式的增量更新  37-39
  3.4 本章小结  39-40
第4章 挖掘效果的改进  40-47
  4.1 引言  40
  4.2 针对实际数据源改进句对挖掘系列算法  40-43
    4.2.1 添加网页标签预处理的双语网页判断  40-41
    4.2.2 用增量匹配完善平行网页对选取  41-43
  4.3 平行文本段抽取算法的改进  43-45
    4.3.1 加入节点特征的对照网页文本段抽取  43-44
    4.3.2 用网页结构的实时处理改进平行网页文本段抽取  44-45
  4.4 句对过滤和整理的改进  45-46
    4.4.1 句对评分和过滤的调整策略  45
    4.4.2 针对网络数据源挖掘结果的句对整理  45-46
  4.5 本章小结  46-47
第5章 效果评估  47-52
  5.1 引言  47
  5.2 平行句对的评测参数  47
  5.3 平行句对的具体评测内容  47-51
    5.3.1 随机抽样检测召回率  47-48
    5.3.2 人工评价结果句对可用性  48-50
    5.3.3 通过检索关键词进行覆盖率评估  50-51
  5.4 本章小结  51-52
结论  52-54
参考文献  54-57
攻读硕士学位期间发表的论文及其它成果  57-59
致谢  59

相似论文

  1. 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
  2. 高速网络环境下的入侵检测系统的研究,TP393.08
  3. 数据中心Hadoop部署与追踪系统研究,TP308
  4. 云环境下MapReduce容错技术的研究,TP302.8
  5. 一个可扩展的MapReduce原型设计与实现,TP311.52
  6. 基于MapReduce的分布式文本数据过滤技术研究与系统实现,TP391.1
  7. 基于段落指纹的大规模近似网页检测算法研究,TP393.092
  8. 基于IaaS云计算的Web应用技术研究,TP393.09
  9. 云计算中MapReduce性能优化及应用,TP3
  10. 基于MapReduce的聚类算法的并行化研究,TP311.13
  11. MapReduce集群多用户作业调度方法的研究与实现,TP311.13
  12. 基于时空折衷算法的Word文档破解研究,TP391.12
  13. 基于hadoop平台作业调度算法的研究,TP301.6
  14. 基于云计算的并行聚类算法研究,TP311.13
  15. 基于MapReduce的并行决策树分类算法研究与实现,TP311.13
  16. 基于Eucalyptus云平台的Hadoop集群研究,TP338.8
  17. 基于MapReduce的分布式编程框架的设计与实现,TP311.52
  18. 基于MapReduce框架的分布式网络爬行器研究,TP391.3
  19. MapReduce模型在Hadoop中的性能优化及改进,TP338.8
  20. 互联网双语资源挖掘关键技术研究,TP393.02

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com