学位论文 > 优秀研究生学位论文题录展示

藏文网页自动发现与采集技术研究

作　者: 王思丽
导　师: 戴玉刚
学　校: 西北民族大学
专　业: 计算机软件与理论
关键词: 藏文网页搜索策略信息采集编码转换 HTML解析
分类号: TP393.092
类　型: 硕士论文
年　份: 2010年
下　载: 81次
引　用: 0次
阅　读: 论文下载

内容摘要

随着互联网技术的深入发展,藏族文化信息越来越多的以藏文网页的形式出现,真实而生动地展示了藏民族的历史发展进程。与此同时,目前的藏文软件基本都采用自定义编码,造成藏文网页编码不统一,数据资源难以共享和交换,而且在不同编码间转换需要消耗巨大的工作量,给藏语言研究人员带来了很大不便。因此,建立一个内容全面、编码统一的藏文网页信息资源库势在必行。本文通过对传统中文网页采集技术的分析,结合藏文网页自身的结构特点,研究了藏文网页自动发现与采集技术,并构造了藏文网页信息采集系统(简称TS系统),系统基本实现了藏文网页信息的自动发现和采集,藏文网页不同编码之间的相互转换,藏文网页的存储。本文研究的核心技术方法有:1.提出了藏文网页的识别方法:基于藏文网页文本节点特征的识别方法;基于藏文文字音节点特征的识别方法;基于藏文高频音节统计学特征的识别方法。2.提出了藏文网页编码的识别方法:基于藏文编码非重叠区域的编码识别方法;基于贝叶斯分类的藏文编码识别方法。3.提出了藏文编码的转换方法:按编码结构可分为,基于藏文带元音字丁的编码到扩充集A的编码转换;基于藏文不带元音的字丁和元音组合的编码到扩充集A编码的转换;基于基本集的Unicode编码和扩充集A编码之间的转换。按编码类型细分,又可分为基于ASCII的藏文编码转换方法、基于GB2312的藏文编码转换方法、基于Unicode的藏文编码转换方法。4.设计了藏文网页判定方案。并认真研究了藏文音节点阈值的选取问题,最终确定了藏文网页采集的多线程动态调度策略。同时研究了藏文网页存储技术,将藏文HTML网页解析为XML网页进行存储,有利于减少冗余信息,节省空间。

全文目录

摘要  4-5
Abstract  5-10
第一章绪论  10-14
  1.1 课题背景及研究的目的和意义  10
  1.2 课题在国内外研究状况  10-12
    1.2.1 国外的研究状况  10-11
    1.2.2 国内的研究状况  11-12
    1.2.3 新研究需求的产生  12
  1.3 论文的主要研究内容  12-13
    1.3.1 论文的技术路线  12
    1.3.2 论文的主要工作难点  12-13
    1.3.3 试验设计方案  13
  1.4 论文的组织结构  13-14
第二章工作基础  14-26
  2.1 分析网页自动发现与采集面临的主要问题  14-16
    2.1.1 网页的规模  14
    2.1.2 采集的效率  14-15
    2.1.3 网页信息的提取  15
    2.1.4 网页的识别和判定  15
    2.1.5 网页编码的多样性  15-16
  2.2 分析网页信息采集的关键技术  16-21
    2.2.1 网页主题相关性判定  16-18
    2.2.2 网页信息采集策略  18-20
    2.2.3 网页采集线程调度策略  20-21
  2.3 网页采集系统的基本原理与功能结构  21-25
    2.3.1 基本原理  21-22
    2.3.2 功能需求  22
    2.3.3 体系结构  22-23
    2.3.4 访问规范  23-24
    2.3.5 网页采集流程  24-25
  2.4 本章小结  25-26
第三章藏文网页自动发现与采集技术  26-50
  3.1 藏文的特点  26-27
  3.2 藏文网页的识别  27-30
    3.2.1 基于藏文网页文本节点特征的识别方法  27
    3.2.2 基于藏文文字音节点特征的识别方法  27-28
    3.2.3 基于藏文高频音节统计学特征的识别方法  28-29
    3.2.4 识别方案的构建和分析  29-30
  3.3 藏文网页编码的识别与转换  30-41
    3.3.1 藏文网页编码转换的必要性  30
    3.3.2 藏文编码类型与范围  30-32
    3.3.3 藏文编码模式分析  32
    3.3.4 藏文网页编码的识别方法  32-35
    3.3.5 藏文网页编码的转换方案设计  35-41
  3.4 藏文网页的判定  41-44
    3.4.1 阈值的选取  41-43
    3.4.2 藏文网页的判定算法  43
    3.4.3 算法的性能和对比分析  43-44
  3.5 藏文网页自动发现与采集技术  44-49
    3.5.1 藏文网页种子URL 的选取  44
    3.5.2 藏文网页采集策略  44-45
    3.5.3 藏文网页HTML 解析  45-47
    3.5.4 藏文网页存储技术  47-49
  3.6 本章小结  49-50
第四章藏文网页自动发现与采集系统的初步实现  50-67
  4.1 TS 系统框架  50
  4.2 各功能模块的设计与实现  50-59
    4.2.1 TS 系统网络模块  51-52
    4.2.2 系统数据库模块  52-53
    4.2.3 藏文网页识别模块  53-55
    4.2.4 藏文网页编码转换模块  55-58
    4.2.5 其他辅助模块  58-59
  4.3 系统测试结果  59-67
    4.3.1 藏文网页采集和搜索测试  59-61
    4.3.2 藏文网页存储测试  61-63
    4.3.3 藏文网页识别和编码转换测试  63-67
第五章结束语  67-69
  5.1 总结  67-68
  5.2 展望  68-69
参考文献  69-72
在校期间研究成果  72-73
致谢  73

藏文网页自动发现与采集技术研究

内容摘要

全文目录

相似论文