学位论文 > 优秀研究生学位论文题录展示

藏文网页自动发现与采集技术研究

作 者: 王思丽
导 师: 戴玉刚
学 校: 西北民族大学
专 业: 计算机软件与理论
关键词: 藏文网页 搜索策略 信息采集 编码转换 HTML解析
分类号: TP393.092
类 型: 硕士论文
年 份: 2010年
下 载: 81次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网技术的深入发展,藏族文化信息越来越多的以藏文网页的形式出现,真实而生动地展示了藏民族的历史发展进程。与此同时,目前的藏文软件基本都采用自定义编码,造成藏文网页编码不统一,数据资源难以共享和交换,而且在不同编码间转换需要消耗巨大的工作量,给藏语言研究人员带来了很大不便。因此,建立一个内容全面、编码统一的藏文网页信息资源库势在必行。本文通过对传统中文网页采集技术的分析,结合藏文网页自身的结构特点,研究了藏文网页自动发现与采集技术,并构造了藏文网页信息采集系统(简称TS系统),系统基本实现了藏文网页信息的自动发现和采集,藏文网页不同编码之间的相互转换,藏文网页的存储。本文研究的核心技术方法有:1.提出了藏文网页的识别方法:基于藏文网页文本节点特征的识别方法;基于藏文文字音节点特征的识别方法;基于藏文高频音节统计学特征的识别方法。2.提出了藏文网页编码的识别方法:基于藏文编码非重叠区域的编码识别方法;基于贝叶斯分类的藏文编码识别方法。3.提出了藏文编码的转换方法:按编码结构可分为,基于藏文带元音字丁的编码到扩充集A的编码转换;基于藏文不带元音的字丁和元音组合的编码到扩充集A编码的转换;基于基本集的Unicode编码和扩充集A编码之间的转换。按编码类型细分,又可分为基于ASCII的藏文编码转换方法、基于GB2312的藏文编码转换方法、基于Unicode的藏文编码转换方法。4.设计了藏文网页判定方案。并认真研究了藏文音节点阈值的选取问题,最终确定了藏文网页采集的多线程动态调度策略。同时研究了藏文网页存储技术,将藏文HTML网页解析为XML网页进行存储,有利于减少冗余信息,节省空间。

全文目录


摘要  4-5
Abstract  5-10
第一章 绪论  10-14
  1.1 课题背景及研究的目的和意义  10
  1.2 课题在国内外研究状况  10-12
    1.2.1 国外的研究状况  10-11
    1.2.2 国内的研究状况  11-12
    1.2.3 新研究需求的产生  12
  1.3 论文的主要研究内容  12-13
    1.3.1 论文的技术路线  12
    1.3.2 论文的主要工作难点  12-13
    1.3.3 试验设计方案  13
  1.4 论文的组织结构  13-14
第二章 工作基础  14-26
  2.1 分析网页自动发现与采集面临的主要问题  14-16
    2.1.1 网页的规模  14
    2.1.2 采集的效率  14-15
    2.1.3 网页信息的提取  15
    2.1.4 网页的识别和判定  15
    2.1.5 网页编码的多样性  15-16
  2.2 分析网页信息采集的关键技术  16-21
    2.2.1 网页主题相关性判定  16-18
    2.2.2 网页信息采集策略  18-20
    2.2.3 网页采集线程调度策略  20-21
  2.3 网页采集系统的基本原理与功能结构  21-25
    2.3.1 基本原理  21-22
    2.3.2 功能需求  22
    2.3.3 体系结构  22-23
    2.3.4 访问规范  23-24
    2.3.5 网页采集流程  24-25
  2.4 本章小结  25-26
第三章 藏文网页自动发现与采集技术  26-50
  3.1 藏文的特点  26-27
  3.2 藏文网页的识别  27-30
    3.2.1 基于藏文网页文本节点特征的识别方法  27
    3.2.2 基于藏文文字音节点特征的识别方法  27-28
    3.2.3 基于藏文高频音节统计学特征的识别方法  28-29
    3.2.4 识别方案的构建和分析  29-30
  3.3 藏文网页编码的识别与转换  30-41
    3.3.1 藏文网页编码转换的必要性  30
    3.3.2 藏文编码类型与范围  30-32
    3.3.3 藏文编码模式分析  32
    3.3.4 藏文网页编码的识别方法  32-35
    3.3.5 藏文网页编码的转换方案设计  35-41
  3.4 藏文网页的判定  41-44
    3.4.1 阈值的选取  41-43
    3.4.2 藏文网页的判定算法  43
    3.4.3 算法的性能和对比分析  43-44
  3.5 藏文网页自动发现与采集技术  44-49
    3.5.1 藏文网页种子URL 的选取  44
    3.5.2 藏文网页采集策略  44-45
    3.5.3 藏文网页HTML 解析  45-47
    3.5.4 藏文网页存储技术  47-49
  3.6 本章小结  49-50
第四章 藏文网页自动发现与采集系统的初步实现  50-67
  4.1 TS 系统框架  50
  4.2 各功能模块的设计与实现  50-59
    4.2.1 TS 系统网络模块  51-52
    4.2.2 系统数据库模块  52-53
    4.2.3 藏文网页识别模块  53-55
    4.2.4 藏文网页编码转换模块  55-58
    4.2.5 其他辅助模块  58-59
  4.3 系统测试结果  59-67
    4.3.1 藏文网页采集和搜索测试  59-61
    4.3.2 藏文网页存储测试  61-63
    4.3.3 藏文网页识别和编码转换测试  63-67
第五章 结束语  67-69
  5.1 总结  67-68
  5.2 展望  68-69
参考文献  69-72
在校期间研究成果  72-73
致谢  73

相似论文

  1. 路面平整度检测系统中的数据采集和定位技术研究,U416.2
  2. 用电信息采集一体化建设研究,F426.61
  3. 一种WinCE环境下嵌入式浏览器的设计与开发,TP393.092
  4. 多核环境下内存数据库查询优化的研究,TP311.13
  5. 结直肠癌转化医学信息库构建与应用探索,R735.3
  6. 红外热像仪自动调焦和图像采集技术的研究,TP391.41
  7. 城市道路交通信息采集系统的研究,U495
  8. 虚拟手术力觉信息采集系统研究与实现,TH777
  9. 压缩机厂数控信息管理系统的研究与开发,TP315
  10. 离散制造车间MES的生产过程信息采集及方法研究,TP274.2
  11. ARM与ZigBee结合的分布式RFID信息采集研究,TP391.44
  12. 配送中心拣货路径信息采集与处理研究,F253.9
  13. 专用变压器采集终端的研究及设计,TM764
  14. 森林资源信息源与信息采集机制研究,S757
  15. 产品信息追溯系统信息采集终端的设计与研究,TP274.2
  16. 基于Java的WMI网络管理系统的设计与实现,TP393.07
  17. Deep Web查询接口集成及搜索策略研究,TP393.09
  18. 安徽电力数字图书馆系统开发与应用,TP311.52
  19. 求解组合优化问题的混合蛙跳算法的研究,TP301.6
  20. 基于互联网的个性化健康信息定制系统构建,TP311.52
  21. 基于Web的实例知识条目自动构建方法,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com