学位论文 > 优秀研究生学位论文题录展示
藏文网页自动发现与采集技术研究
作 者: 王思丽
导 师: 戴玉刚
学 校: 西北民族大学
专 业: 计算机软件与理论
关键词: 藏文网页 搜索策略 信息采集 编码转换 HTML解析
分类号: TP393.092
类 型: 硕士论文
年 份: 2010年
下 载: 81次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网技术的深入发展,藏族文化信息越来越多的以藏文网页的形式出现,真实而生动地展示了藏民族的历史发展进程。与此同时,目前的藏文软件基本都采用自定义编码,造成藏文网页编码不统一,数据资源难以共享和交换,而且在不同编码间转换需要消耗巨大的工作量,给藏语言研究人员带来了很大不便。因此,建立一个内容全面、编码统一的藏文网页信息资源库势在必行。本文通过对传统中文网页采集技术的分析,结合藏文网页自身的结构特点,研究了藏文网页自动发现与采集技术,并构造了藏文网页信息采集系统(简称TS系统),系统基本实现了藏文网页信息的自动发现和采集,藏文网页不同编码之间的相互转换,藏文网页的存储。本文研究的核心技术方法有:1.提出了藏文网页的识别方法:基于藏文网页文本节点特征的识别方法;基于藏文文字音节点特征的识别方法;基于藏文高频音节统计学特征的识别方法。2.提出了藏文网页编码的识别方法:基于藏文编码非重叠区域的编码识别方法;基于贝叶斯分类的藏文编码识别方法。3.提出了藏文编码的转换方法:按编码结构可分为,基于藏文带元音字丁的编码到扩充集A的编码转换;基于藏文不带元音的字丁和元音组合的编码到扩充集A编码的转换;基于基本集的Unicode编码和扩充集A编码之间的转换。按编码类型细分,又可分为基于ASCII的藏文编码转换方法、基于GB2312的藏文编码转换方法、基于Unicode的藏文编码转换方法。4.设计了藏文网页判定方案。并认真研究了藏文音节点阈值的选取问题,最终确定了藏文网页采集的多线程动态调度策略。同时研究了藏文网页存储技术,将藏文HTML网页解析为XML网页进行存储,有利于减少冗余信息,节省空间。
|
全文目录
摘要 4-5 Abstract 5-10 第一章 绪论 10-14 1.1 课题背景及研究的目的和意义 10 1.2 课题在国内外研究状况 10-12 1.2.1 国外的研究状况 10-11 1.2.2 国内的研究状况 11-12 1.2.3 新研究需求的产生 12 1.3 论文的主要研究内容 12-13 1.3.1 论文的技术路线 12 1.3.2 论文的主要工作难点 12-13 1.3.3 试验设计方案 13 1.4 论文的组织结构 13-14 第二章 工作基础 14-26 2.1 分析网页自动发现与采集面临的主要问题 14-16 2.1.1 网页的规模 14 2.1.2 采集的效率 14-15 2.1.3 网页信息的提取 15 2.1.4 网页的识别和判定 15 2.1.5 网页编码的多样性 15-16 2.2 分析网页信息采集的关键技术 16-21 2.2.1 网页主题相关性判定 16-18 2.2.2 网页信息采集策略 18-20 2.2.3 网页采集线程调度策略 20-21 2.3 网页采集系统的基本原理与功能结构 21-25 2.3.1 基本原理 21-22 2.3.2 功能需求 22 2.3.3 体系结构 22-23 2.3.4 访问规范 23-24 2.3.5 网页采集流程 24-25 2.4 本章小结 25-26 第三章 藏文网页自动发现与采集技术 26-50 3.1 藏文的特点 26-27 3.2 藏文网页的识别 27-30 3.2.1 基于藏文网页文本节点特征的识别方法 27 3.2.2 基于藏文文字音节点特征的识别方法 27-28 3.2.3 基于藏文高频音节统计学特征的识别方法 28-29 3.2.4 识别方案的构建和分析 29-30 3.3 藏文网页编码的识别与转换 30-41 3.3.1 藏文网页编码转换的必要性 30 3.3.2 藏文编码类型与范围 30-32 3.3.3 藏文编码模式分析 32 3.3.4 藏文网页编码的识别方法 32-35 3.3.5 藏文网页编码的转换方案设计 35-41 3.4 藏文网页的判定 41-44 3.4.1 阈值的选取 41-43 3.4.2 藏文网页的判定算法 43 3.4.3 算法的性能和对比分析 43-44 3.5 藏文网页自动发现与采集技术 44-49 3.5.1 藏文网页种子URL 的选取 44 3.5.2 藏文网页采集策略 44-45 3.5.3 藏文网页HTML 解析 45-47 3.5.4 藏文网页存储技术 47-49 3.6 本章小结 49-50 第四章 藏文网页自动发现与采集系统的初步实现 50-67 4.1 TS 系统框架 50 4.2 各功能模块的设计与实现 50-59 4.2.1 TS 系统网络模块 51-52 4.2.2 系统数据库模块 52-53 4.2.3 藏文网页识别模块 53-55 4.2.4 藏文网页编码转换模块 55-58 4.2.5 其他辅助模块 58-59 4.3 系统测试结果 59-67 4.3.1 藏文网页采集和搜索测试 59-61 4.3.2 藏文网页存储测试 61-63 4.3.3 藏文网页识别和编码转换测试 63-67 第五章 结束语 67-69 5.1 总结 67-68 5.2 展望 68-69 参考文献 69-72 在校期间研究成果 72-73 致谢 73
|
相似论文
- 路面平整度检测系统中的数据采集和定位技术研究,U416.2
- 用电信息采集一体化建设研究,F426.61
- 一种WinCE环境下嵌入式浏览器的设计与开发,TP393.092
- 多核环境下内存数据库查询优化的研究,TP311.13
- 结直肠癌转化医学信息库构建与应用探索,R735.3
- 红外热像仪自动调焦和图像采集技术的研究,TP391.41
- 城市道路交通信息采集系统的研究,U495
- 虚拟手术力觉信息采集系统研究与实现,TH777
- 压缩机厂数控信息管理系统的研究与开发,TP315
- 离散制造车间MES的生产过程信息采集及方法研究,TP274.2
- ARM与ZigBee结合的分布式RFID信息采集研究,TP391.44
- 配送中心拣货路径信息采集与处理研究,F253.9
- 专用变压器采集终端的研究及设计,TM764
- 森林资源信息源与信息采集机制研究,S757
- 产品信息追溯系统信息采集终端的设计与研究,TP274.2
- 基于Java的WMI网络管理系统的设计与实现,TP393.07
- Deep Web查询接口集成及搜索策略研究,TP393.09
- 安徽电力数字图书馆系统开发与应用,TP311.52
- 求解组合优化问题的混合蛙跳算法的研究,TP301.6
- 基于互联网的个性化健康信息定制系统构建,TP311.52
- 基于Web的实例知识条目自动构建方法,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|