学位论文 > 优秀研究生学位论文题录展示

生物信息文献数据库构建与软件Web自动发布

作 者: 何莹
导 师: 周艳红
学 校: 华中科技大学
专 业: 计算机应用技术
关键词: 文献数据库 元搜索引擎 生物信息软件 信息抽取 Web自动发布 MVC设计模式
分类号: TP311.13
类 型: 硕士论文
年 份: 2007年
下 载: 132次
引 用: 2次
阅 读: 论文下载
 

内容摘要


随着Internet的迅猛发展,信息逐步数字化、网络化、全球化。如何高效、准确地利用互联网上的有用信息已成为人们关心的课题。对于生物信息学研究者来说,能否充分利用国际国内已有的文献数据库、构建各机构内部使用的文献数据库,这是能否有效开展研究工作的基本保障。另一方面,随着人类基因组计划的完成,已经涌现了大量旨在从生物数据中分析和挖掘有关知识的生物信息软件,若这些软件能被充分地共享,则将有效推动生物信息学研究人员的研究工作,由此,对这些软件进行Web发布以提供共享服务也就变得日益重要。针对在建设文献数据库时文献索引信息需手工录入、上传文献效率低的不足,研制了PDF文献索引信息自动抽取工具。通过对PDF文件结构和信息抽取原理进行分析,提炼和总结了生物信息领域中大量重要期刊的PDF文献索引信息的特征和规律,并制定出抽取规则,根据抽取规则,对文件进行语义信息分析,实现了该领域的PDF文献索引信息的自动抽取,提高了文献上传效率。在生物信息文献数据库中对该工具进行了测试。测试证明,系统能实现单个文献和批量文献的自动上传,使生物信息文献数据库素材的收集变得方便。通过分析元搜索引擎的特性,将元搜索引擎技术应用到文献的搜索上来,开发了一个文献元搜索引擎,它包括界面、调度、显示三个核心功能模块,选择多个著名的学术文献搜索引擎和数据库为目标搜索源,克服了单个文献数据库中存在的文献数量有限、覆盖面窄和有效检索率低等问题,为进一步整合分布式、异构生物信息数据库打下了基础。针对目前生物信息软件发布过程中,存在重新设计和制作网页、人工发布软件等重复性工作,设计了基于模板技术的生物信息软件Web自动发布系统。采用B/S模式、模板技术以及Java相关技术,设计和实现了一个生物信息软件Web自动发布系统,能方便地将本地软件发布到Internet,提供软件的在线计算、实时下载等服务,提高了发布生物信息软件的工作效率。

全文目录


摘要  4-5
ABSTRACT  5-11
1 绪论  11-18
  1.1 课题来源  11
  1.2 研究背景、目的、意义  11-12
  1.3 主要研究工作  12-13
  1.4 国内外研究状况  13-16
    1.4.1 PDF 文件语义信息抽取技术  13-14
    1.4.2 元搜索引擎技术  14-16
    1.4.3 Web 信息自动发布技术  16
  1.5 本文内容安排  16-18
2 生物信息文献数据库系统  18-24
  2.1 前言  18
  2.2 系统的分析与设计  18-19
  2.3 系统的实现  19-23
    2.3.1 文献上传模块  19-20
    2.3.2 文献检索模块  20
    2.3.3 文献元搜索引擎  20-21
    2.3.4 用户管理模块  21
    2.3.5 文献下载模块  21
    2.3.6 文献管理模块  21
    2.3.7 期刊信息管理模块  21-22
    2.3.8 数据库模块  22-23
  2.4 本章小结  23-24
3 PDF 文献索引信息自动抽取  24-39
  3.1 前言  24-25
  3.2 体系结构框架图  25-26
  3.3 三大功能模块说明  26-32
    3.3.1 抽取规则制定模块  26-27
    3.3.2 预处理模块  27-30
    3.3.3 索引信息抽取模块  30-32
  3.4 系统测试与实验数据分析  32-38
    3.4.1 单个PDF 文献的上载  32-34
    3.4.2 批量PDF 文献的上载  34-36
    3.4.3 实验数据分析  36-38
  3.5 本章小结  38-39
4 文献元搜索引擎  39-51
  4.1 前言  39-41
    4.1.1 对象的选择  39-40
    4.1.2 设计实例选择  40
    4.1.3 特色机制  40
    4.1.4 预期目标  40-41
  4.2 系统规划  41-42
    4.2.1 模型结构  41-42
    4.2.2 工作流程  42
  4.3 文献元搜索引擎的三大功能模块  42-47
    4.3.1 检索接口包装模块(包装)  42-44
    4.3.2 检索请求自动提交模块(调度)  44-46
    4.3.3 检索结果显示模块(显示)  46-47
  4.4 系统测试与实验结果分析  47-50
    4.4.1 选择单个目标搜索源  47
    4.4.2 选择所有目标搜索源  47-49
    4.4.3 实验结果分析  49-50
  4.5 本章小结  50-51
5 生物信息软件 Web 自动发布系统  51-64
  5.1 前言  51
  5.2 相关技术  51-52
    5.2.1 模板技术  51-52
    5.2.2 Web 应用的自动部署  52
  5.3 系统的分析与设计  52-55
    5.3.1 生物信息软件的类型  52-53
    5.3.2 系统总体流程  53-54
    5.3.3 系统体系结构  54-55
  5.4 系统的实现  55-57
    5.4.1 软件相关文件上传下载模块  55
    5.4.2 网页自动生成模块  55-56
    5.4.3 各类型软件Web 自动发布的实现要点  56-57
  5.5 系统测试  57-63
    5.5.1 测试在线计算型软件的发布  58-62
    5.5.2 测试提供下载型软件的发布  62-63
  5.6 本章小结  63-64
6 总结与展望  64-66
  6.1 全文总结  64-65
  6.2 研究展望  65-66
致谢  66-67
参考文献  67-70
附录1(攻读学位期间发表论文)  70-71
附录2 NAR 期刊中30 篇PDF 文献显示特征一览表  71

相似论文

  1. 领域实体属性及事件抽取技术研究,TP391.1
  2. 时间表达式识别与归一化研究,TP391.1
  3. OpenBASE企业管理器设计与实现,TP311.52
  4. 网页属性抽取的方法研究,TP391.1
  5. 攀枝花学院人事管理信息系统的设计与实现,TP311.52
  6. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  7. 构件垂直搜索引擎的关键技术研究,TP391.3
  8. 面向教育新闻的主题爬虫设计与实现,TP391.3
  9. 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
  10. 学术主页信息抽取系统的研究,TP393.092
  11. 主题搜索引擎关键技术研究,TP391.3
  12. 一种基于动态学习框架的全自动网页结构化数据抽取方法,TP393.092
  13. 基于自然语言打印机人机交互方法研究与实现,TP11
  14. 基于MVC设计模式的博客系统的设计与实现,TP311.52
  15. 基于Agent元搜索引擎的个性化研究,TP391.3
  16. 模板独立的网页信息抽取研究,TP393.092
  17. 面向互联网的多元信息获取技术研究,TP393.09
  18. 基于Web的医学文献数据库的设计与实现,TP311.13
  19. 网络舆情数据获取与话题分析技术研究,TP393.09
  20. 基于DOM的Web信息抽取系统设计与实现,TP393.09
  21. 一种基于前缀表达式的Web信息抽取方法的关键问题的实现,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com