学位论文 > 优秀研究生学位论文题录展示

面向药品安全领域的Web信息采集研究与应用

作　者: 刁维康
导　师: 向宏
学　校: 重庆大学
专　业: 计算机软件与理论
关键词: 药品流通监控问题药品信息 WebCrawler 链接筛选信息抽取
分类号: TP393.09
类　型: 硕士论文
年　份: 2010年
下　载: 29次
引　用: 0次
阅　读: 论文下载

内容摘要

近年来,药品安全突发事件频繁发生,中国连续出现了“齐二药”、“欣弗”等药品安全事件,这些事件暴露出药品监管工作中存在的一些不足。随着经济的发展、经营条件的放开,药品经营企业的数量日益增加,传统的监管模式已无法适应动态监管和主动监管的需要。为此我们设计开发了药品流通监控系统,为药品监督局的药品监管工作提供有力的支撑,提供详细全面的药品流通信息和问题药品信息。本文从药品流通监控系统的关键子系统:问题药品信息采集子系统开发中所遇到的问题出发,研究了问题药品信息的来源的特征和内容结构,并针对Web信息采集所要使用的WebCrawler的爬行策略和Web信息抽取策略进行了研究,讨论了最适合本系统的WebCrawler中的爬行策略:基于模式匹配的链接筛选策略,并详细介绍了这种链接筛选策略所要采用的多模式特征匹配算法Wu_Manber94;讨论了基于DOM解析的Web表格信息抽取策略,并对表格信息抽取策略中的表格定位、数据表格发现、表格数据抽取3个关键问题进行了研究。在需求分析、总体设计和链接筛选策略和内容抽取策略探讨的基础上,对系统进行了总体设计和详细设计,并成功将基于模式匹配的链接筛选策略和基于DOM的Web表格信息抽取策略运用到系统实现中。

全文目录

中文摘要  3-4
英文摘要  4-7
1 绪论  7-10
  1.1 选题背景  7-8
  1.2 国内外发展现状  8-9
    1.2.1 WebCrawler 的发展现状  8
    1.2.2 Web 信息抽取的发展  8-9
  1.3 论文的主要工作  9
  1.4 本文的组织结构  9-10
2 相关技术  10-21
  2.1 WebCrawler  10-16
    2.1.1 WebCrawler 的分类  10-12
    2.1.2 WebCrawler 的爬行策略  12-13
    2.1.3 WebCrawler 的技术实现  13-14
    2.1.4 开源WebCrawler  14-16
  2.2 Web 信息抽取  16-20
    2.2.1 Web 信息抽取的概念  16
    2.2.2 Web 信息抽取的模型和相关步骤  16-17
    2.2.3 Web 信息抽取策略  17-20
  2.3 本章小结  20-21
3 WebCrawler 爬行策略研究  21-29
  3.1 传统链接筛选算法  21-22
    3.1.1 Page Rank 算法  21
    3.1.2 Authorities and Hubs 算法  21-22
    3.1.3 传统算法的特征  22
  3.2 基于模式匹配的链接筛选方法  22-26
    3.2.1 超链接的特征  22-23
    3.2.2 单模式链接集合  23
    3.2.3 多模式特征链接集合  23
    3.2.4 模式匹配算法  23-26
  3.3 问题药品信息网页的抓取研究  26-28
    3.3.1 链接相关度的分析  26-27
    3.3.2 问题药品信息网页抓取的流程  27-28
  3.4 本章小结  28-29
4 Web 信息抽取研究  29-37
  4.1 问题药品信息网页的内容结构  29-30
  4.2 web 表格的数据抽取  30-36
    4.2.1 基于表格结构的信息抽取  30
    4.2.2 表格定位研究  30-34
    4.2.3 数据表格发现研究  34-35
    4.2.4 提取结果研究  35-36
  4.3 本章小结  36-37
5 药品流通监控系统的设计与实现  37-58
  5.1 药品流通监控系统的系统设计  37-39
    5.1.1 系统功能模块划分  37-38
    5.1.2 药品流通监控系统的逻辑结构  38-39
  5.2 药品流通监控系统的数据库设计  39-42
    5.2.1 数据库的设计原则  39-40
    5.2.2 数据库表设计  40-42
  5.3 药品流通监控系统的详细设计  42-48
    5.3.1 药品流通监控系统类的详细设计  42-44
    5.3.2 系统时序图的设计  44-47
    5.3.3 界面原型的设计  47-48
  5.4 药品流通监控系统的实现  48-57
    5.4.1 使用工具和环境  48-49
    5.4.2 部分模块细节实现  49-57
  5.5 本章小结  57-58
6 结论与展望  58-60
  6.1 论文工作总结  58
  6.2 进一步工作及展望  58-60
致谢  60-61
参考文献  61-64
附录  64
  A 作者在攻读硕士学位期间发表的论文  64

面向药品安全领域的Web信息采集研究与应用

内容摘要

全文目录

相似论文