学位论文 > 优秀研究生学位论文题录展示

面向药品安全领域的Web信息采集研究与应用

作 者: 刁维康
导 师: 向宏
学 校: 重庆大学
专 业: 计算机软件与理论
关键词: 药品流通监控 问题药品信息 WebCrawler 链接筛选 信息抽取
分类号: TP393.09
类 型: 硕士论文
年 份: 2010年
下 载: 29次
引 用: 0次
阅 读: 论文下载
 

内容摘要


近年来,药品安全突发事件频繁发生,中国连续出现了“齐二药”、“欣弗”等药品安全事件,这些事件暴露出药品监管工作中存在的一些不足。随着经济的发展、经营条件的放开,药品经营企业的数量日益增加,传统的监管模式已无法适应动态监管和主动监管的需要。为此我们设计开发了药品流通监控系统,为药品监督局的药品监管工作提供有力的支撑,提供详细全面的药品流通信息和问题药品信息。本文从药品流通监控系统的关键子系统:问题药品信息采集子系统开发中所遇到的问题出发,研究了问题药品信息的来源的特征和内容结构,并针对Web信息采集所要使用的WebCrawler的爬行策略和Web信息抽取策略进行了研究,讨论了最适合本系统的WebCrawler中的爬行策略:基于模式匹配的链接筛选策略,并详细介绍了这种链接筛选策略所要采用的多模式特征匹配算法Wu_Manber94;讨论了基于DOM解析的Web表格信息抽取策略,并对表格信息抽取策略中的表格定位、数据表格发现、表格数据抽取3个关键问题进行了研究。在需求分析、总体设计和链接筛选策略和内容抽取策略探讨的基础上,对系统进行了总体设计和详细设计,并成功将基于模式匹配的链接筛选策略和基于DOM的Web表格信息抽取策略运用到系统实现中。

全文目录


中文摘要  3-4
英文摘要  4-7
1 绪论  7-10
  1.1 选题背景  7-8
  1.2 国内外发展现状  8-9
    1.2.1 WebCrawler 的发展现状  8
    1.2.2 Web 信息抽取的发展  8-9
  1.3 论文的主要工作  9
  1.4 本文的组织结构  9-10
2 相关技术  10-21
  2.1 WebCrawler  10-16
    2.1.1 WebCrawler 的分类  10-12
    2.1.2 WebCrawler 的爬行策略  12-13
    2.1.3 WebCrawler 的技术实现  13-14
    2.1.4 开源WebCrawler  14-16
  2.2 Web 信息抽取  16-20
    2.2.1 Web 信息抽取的概念  16
    2.2.2 Web 信息抽取的模型和相关步骤  16-17
    2.2.3 Web 信息抽取策略  17-20
  2.3 本章小结  20-21
3 WebCrawler 爬行策略研究  21-29
  3.1 传统链接筛选算法  21-22
    3.1.1 Page Rank 算法  21
    3.1.2 Authorities and Hubs 算法  21-22
    3.1.3 传统算法的特征  22
  3.2 基于模式匹配的链接筛选方法  22-26
    3.2.1 超链接的特征  22-23
    3.2.2 单模式链接集合  23
    3.2.3 多模式特征链接集合  23
    3.2.4 模式匹配算法  23-26
  3.3 问题药品信息网页的抓取研究  26-28
    3.3.1 链接相关度的分析  26-27
    3.3.2 问题药品信息网页抓取的流程  27-28
  3.4 本章小结  28-29
4 Web 信息抽取研究  29-37
  4.1 问题药品信息网页的内容结构  29-30
  4.2 web 表格的数据抽取  30-36
    4.2.1 基于表格结构的信息抽取  30
    4.2.2 表格定位研究  30-34
    4.2.3 数据表格发现研究  34-35
    4.2.4 提取结果研究  35-36
  4.3 本章小结  36-37
5 药品流通监控系统的设计与实现  37-58
  5.1 药品流通监控系统的系统设计  37-39
    5.1.1 系统功能模块划分  37-38
    5.1.2 药品流通监控系统的逻辑结构  38-39
  5.2 药品流通监控系统的数据库设计  39-42
    5.2.1 数据库的设计原则  39-40
    5.2.2 数据库表设计  40-42
  5.3 药品流通监控系统的详细设计  42-48
    5.3.1 药品流通监控系统类的详细设计  42-44
    5.3.2 系统时序图的设计  44-47
    5.3.3 界面原型的设计  47-48
  5.4 药品流通监控系统的实现  48-57
    5.4.1 使用工具和环境  48-49
    5.4.2 部分模块细节实现  49-57
  5.5 本章小结  57-58
6 结论与展望  58-60
  6.1 论文工作总结  58
  6.2 进一步工作及展望  58-60
致谢  60-61
参考文献  61-64
附录  64
  A 作者在攻读硕士学位期间发表的论文  64

相似论文

  1. 领域实体属性及事件抽取技术研究,TP391.1
  2. 时间表达式识别与归一化研究,TP391.1
  3. 网页属性抽取的方法研究,TP391.1
  4. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  5. 构件垂直搜索引擎的关键技术研究,TP391.3
  6. 面向教育新闻的主题爬虫设计与实现,TP391.3
  7. 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
  8. 学术主页信息抽取系统的研究,TP393.092
  9. 主题搜索引擎关键技术研究,TP391.3
  10. 一种基于动态学习框架的全自动网页结构化数据抽取方法,TP393.092
  11. 基于自然语言打印机人机交互方法研究与实现,TP11
  12. 模板独立的网页信息抽取研究,TP393.092
  13. 面向互联网的多元信息获取技术研究,TP393.09
  14. 网络舆情数据获取与话题分析技术研究,TP393.09
  15. 基于DOM的Web信息抽取系统设计与实现,TP393.09
  16. 一种基于前缀表达式的Web信息抽取方法的关键问题的实现,TP391.1
  17. 基于概念树的Web信息抽取技术研究,TP391.1
  18. 基于最大熵模型的中文实体关系自动抽取研究,TP391.1
  19. 基于搜索引擎的自动问答系统,TP391.3
  20. 基于互联网的个性化健康信息定制系统构建,TP311.52
  21. 个性化多媒体资源垂直搜索引擎技术研究,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com