学位论文 > 优秀研究生学位论文题录展示
面向药品安全领域的Web信息采集研究与应用
作 者: 刁维康
导 师: 向宏
学 校: 重庆大学
专 业: 计算机软件与理论
关键词: 药品流通监控 问题药品信息 WebCrawler 链接筛选 信息抽取
分类号: TP393.09
类 型: 硕士论文
年 份: 2010年
下 载: 29次
引 用: 0次
阅 读: 论文下载
内容摘要
近年来,药品安全突发事件频繁发生,中国连续出现了“齐二药”、“欣弗”等药品安全事件,这些事件暴露出药品监管工作中存在的一些不足。随着经济的发展、经营条件的放开,药品经营企业的数量日益增加,传统的监管模式已无法适应动态监管和主动监管的需要。为此我们设计开发了药品流通监控系统,为药品监督局的药品监管工作提供有力的支撑,提供详细全面的药品流通信息和问题药品信息。本文从药品流通监控系统的关键子系统:问题药品信息采集子系统开发中所遇到的问题出发,研究了问题药品信息的来源的特征和内容结构,并针对Web信息采集所要使用的WebCrawler的爬行策略和Web信息抽取策略进行了研究,讨论了最适合本系统的WebCrawler中的爬行策略:基于模式匹配的链接筛选策略,并详细介绍了这种链接筛选策略所要采用的多模式特征匹配算法Wu_Manber94;讨论了基于DOM解析的Web表格信息抽取策略,并对表格信息抽取策略中的表格定位、数据表格发现、表格数据抽取3个关键问题进行了研究。在需求分析、总体设计和链接筛选策略和内容抽取策略探讨的基础上,对系统进行了总体设计和详细设计,并成功将基于模式匹配的链接筛选策略和基于DOM的Web表格信息抽取策略运用到系统实现中。
|
全文目录
中文摘要 3-4 英文摘要 4-7 1 绪论 7-10 1.1 选题背景 7-8 1.2 国内外发展现状 8-9 1.2.1 WebCrawler 的发展现状 8 1.2.2 Web 信息抽取的发展 8-9 1.3 论文的主要工作 9 1.4 本文的组织结构 9-10 2 相关技术 10-21 2.1 WebCrawler 10-16 2.1.1 WebCrawler 的分类 10-12 2.1.2 WebCrawler 的爬行策略 12-13 2.1.3 WebCrawler 的技术实现 13-14 2.1.4 开源WebCrawler 14-16 2.2 Web 信息抽取 16-20 2.2.1 Web 信息抽取的概念 16 2.2.2 Web 信息抽取的模型和相关步骤 16-17 2.2.3 Web 信息抽取策略 17-20 2.3 本章小结 20-21 3 WebCrawler 爬行策略研究 21-29 3.1 传统链接筛选算法 21-22 3.1.1 Page Rank 算法 21 3.1.2 Authorities and Hubs 算法 21-22 3.1.3 传统算法的特征 22 3.2 基于模式匹配的链接筛选方法 22-26 3.2.1 超链接的特征 22-23 3.2.2 单模式链接集合 23 3.2.3 多模式特征链接集合 23 3.2.4 模式匹配算法 23-26 3.3 问题药品信息网页的抓取研究 26-28 3.3.1 链接相关度的分析 26-27 3.3.2 问题药品信息网页抓取的流程 27-28 3.4 本章小结 28-29 4 Web 信息抽取研究 29-37 4.1 问题药品信息网页的内容结构 29-30 4.2 web 表格的数据抽取 30-36 4.2.1 基于表格结构的信息抽取 30 4.2.2 表格定位研究 30-34 4.2.3 数据表格发现研究 34-35 4.2.4 提取结果研究 35-36 4.3 本章小结 36-37 5 药品流通监控系统的设计与实现 37-58 5.1 药品流通监控系统的系统设计 37-39 5.1.1 系统功能模块划分 37-38 5.1.2 药品流通监控系统的逻辑结构 38-39 5.2 药品流通监控系统的数据库设计 39-42 5.2.1 数据库的设计原则 39-40 5.2.2 数据库表设计 40-42 5.3 药品流通监控系统的详细设计 42-48 5.3.1 药品流通监控系统类的详细设计 42-44 5.3.2 系统时序图的设计 44-47 5.3.3 界面原型的设计 47-48 5.4 药品流通监控系统的实现 48-57 5.4.1 使用工具和环境 48-49 5.4.2 部分模块细节实现 49-57 5.5 本章小结 57-58 6 结论与展望 58-60 6.1 论文工作总结 58 6.2 进一步工作及展望 58-60 致谢 60-61 参考文献 61-64 附录 64 A 作者在攻读硕士学位期间发表的论文 64
|
相似论文
- 领域实体属性及事件抽取技术研究,TP391.1
- 时间表达式识别与归一化研究,TP391.1
- 网页属性抽取的方法研究,TP391.1
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 构件垂直搜索引擎的关键技术研究,TP391.3
- 面向教育新闻的主题爬虫设计与实现,TP391.3
- 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
- 学术主页信息抽取系统的研究,TP393.092
- 主题搜索引擎关键技术研究,TP391.3
- 一种基于动态学习框架的全自动网页结构化数据抽取方法,TP393.092
- 基于自然语言打印机人机交互方法研究与实现,TP11
- 模板独立的网页信息抽取研究,TP393.092
- 面向互联网的多元信息获取技术研究,TP393.09
- 网络舆情数据获取与话题分析技术研究,TP393.09
- 基于DOM的Web信息抽取系统设计与实现,TP393.09
- 一种基于前缀表达式的Web信息抽取方法的关键问题的实现,TP391.1
- 基于概念树的Web信息抽取技术研究,TP391.1
- 基于最大熵模型的中文实体关系自动抽取研究,TP391.1
- 基于搜索引擎的自动问答系统,TP391.3
- 基于互联网的个性化健康信息定制系统构建,TP311.52
- 个性化多媒体资源垂直搜索引擎技术研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com
|