学位论文 > 优秀研究生学位论文题录展示

科技文档中化学结构的描述与搜索

作 者: 张立坤
导 师: 廖兆存;于俊清
学 校: 华中科技大学
专 业: 计算机应用技术
关键词: 搜索引擎 化学结构 频繁子图 子结构检索 相似性检索
分类号: TP391.3
类 型: 硕士论文
年 份: 2007年
下 载: 69次
引 用: 0次
阅 读: 论文下载
 

内容摘要


Internet中存在着大量的化学信息资源,在这些海量信息面前,用户要查找自己需要的信息,必须要借助于搜索引擎。目前,很多化学结构信息采用了系统命名法、线性码等方法进行描述,但是这些化学结构描述方法本身难以实现化学结构的检索,且Google、百度等通用搜索引擎目前只能按文本关键词进行检索。如要有效地利用Internet中这些化学资源,必须要建立针对这些资源的化学结构搜索引擎。在分析化学结构不同描述方法的基础上,为方便化学结构的检索,科技文档描述语言ScienceML中采用了CML(Chemical Markup Language)作为描述化学信息的标记语言;结合现代信息检索技术和化学结构检索的特点,设计了一个化学结构搜索引擎(Chem Search),实现了化学结构的全结构、子结构、结构相似性检索。为了在检索时可以快速地查找化学结构,化学结构在数据库中的存储位置采用Hash函数来定位;网络机器人采用“关键词匹配算法”来指导其爬行,以减少搜索范围,提高网页采集性能;化学结构相似性检索采用了改进的基于图特征矩阵索引的检索算法,进一步提高了相似性检索的效率;用户可以通过浏览器直接访问Chem Search,输入要检索化学结构的SMILES或InChI,也可以借助于提供的JME分子编辑器直接绘制出化学结构,并指定检索类型,得到检索结果。实验证明Chem Search可以有效地实现对化学结构的检索。下一步的研究重点是如何有效地识别与提取以图片形式表示的化学结构信息,实现对这一部分化学信息的检索,以丰富Chem Search的检索内容。

全文目录


摘要  4-5
ABSTRACT  5-8
1 绪论  8-14
  1.1 研究目的与意义  8-9
  1.2 国内外研究现状  9-12
  1.3 研究目标和所做的工作  12-13
  1.4 论文的组织结构  13-14
2 化学结构搜索基本原理  14-20
  2.1 标记图  14
  2.2 子图查询  14-16
  2.3 图的相似性查询  16-19
  2.4 本章小结  19-20
3 科技文档中化学结构的描述  20-24
  3.1 化学结构的计算机表述方法分类  20-21
  3.2 chemical MIME  21
  3.3 化学标记语言CML  21-23
  3.4 本章小结  23-24
4 化学结构搜索引擎的设计  24-35
  4.1 系统设计框架  24
  4.2 化学结构数据库的设计  24-28
  4.3 文档的采集  28-30
  4.4 化学结构索引的构造  30-33
  4.5 化学结构的查询  33-34
  4.6 本章小结  34-35
5 化学结构搜索引擎原型系统实现  35-47
  5.1 网络机器人的实现  35-38
  5.2 文档中化学结构信息的提取  38-39
  5.3 化学结构有效性验证  39
  5.4 化学结构检索的实现  39-43
  5.5 搜索界面的实现  43-44
  5.6 原型系统实现  44-46
  5.7 本章小结  46-47
6 总结与展望  47-49
  6.1 总结  47
  6.2 展望  47-49
致谢  49-50
参考文献  50-53
附录 攻读硕士学位期间发表学术论文  53

相似论文

  1. 频繁图结构并行挖掘算法的研究与实现,TP311.13
  2. 金花茶多糖的分离纯化及化学结构的研究,S567.19
  3. 网络搜索引擎的相关技术研究,G354
  4. 基于语义网络的智能搜索引擎研究,TP391.3
  5. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  6. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  7. 分布式搜索引擎索引安全及缓存策略研究,TP333
  8. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  9. 苯乙烯—丁二烯(或异戊二烯)嵌段共聚物表面结构形成机理的研究,O631.3
  10. 教育培训行业互联网营销问题的研究,F49
  11. 搜索引擎侵权行为研究,D923
  12. 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
  13. 基于Agent元搜索引擎的个性化研究,TP391.3
  14. 论搜索引擎竞价排名的法律规制,D923.43
  15. 搜索引擎悖论解读,G254
  16. 基于搜索引擎网页排序算法研究,TP391.3
  17. Co-salen催化氧化木素—碳水化合物复合体及脱木素局部化学研究,TS745
  18. 香菇多糖LT1的提取纯化及结构鉴定,R284.1
  19. 网络下载侵权分析,D923.41
  20. 垂直门户网站产品搜索系统的设计与实现,TP393.092
  21. 基于领域知识的Deep Web接口发现研究,TP393.09

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com