学位论文 > 优秀研究生学位论文题录展示

基于半结构化文本的转运蛋白底物信息提取系统

作 者: 陈燕明
导 师: 曲大成
学 校: 北京理工大学
专 业: 计算机科学与技术
关键词: 转运蛋白底物 最大熵 分类器 信息提取
分类号: Q811.4
类 型: 硕士论文
年 份: 2011年
下 载: 19次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着大量可用的分子生物数据的出现,在专有生物数据库中自动提取生物信息的方法有了长足的发展。在本篇论文中,为了完善转运蛋白底物数据库(TSdb)中的数据,我们构建一个信息提取工具(简称TTSI:Tool of Transporter Substrate Interaction),它能在UniProt数据库中提取转运蛋白底物信息。在TTSI中最重要的组件是最大熵分类器,该分类器是通过对UniProt数据库中的蛋白质注释进行训练来获得。它主要用来筛选出蛋白质注释中表达了转运关系语句,并把语句中的转运底物名称映射成KEGG Ligand Compound数据库中的ID。由十字交叉实验获得的结果表明训练出来的提取转运蛋白底物信息的分类器具有较高的分类准确度和召回率。我们使用该工具来提取UniProt数据库中人类蛋白质注释中可能的转运蛋白底物关系数据时,经过分类器的筛选后,仅剩1%的注释语句需要生物学专家去手工验证,并且在与其它的专有转运蛋白数据库中的数据进行对比后发现有68.63%的转运蛋白底物关系对是新提取出来的。TTSI工具能够极大地减少生物专家在UniProt数据库中提取转运蛋白底物关系数据的工作量,新提取的结果能够较好地完善TSdb数据库中的数据和帮助生物专家进行与转运蛋白相关的生物实验设计、对生物体内转运蛋白系统的分析、在代谢通路中进行转运蛋白的定位。本文所用的方法具有简单、通用等特性,所以它能够很容易的应用到其他专用的生物数据库中。

全文目录


摘要  5-6
Abstract  6-9
第1章 绪论  9-17
  1.1 研究的目的和意义  9-10
  1.2 国内外研究现状及发展趋势  10-17
    1.2.1 相关数据库的介绍  11-15
    1.2.2 生物文本挖掘方面的研究进展  15-17
第2章 相关的技术  17-24
  2.1 基于统计的机器学习方法  17-21
    2.1.1 最大熵方法  17-19
    2.1.2 朴素贝叶斯方法  19-21
  2.2 Porter 算法  21-22
  2.3 常用信息检索和提取的评价方法  22-24
第3章 系统的构建  24-33
  3.1 转运关系的定义  25-26
  3.2 训练数据集合  26-28
    3.2.1 转运蛋白底物关系数据  26-27
    3.2.2 注释域的选取  27
    3.2.3 训练数据的获得  27-28
  3.3 化合物名称识别  28-29
  3.4 分类器的实现及其性能的评价  29-33
第4章 系统的实现、功能和应用  33-41
  4.1 实现  33-35
  4.2 功能  35-40
  4.3 应用  40-41
第5章 结果的分析和讨论  41-45
  5.1 与转运过程密切相关的特征向量  41-42
  5.2 TSI 数据对比分析  42-45
结论  45-47
参考文献  47-50
附录  50-53
攻读学位期间发表论文与研究成果清单  53-54
致谢  54

相似论文

  1. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  2. 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
  3. 领域实体属性及事件抽取技术研究,TP391.1
  4. 人物言论抽取与跟踪技术研究,TP391.1
  5. 基于HJ卫星混合像元分解的水稻生长监测技术研究,S511
  6. 环青海湖区沙漠化土地景观格局变化分析,X171
  7. 基于雷达影像活动断裂信息提取方法与示范应用研究,P542.3
  8. 基于高分辨率遥感数据的矿区房屋信息提取方法研究,TP751
  9. 城市轨道交通运营管理系统测试与评价方法研究,TP311.52
  10. 汉语框架自动识别中的歧义消解,TP391.1
  11. 基于单目视觉的车辆检测算法研究与实现,TP274
  12. 基于多核学习的高性能核分类方法研究,TP391.41
  13. 基于参考图像的乳腺肿块诊断方法研究,TP391.41
  14. 基于改进的非参数回归交通流量预测方法,F570
  15. 基于相似性测量检测图像型垃圾邮件技术的研究,TP393.098
  16. 心电特征提取及分类方法研究,TN911.7
  17. 多特征融合的视觉跟踪算法研究,TP391.41
  18. 智能视频监控中的目标检测技术研究,TP391.41
  19. 工程新闻报道的信息提取及应用研究,G212
  20. 船体分段的机器人焊接路径规划与离线编程,TP242

中图分类: > 生物科学 > 生物工程学(生物技术) > 仿生学 > 生物信息论
© 2012 www.xueweilunwen.com