主页 | 生物新闻 | 生物热点 | 生物技术 | 生物论文 | 生物考研 | 生物产业 | 核酸技术 | 细胞技术 | 会员中心
 
 当前位置:主页>生物技术> 正文  
结构分类数据库介绍
文章来源: 文章作者: 发布时间:2006-11-23   字体: [ ]  
 
除了基因组数据库和序列数据库外,生物大分子三维空间结构数据库则是另一类重要的分子生物信息数据库。根据分子生物学中心法则,DNA序列是遗传信息的携带者,而蛋白质分子则是主要的生物大分子功能单元。蛋白质分子的各种功能,是通过不同的三维空间结构实现的。因此,蛋白质空间结构数据库是生物大分子结构数据库的主要组成部分。蛋白质结构数据库是随X-射线晶体衍射分子结构测定技术的现而出现的数据库,其基本内容为实验测定的蛋白质分子空间结构原子坐标。90年代以来,越来越多的蛋白质分子结构被测定,蛋白质结构分类的研究不断深入,出现了蛋白质家族、折叠模式、结构域、回环等数据库。[链接 1.2.4]列出目前主要的蛋白质结构数据库和信息资源的网址。
蛋白质结构数据库PDB
早在序列数据库诞生之前的70年代,蛋白质结构数据库(Protein Data Bank,简称PDB)就已经问世。PDB数据库原来由美国Brookhaven国家实验室负责维护和管理。为适应结构基因组和生物信息学研究的需要, 1998年,由美国国家科学基金委员会、能源部和卫生研究院资助,成立了结构生物学合作研究协会(Research Collaboratory for Structural Bioinformatics,简称RCSB)。PDB数据库改由RCSB管理[Berman HM,2000],目前主要成员为Rutger大学、圣地亚哥超级计算中心(San Diego Supercomputer Center,简称SDSC)和国家标准化研究所(National Institutes of Standards and Technology,简称NIST)。和核酸序列数据库一样,可以通过网络直接向PDB数据库递交数据。
PDB是目前最主要的蛋白质分子结构数据库。随着晶体衍射技术的不断改进,结构测定的速度和精度也逐步提高。90 年代以来,多维核磁共振溶液构象测定方法的成熟,使那些难以结晶的蛋白质分子的结构测定成为可能。蛋白质分子结构数据库的数据量迅速上升。据2000年5 月统计,PDB数据库中已经存放了1万2千多套原子坐标,其中大部分为蛋白质,包括多肽和病毒,共1万多套。此外,还有核酸、蛋白和核酸复合物以及少量多糖分子。近年来,核酸三维结构测定进展迅速,PDB数据库中已经收集了800多套核酸结构数据。
PDB数据库以文本文件的方式存放数据,每个分子各用一个独立的文件。除了原子坐标外,还包括物种来源、化合物名称、结构递交着以及有关文献等基本注释信息。此外,还给出分辨率、结构因子,温度系数、蛋白质主链数目、配体分子式、金属离子、二级结构信息、二硫键位置等和结构有关的数据。PDB数据库以文本文件格式存放,可以用文字编辑软件查看。显然,用文字编辑软件查看注释信息不太方便,更无法直观地了解分子的空间结构。RCSB开发的基于 Web的PDB数据库概要显示系统,只列出主要信息。用户如须进一步了解详细信息,或查询其它蛋白质结构信息资源,可点击该页面左侧窗口中的按钮。此外,英国伦敦大学开发的PDBsum数据库[Laskowski等, 1997]是基于网络的PDB注释信息综合数据库,用于对PDB数据库的检索,使用十分方便。并将RasMol、CN3D等分子图形软件综合在一起,同时具有分析和图形显示功能。
必须指出的是,与EMBL和PIR等序列数据库一样,结构数据库PDB也属于一次数据库,其中包括许多冗余的数据,乃至错误。PDBCheck 合作研究组对PDB数据库进行了全面的检验,并把结果存放在PDBReport数据库中,用户在使用PDB数据库中的某个文件时,可先查阅该数据库。
蛋白质结构分类数据库SCOP和CATH
蛋白质结构分类是蛋白质结构研究的一个重要方向。蛋白质结构分类数据库,是三维结构数据库的重要组成部分。蛋白质结构分类可以包括不同层次,如折叠类型、拓扑结构、家族、超家族、结构域、二级结构、超二级结构等。已经上网的蛋白质分类数据库很多,此处简单介绍两个主要的蛋白质结构分类数据库SCOP和CATH。
SCOP分类数据库
蛋白质结构分类数据库SCOP(Structural Classification Of Proteins)是由英国医学研究委员会(Medical Research Council,简称MRC)的分子生物学实验室和蛋白质工程研究中心开发和维护。该数据库对已知三维结构的蛋白质进行分类,并描述了它们之间的结构和进化关系(Murzin等, 1995)。鉴于目前结构自动比较程序尚不能可靠地鉴别所有的结构和进化关系,SCOP数据库的构建除了使用计算机程序外,主要依赖于人工验证。由于蛋白质结构种类繁多,大小不一,有的只有一个结构域,有的则有许多结构域组成,构建结构分类数据库是一项十分复杂的工作。对于某些蛋白质,有时需要同时从单个结构域和多个结构域水平加以考虑。
SCOP数据库从不同层次对蛋白质结构进行分类,以反映它们结构和进化的相关性。可以把蛋白质分成许多层次,但通常将它们分成家族,超家族和折叠类型。当然,不同层次之间的界限并不十分严格,但通常层次越高,越能清晰地反映结构的相似性。
家族 SCOP数据库的第一个分类层次为家族,其依据为序列相似性程度。通常将相似性程度在30%以上的蛋白质归入同一家族,即它们之间有比较明确的进化关系。当然这一指标也并非绝对。某些情况下,尽管序列的相似性低于这一标准,例如某些球蛋白家族的序列相似性只有15%,也可以从结构和功能相似性推断它们来自共同祖先。
超家族:如果序列相似性较低,但其结构和功能特性表明它们有共同的进化起源,则将其视作超家族。
折叠类型:无论有无共同的进化起源,只要二级结构单元具有相同的排列和拓扑结构,即认为这些蛋白质具有相同的折叠方式。在这些情况下,结构的相似性主要依赖于二级结构单元的排列方式或拓扑结构。
SCOP数据库可以通过MRC实验室的网络服务器查询
CATH蛋白质结构分类数据库
CATH是另一个著名的蛋白质结构分类数据库,其含义为类型(Class)、构架 (Architecture)、拓扑结构(Topology)和同源性(Homology),它由英国伦敦大学UCL开发和维护(Orengo等, 1997)。与SCOP数据库一样,CATH数据库的构建既使用计算机程序,也进行人工检查。CATH数据库的分类基础是蛋白质结构域。与SCOP不同的是,CATH把蛋白质分为4类,即a主类、b主类,a-b类(a/b型和a+b型)和低二级结构类。低二级结构类是指二级结构成分含量很低的蛋白质分子。 CATH数据库的第二个分类依据为由α螺旋和β折叠形成的超二级结构排列方式,而不考虑它们之间的连接关系。形象地说来,就是蛋白质分子的构架,如同建筑物的立柱、横梁等主要部件,这一层次的分类主要依靠人工方法。第三个层次为拓扑结构,即二级结构的形状和二级结构间的联系。第四个层次为结构的同源性,它是先通过序列比较然后再用结构比较来确定的。CATH数据库的最后一个层次为序列(Sequence)层次,在这一层次上,只要结构域中的序列同源性大于 35%,就被认为具有高度的结构和功能的相似性。对于较大的结构域,则至少要有60%与小的结构域相同。
CATH数据库可以通过UCL的生物分子结构和模拟实验室的网络服务器来查询。通过UCL生物分子结构和模拟实验室的网络服务器还可以查询 PDB数据库PDBsum(Laskowski等,1997)数据库包含了重要的结构信息,由UCL维护。PDBsum数据库提供对PDB数据库中所有结构信息的总结和分析。每个总结给出了与PDB库中条目相关的简要信息,如分辨率、R因子,蛋白质主链数目,配体,金属离子,二级结构,折叠图和配体相互作用等。这不但对了解PDB数据库中包含的结构信息,而且提供了获取一维序列,二维序列模体和三维结构信息的统一的用户界面。随着计算机图形技术的发展,这种图文并茂的网络资源会越来越多,新一代的计算机软件可以使用户更方便地利用这些信息资源。


上一篇: 功能基因筛选的基本策略   下一篇:PCR实用技巧(引物设计等)


↑返回顶部   打印本页   关闭窗口↓  
用户名: 新注册) 密码: 匿名评论 [所有评论]
评论内容:(不能超过250字,需审核后才会公布,请自觉遵守互联网相关政策法规。
 §最新评论:
 推荐文章
·染色质免疫沉淀分析
·基因芯片在临床应用中的前景
·蛋白质组学在基础和应用生物学中
·siRNA的制备方法介绍
 
 热点文章
·什么是克隆技术
·包涵体的纯化和复性总结
·PCR实用技巧(引物设计等)
·重组质粒的转化、筛选和鉴
·革兰氏染色
·微生物实验---大肠杆菌生
·基因的图位克隆
·单克隆抗体的制备
 
 相关文章
· 功能基因筛选的基本策略
·PCR实用技巧(引物设计等)
· 原位聚合酶链式反应(in
·表皮细胞培养
· 内切酶的特性、酶解和琼
·光敏生物素核酸探针原位杂
· 蛋白质提取与纯化技术简
·酰化试剂(Bolton和Hunter
 
粤ICP备05115426号