PDB文件储存的是Protein Data Bank数据资源下的分子多维结构信息。这个数据库又包含超过55000记录,提供了蛋白结构信息的权威参考数据。
一个PDB文件包含通过X光晶体散射技术下识别的原子空间定位分布信息,核磁共振成像信息,以及其他实验技术的信息。这个数据通过几个平台来使用,例如分子结构viewer工具,DeepView,Cn3D,PyMol等,蛋白分析以及结构预测软件,如MakeMultimer, Modeller等。
今天我们就介绍下如何通过python语言Bio.PDB模块实现对PDB数据库中的数据进行检索和分析。
Bio.PDB Module
PDB模块提供了一个PDBparser的类,主要功能是对蛋白分子结构信息进行解析处理。这个类有一个method叫做get_structure。这个method需要提供一个蛋白的ID或一个文件作为input data,然后返回的是对应的一个结构对象。使用方法如下
导入PDBParser解析器,对pdbfn文件进行解析,输出结构structure信息。我们可以对此structure结构对象进行数据提取
例如我们对结构model的child进行提取,并获得A,B,C,D四个child chain。
在structure结构中我们提取出多个atom原子信息,并可以获得每个原子的基本信息,如bfactor, coord等。
下面的这个脚本是一个PDB文件压缩为gzip格式。他可以遍历蛋白分子中所有的chain链,然后每个链他都在每一个原子上进行walk,当存在某一异常原子时,可以输出原子的名字以及定位。
一个PDB文件包含通过X光晶体散射技术下识别的原子空间定位分布信息,核磁共振成像信息,以及其他实验技术的信息。这个数据通过几个平台来使用,例如分子结构viewer工具,DeepView,Cn3D,PyMol等,蛋白分析以及结构预测软件,如MakeMultimer, Modeller等。
今天我们就介绍下如何通过python语言Bio.PDB模块实现对PDB数据库中的数据进行检索和分析。
Bio.PDB Module
PDB模块提供了一个PDBparser的类,主要功能是对蛋白分子结构信息进行解析处理。这个类有一个method叫做get_structure。这个method需要提供一个蛋白的ID或一个文件作为input data,然后返回的是对应的一个结构对象。使用方法如下
导入PDBParser解析器,对pdbfn文件进行解析,输出结构structure信息。我们可以对此structure结构对象进行数据提取
例如我们对结构model的child进行提取,并获得A,B,C,D四个child chain。
在structure结构中我们提取出多个atom原子信息,并可以获得每个原子的基本信息,如bfactor, coord等。
下面的这个脚本是一个PDB文件压缩为gzip格式。他可以遍历蛋白分子中所有的chain链,然后每个链他都在每一个原子上进行walk,当存在某一异常原子时,可以输出原子的名字以及定位。