收听	听众	主题

常用的生物信息学数据库

发表于 2023-3-4 17:25:18 | 查看: 451| 回复: 0

1、常用生物信息学数据库的介绍和使用方法

一级数据库：储存原始的基础生物数据资源：核苷酸数据库；基因组数据库
蛋白质数据库：序列数据库；结构数据库
二级数据库：在初级数据库和相关文献等数据基础上经加工和增加相关信息，构建具有特殊生物学意义和专门用途的数据库。
如：真核生物启动子序列库（EPD）；蛋白质一般结构或功能域数据库（PROSITE）
2、核苷酸数据库、蛋白质数据库、文献数据库、其他数据库、数据提交

核苷酸数据库：GenBank（美国），ENA（欧洲），DDBJ(日本)
蛋白质数据库：Uniport（序列数据库），PDB（结构数据库）
文献数据库：PubMed（文献摘要数据库），Agricola
其他数据库：KEGG（代谢途径数据库），MetaLights(代谢组学数据库)
数据提交：①打开GenBank页面，submissions,用sequin批量提交或Bankit在线提交少量数据，然后立刻收到临时编号，2天内会受到Accession number
②UniPortKB：只接受蛋白质测序方法直接测得的数据
③大规模数据需要用邮件联系
3、数据库文件格式：FASTA、GenBank flatfile、EMBL等序列格式

FASTA：分为两部分：首行，即描述行，以>为起始，后跟这段序列的描述信息（可选）
原始序列，即首行之后的信息
FSATAQ：四行来表示，多了序列的质量信息
第一行包含数列的名称等其他描述信息，以@开头
第二行为序列的具体信息
第三行与第一行内容相同，以+开头，+后面的内容可省略
第四行为序列的质量信息，与第二行碱基序列一一对应
GenBank flatfile（GBFF）：为GenBank数据库使用的格式记录
分为三个部分：①描述符信息：包括了整个记录的相关信息，比如位置，定义，检索号等
②注释信息：描述基因和基因产物以及序列相关的生物学特征，对该序列的mRNA,CDS等进行描述。
③序列部分：核苷酸序列本身，末尾的//是结束符
EMBL：内容与GenBank flatfile相同，只不过每一行的起始会有两、三个字符的缩写
4、EST、STS、GSS、HTGS、WGS、PAT、TPA、TSA、ENV、SYN等分类，相应功能有何不同？

注释信息丰富：ENV：环境混合微生物得到的序列，比如肠道微生物
SYN：人工合成序列，包括引物，载体，人工合成的密码子优化的序列
只是单纯的序列：
EST：表达序列标签：mRNA上的勘测序列，没有功能注释，但可用于注释基因的结构，评估基因的表达量以及挖掘基因变异等
STS：序列标签位点：每一个STS包含一对引物，用于作为一个标记，将基因组中的大片段进行排序，有助于组装基因组
GSS：基因组勘测序列：来源于基因组DNA，是基因组短序列，用于获得对所要研究基因组的初步了解，是设计标记的源泉。
HTGS：高通量基因组序列：逐步克隆法基因组测序过程中产生的过渡数据。
WGS：全基因组鸟枪法测序序列：全基因组鸟枪法测序过程中产生的数据
TSA：转录组鸟枪法测序拼接位点：通过组装多条EST或转录组测序获得的片段（只能是你产生的序列，你自己来拼接，否则就是TPA）
非实验获得，只能由原始序列的研究者递交
PAT：已申请专利的序列：
TPA：第三方提供注释，可以是一条已知序列的一部分或多条序列经软件拼装得到的
5、Contigs与Scaffolds的区别

Contigs（重叠群）:拼接出来的比较完成完整的不含有N的序列
Scaffolds:中间含有N的长片段（中间序列不知道时）
Contigs N50:评价基因组组装质量的指标，将序列从上至下，从长到短排序，排序序列/总序列=50%，长度加到总长的50%
拼接质量越好，N50越长。

收藏0 回复显示全部楼层道具举报

返回列表

		自动登录	找回密码
密码			注册会员