UFO中文网»UFO社区 › 地理生物 › 生物学 › 2022年生物信息学推文汇总一览

收听	听众	主题

2022年生物信息学推文汇总一览

发表于 2023-2-6 08:34:36 | 查看: 221| 回复: 0

2022年生物信息学推文汇总一览712 / 作者:丫头喜欢说频 / 帖子ID:109158

利用NCBI网站的工具进行序列比对，并且对结果进行解读。该文章对于刚接触生物信息学分析的同学十分友好，可以掌握序列比对的基本操作，以及对同源基因的信息进行解读。

使用NCBI进行序列比对及结果解读
<hr/>生物信息学常用的网站都收集在文章里面，例如基因组数据库、蛋白质数据库、代谢数据库等。
生物信息学研究必备数据库

<hr/>利用Pfam数据库中已有的隐马尔可夫模型（.hmm）鉴定物种的基因家族。通过hmmsearch程序对某个物种的基因组进行比对，找出该物种中同源基因的个数，这些同源基因组成了该物种的一个基因家族。
基于Pfam中hmm结构的基因家族分析

但是，仅仅利用hmm文件分析得到的同源基因并不是最终结果，可能存在一些假阳性的结果，这些序列会影响基因家族鉴定的准确性。因此必须要配合其他分析，如CD-Search、MEME等来剔除不合理的基因序列，进一步鉴定基因家族。
基因家族分析的进一步筛选与鉴定

如果该基因家族没有官方的隐马尔可夫模型文件，则无法进行同源基因的鉴定，这时候我们可以收集已知的同源基因，并通过hmmbuild程序自建隐马尔可夫模型用来分析基因家族。
利用 hmmer 构建隐马尔可夫模型并寻找同源基因

<hr/>WGCNA（Weighted correlation network analysis），加权基因共表达网络分析是用来描述不同样品之间基因关联模式的系统生物学方法，可以用来鉴定高度协同变化的基因集, 并根据基因集的内连性和基因集与表型之间的关联鉴定候补生物标记基因或治疗靶点。
相比于只关注差异表达的基因，WGCNA利用数千或近万个变化最大的基因或全部基因的信息识别感兴趣的基因集，并与表型进行显著性关联分析。一是充分利用了信息，二是把数千个基因与表型的关联转换为数个基因集与表型的关联，免去了多重假设检验校正的问题。WGCNA分析流程详解
对于在WGCNA的实际操作中可能遇到一些疑问，下面的文章收集了常见的一些疑问：
WGCNA分析进阶版常见问题整理
<hr/>单个基因的生物信息学流程。大多数研究最终会集中在某一个或若干个关键基因进行实验验证，在做实验验证前期，我们可以利用生物信息学的手段来分析该基因序列的同源性、亲缘关系、蛋白质结构预测、与其他蛋白分子互作的预测、表达量预测、亚细胞定位预测等。这些分析虽然并不能保证完全正确，但是对于后期实验的设计和结果的评估具有重要的参考性。单个基因的生信分析流程
如果想详细了解分析的过程和解读分析结果，可以阅读以下文章：
单个基因的生物信息分析
<hr/>qPCR的引物设计流程，主要教大家如何设计qPCR实验的引物，需要遵循哪些原则和注意哪些问题。
qPCR引物设计流程

qPCR结果的相对定量计算过程详解。

qPCR相对定量计算公式

qPCR实验常见的问题汇总。
qPCR经验之谈~
<hr/>当我们在阅读文献的时候，得到了某个基因的引物序列，但是想要获取这个基因的完整序列。这时候我们可以利用已知的引物序列，在NCBI网站上利用Primer-Blast工具寻找。该工具也可以验证该引物的特异性以及寻找在不同物种中的同源基因等。
Primer-Blast | 利用引物查找基因序列

<hr/>STRING网站可以对基因序列与常见的模式植物进行比对，寻找相应的同源基因，并在已有相关实验验证的基础上，以模式植物的同源基因构建蛋白质互作网络，以估测目的基因可能与哪些蛋白发生互作。
跟着文献学生信（一）| 利用STRING构建蛋白互作网络

<hr/>构建系统发育树。通常我们用MEGA软件来构建系统发育树，但是有时候该软件的功能无法满足我们构建更加精确的系统发育树的需求，对于一些已知亲缘关系较近的基因序列我们可以用NJ法进行简单的建树，但是如果不知道基因序列的亲缘关系，需要选择合适的模型进行分析，这样的结果会更加准确。

Clustal/Muscle+trimAI+IQ-tree：构建更准确的进化树（docker）

MEGA-X | 选择模型构建进化树（超慢的~）
对构建系统发育树的结果文件进行可视化和美化，建议使用iTol网站进行批量编辑。
iTol | 系统发育树美化教程

<hr/>转录组分析之差异基因分析。利用基因表达量对不同处理或不同品种的基因表达进行分析，寻找出具有差异表达的基因，对其进行进一步的研究。R语言中的DESeq2包正好可以分析差异基因。
RStudio | 利用DESeq2包进行差异表达分析
在完成差异基因分析之后，需要将分析结果进行可视化，通常是做成火山图，并对研究的目的基因标注出来。

Rstudio | 差异表达基因可视化

<hr/>我们从数据库中获取到不同批次的转录组数据后，进行了重新的定量分析。这时候不同的批次对定量分析的结果可能存在一定的影响，如需要进行进一步的分析则需要对不同的批次数据进行校正，以消除批次效应的影响，使分析结果更加可靠。

Rstudio丨白嫖转录组数据后，如何消除批次效应？（Sva包来解决）
更多的消除批次效应的方法，可以参考以下文章：

批次效应影响下游分析？消除批次效应的几种方法

<hr/>Blast是用于序列比对的工具，我们可以下载该程序将我们的目的基因与基因组数据库中的所有基因序列进行比对，以寻找同源基因。

利用Blast+软件寻找基因组中的相似序列
<hr/>基因共线性分析，是对物种内或物种间的同源基因进行分析鉴定，研究基因组重复和基因重复事件。

物种内的共线性分析

对共线性分析结果进行可视化：

共线性分析可视化（物种内）

<hr/>分子标记常用于构建基因图谱、辅助育种和定位基因等。该文章通过Popgen32软件对分子标记的数据进行分析，研究不同品种间的遗传多样性和亲缘关系。
分子标记 | Popgen32操作说明
<hr/>单拷贝基因的分析和构建进化树的流程。

单拷贝直系同源基因建树步骤
END~

收藏0 回复显示全部楼层道具举报

返回列表

		自动登录	找回密码
密码			注册会员