同源基因家族分析OrthoFinder

来源：本站原创
时间：2022/4/16 11:06:38

目录：下载物种protein序列2protein最长转录本获得3orthoFinder安装与使用4orthoFinder结果含义

下载物种protein序列，NCBI下载

search_genome.py

2解压蛋白质文件，命名成开头2个字母

下面的脚本是在Linux下使用，是shell脚本

使用：将脚本放在Bombyx_mori_protein.fa.gz这种命名的文件夹，输入命令即可。运行前需要检查开头2个字母是否有重复

foriin`ls*.gz`;doname=${i%.fa*};gunzip-c$name.fa.gz${name:0:2}.fa;donemv*.fanewdir##解压的文件到新文件夹

脚本解读：

foriin`ls*.gz`;#遍历文件夹中是。gz的压缩文件doname=${i%.fa*};#变量name=.fa前的名称gunzip-c$name.fa.gz${name:0:2}.fa;解压文件，命名为前2个字母done#完成#exampleArmadillidium_vulgare_protein.fa.gzAr.fa

3蛋白质数据处理

目的：Isolatethelongestisoformforeachgene

仅保留每个基因中有代表性的转录本，去除可变剪切和冗余基因

可变剪切：一个基因有多个mRNA，==》CDS==蛋白质

可变剪切需要结合注释文件。找到一个基因的最长转录本。即最长的蛋白质序列

冗余基因：一个物种中，一个蛋白质序列，出现多次。

冗余基因可以进行蛋白质序列比较。删除重复出现的序列

3.处理蛋白质数据——方法

使用cafe中的python脚本cafetutorial_longest_iso.py

下面网站可以下载：

本文编辑：佚名
转载请注明出地址 http://www.feilongzhangxuea.com/ycjy/10444.html

上一篇文章：利用pandas模块处理百家姓数据

下一篇文章：没有了

最新文章

热点文章

推荐文章