目录:下载物种protein序列2protein最长转录本获得3orthoFinder安装与使用4orthoFinder结果含义
下载物种protein序列,NCBI下载
search_genome.py
2解压蛋白质文件,命名成开头2个字母
下面的脚本是在Linux下使用,是shell脚本
使用:将脚本放在Bombyx_mori_protein.fa.gz这种命名的文件夹,输入命令即可。运行前需要检查开头2个字母是否有重复
foriin`ls*.gz`;doname=${i%.fa*};gunzip-c$name.fa.gz${name:0:2}.fa;donemv*.fanewdir##解压的文件到新文件夹
脚本解读:
foriin`ls*.gz`;#遍历文件夹中是。gz的压缩文件doname=${i%.fa*};#变量name=.fa前的名称gunzip-c$name.fa.gz${name:0:2}.fa;解压文件,命名为前2个字母done#完成#exampleArmadillidium_vulgare_protein.fa.gzAr.fa
3蛋白质数据处理
目的:Isolatethelongestisoformforeachgene
仅保留每个基因中有代表性的转录本,去除可变剪切和冗余基因
可变剪切:一个基因有多个mRNA,==》CDS==蛋白质
可变剪切需要结合注释文件。找到一个基因的最长转录本。即最长的蛋白质序列
冗余基因:一个物种中,一个蛋白质序列,出现多次。
冗余基因可以进行蛋白质序列比较。删除重复出现的序列
3.处理蛋白质数据——方法
使用cafe中的python脚本cafetutorial_longest_iso.py
下面网站可以下载:
本文编辑:佚名
转载请注明出地址 http://www.feilongzhangxuea.com/ycjy/10444.html