您现在的位置: 飞龙掌血 > 飞龙掌血药材基源 > 正文 > 正文

同源基因家族分析OrthoFinder

  • 来源:本站原创
  • 时间:2022/4/16 11:06:38

目录:下载物种protein序列2protein最长转录本获得3orthoFinder安装与使用4orthoFinder结果含义

下载物种protein序列,NCBI下载

search_genome.py

2解压蛋白质文件,命名成开头2个字母

下面的脚本是在Linux下使用,是shell脚本

使用:将脚本放在Bombyx_mori_protein.fa.gz这种命名的文件夹,输入命令即可。运行前需要检查开头2个字母是否有重复

foriin`ls*.gz`;doname=${i%.fa*};gunzip-c$name.fa.gz${name:0:2}.fa;donemv*.fanewdir##解压的文件到新文件夹

脚本解读:

foriin`ls*.gz`;#遍历文件夹中是。gz的压缩文件doname=${i%.fa*};#变量name=.fa前的名称gunzip-c$name.fa.gz${name:0:2}.fa;解压文件,命名为前2个字母done#完成#exampleArmadillidium_vulgare_protein.fa.gzAr.fa

3蛋白质数据处理

目的:Isolatethelongestisoformforeachgene

仅保留每个基因中有代表性的转录本,去除可变剪切和冗余基因

可变剪切:一个基因有多个mRNA,==》CDS==蛋白质

可变剪切需要结合注释文件。找到一个基因的最长转录本。即最长的蛋白质序列

冗余基因:一个物种中,一个蛋白质序列,出现多次。

冗余基因可以进行蛋白质序列比较。删除重复出现的序列

3.处理蛋白质数据——方法

使用cafe中的python脚本cafetutorial_longest_iso.py

下面网站可以下载:




本文编辑:佚名
转载请注明出地址  http://www.feilongzhangxuea.com/ycjy/10444.html

  • 上一篇文章:
  • 下一篇文章: 没有了
  • Copyright © 2012-2020 飞龙掌血版权所有



    现在时间: