使用MuSE软件找somatic mutation
MuSE软件发表在2016年8月的Genome Biology 杂志,文章标题是;《MuSE: accounting for tumor heterogeneity using a sample-specific error model improves sensitivity and specificity in mutation calling from sequencing data》
软件链接是:MuSE (http://bioinformatics.mdanderson.org/main/MuSE), 大名鼎鼎的 MD Anderson 出品的软件,肯定是值得一用,而且还是TCGA的官方推荐的4个软件之一。
首先下载安装MuSE
mkdir -p $HOME/biosoft/MuSE
cd $HOME/biosoft/MuSE
wget http://bioinformatics.mdanderson.org/Software/MuSE/MuSEv1.0rc_submission_b391201
mv MuSEv1.0rc_submission_b391201 muse
chmod 777 muse
$HOME/biosoft/MuSE/muse
该软件也是很久没有更新了:
Version: v1.0rc
Build Date Jun 3 2015
Build Time 10:30:35
处于基本上用完了也没办法检查结果的好坏的境况。
针对N-T配对的bam文件运行MuSE
首先是在单个病人的N-T配对的bam文件测试MuSE软件的用法,这里有两个命令需要衔接一下,首先是muse call然后是muse sump ,需要参考基因组以及dbSNP数据库文件。
ref=$HOME/biosoft/GATK/resources/bundle/hg38/Homo_sapiens_assembly38.fasta
dbsnp=$HOME/biosoft/GATK/resources/bundle/hg38/dbsnp_146.hg38.vcf.gz
normal_bam=N_recal.bam
tumor_bam=T_recal.bam
sample=test
$HOME/biosoft/MuSE/muse call -O $sample -f $ref $tumor_bam $normal_bam
$HOME/biosoft/MuSE/muse sump -I $sample.MuSE.txt -E –O $sample.vcf –D $dbsnp
结果文件,就是典型的VCF格式,而且tags不多值得注意的只有ID=SS,Number=1,Type=Integer,Description="Variant status relative to non-adjacent Normal,0=wildtype,1=germline,2=somatic,3=LOH,4=post-transcriptional modification,5=unknown
前5列CHROM POS ID REF ALT
很正常,第6列QUAL全部是点,第7列FILTER 把位点分级了。第8列是 INFO 信息,全部是SOMATIC
第9,10,11列是GT:DP:AD:BQ:SS
格式的tumor和normal,可以看到normal都是野生型0/0, tumor全部是杂合突变1/0,只是allel frequency不同而已,介于0~1之间。
一般来说,都是一大波样品批量运行啦, 需要一个config文件,主要是3列信息:
- 第一列是肿瘤命名
- 第二列是肿瘤病人的normal组织的bam文件地址
- 第三列是肿瘤病人的肿瘤组织的bam文件地址。
批量运行muse的脚本如下:
ref=$HOME/biosoft/GATK/resources/bundle/hg38/Homo_sapiens_assembly38.fasta
dbsnp=$HOME/biosoft/GATK/resources/bundle/hg38/dbsnp_146.hg38.vcf.gz
$HOME/biosoft/MuSE/muse call
cat $config_file |while read id
do
arr=($id)
normal_bam=${arr[1]}
tumor_bam=${arr[2]}
sample=${arr[0]}
if((i%$number1==$number2))
then
if [ ! -f ${sample}_muse.vcf ]; then
$HOME/biosoft/MuSE/muse call -O $sample -f $ref $tumor_bam $normal_bam
$HOME/biosoft/MuSE/muse sump -I $sample.MuSE.txt -E -O$sample.vcf -D $dbsnp
fi
fi
i=$((i+1))
done
从数量上,这个muse软件作为TCGA的官方推荐的4个软件还是很靠谱的。
昨天分享的SNVSniffer软件得到的vcf文件,每个肿瘤WES都是几万个somatic突变信息,太可怕了!!!一般来说,肿瘤WES的每个病人也就是几百个somatic突变信息的数量级。
下面是TCGA计划采取的软件:
- MuSE
- varscan
- MuTect
- SomaticSniper
大家可以去下载到TCGA计划的这4个软件输出的maf文件格式的somatic突变信息文件哦。
附上TCGA数据库maf突变资料官方大全
因为TCGA计划跨时太长,这些年找somatic变异的软件也很多,所以TCGA团队下功夫在计划结束后(April 2018)完整的系统性的整理了最后的somatic突变数据。依托于文章:Scalable Open Science Approach for Mutation Calling of Tumor Exomes Using Multiple Genomic Pipelines March 201810.1016/j.cels.2018.03.002
全部样本的somatic变异文件合并起来是七百多M,MC3 Public MAF - mc3.v0.2.8.PUBLIC.maf.gz
- 下载链接是:https://api.gdc.cancer.gov/data/1c8cfe5f-e52d-41ba-94da-f15ea1337efc
- 大规模异常滥用检测:基于局部敏感哈希算法——来自Uber Engineering的实践
- 事务与一致性:刚性or柔性?
- 文本相似度算法小结
- return的值都去哪了?去哪了,“谁伸手了,return的结果就给谁”
- 面试时对方问你,“xxx需求你是怎么做的”?你可以这样回答
- vue.js的条件渲染,其实就是模板里面写if else
- vue.js的插槽 - slot 是啥?要我说,它就是个“形参”
- Vue2.0,lifeCycle ['laɪfˌsaɪkl] -- 生命周期大白话~
- 什么生命周期,在我看来就是各种回调 &&电商项目作业检查 -- 张xx
- 小知识点 -- nodejs中的console.log打印输出在哪里?
- 学js少看书肯定是不成的,要多看。
- 抽象是啥?就是一群人的特征;js中的call是啥?就是我想用你家的电饭锅
- 从node事件到观察者 -- 学习要有一根线索
- Joy:一款用于捕获和分析网络内部流量数据的工具
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- dotnet 使用 SourceLink 将 NuGet 链接源代码到 GitHub 等仓库
- 嵌入式linux之go语言开发(八)存储模块的封装(一)
- QGIS制图中面积小的区域不显示注记
- linux 编译 c或cpp 文件为动态库 so 文件(最简单直观的模板)
- 满眼只有React和Vue,却对前端数据层几乎一无所知
- 嵌入式linux之go语言开发(八)存储模块的封装(二)
- 招商银行校招题二
- 小程序工程化系列(一):文件依赖分析
- ucgui在windows上的移植,及为go语言打造简易跨平台GUI的想法
- React setState 是异步执行还是同步执行?
- sm2,sm3,sm4国密算法的纯c语言版本,使用于任何嵌入式平台
- sm2国密算法的纯c语言版本,使用于单片机平台(静态内存分配)
- 面试:mysql 事务和锁的解释
- 【STM32F407开发板用户手册】第35章 STM32F407的FSMC总线应用之驱动AD7606(8通道同步采样, 16bit, 正负10V)
- 玩转easyARM imax283A开发版(二),移植NES模拟器并增加按键驱动,让板子可以玩超级玛丽游戏