lncRNA实战项目-第三步-了解参考基因组及注释文件
下载原始测序数据:
在GEO数据库搜索GSE87182, 这里没有直接给出ftp地址,需要先从BioProject找到SRA号,可以得到RNA-Seq的SRA的accession_list,共64组数据(SRA数据下载方法参考:https://www.ncbi.nlm.nih.gov/books/NBK158899/)。
得到SRA号就可以从NCBI的SRA或者EBI的ENA批量下载原始数据了,NCBI下载的原始数据是sra格式,需要用SRA Toolkit软件包转化为fastq数据格式,EBI下载的数据直接是fastq格式。
这里要注意SRR号并不是连续的,好像有人已经踩过这个坑了,我还是掉进去了,下了一个晚上的数据白瞎了。重新下载,这次只选择下载CC,OC两个脑区域的数据,刚好这两组数据的测序平台也一致。
#NCBI下载
for ((i=230;i<=237;i++));do wget ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR404/SRR4042$i/SRR4042$i.sra;done
for ((i=393;i<=400;i++));do wget ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR401/SRR4015$i/SRR4015$i.sra;done
SRR4015393和SRR4015394测序质量不好,最好不要下载这两组数据练习。
#EBI下载
for ((i=230;i<=237;i++));do wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR404/000/SRR4042$i/SRR4042$i_1.fastq.gz;done
for ((i=230;i<=237;i++));do wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR404/000/SRR4042$i/SRR4042$i_2.fastq.gz;done
另外若觉得wget下载速度慢,可以选择其他下载方法(SRA、SAM以及Fastq文件高速下载方法):
- 首选Aspera Connect软件,这是IBM旗下的商业高速文件传输软件,与NCBI和EBI有协作合同,我们可以免费使用它下载高通量测序文件,体验飞一般的感觉,速度可飚至300-500M/s。下载完成后,本地用fastq-dump提取fastq文件,用sam-dump提取SAM文件。
- 其次,如果上述方法不奏效,优先使用sratoolkit中的prefetch命令。
- 最后,使用sratoolkit中的fastq-dump和sam-dump命令下载,如果fastq-dump不稳定,推荐大家尝试Biostar Handbook中的wonderdump脚本。
SRA数据库介绍
SRA(Sequence ReadArchive)数据库是存储二代测序的原始数据。
根据SRA数据产生的特点,将SRA数据分为四类: tudies-- 研究课题 xperiments-- 实验设计 uns-- 测序结果集 amples-- 样品信息 RA中数据结构的层次关系为:Studies->Experiments->Samples->Runs. tudies是就实验目标而言的,一个study 可能包含多个Experiment。 Experiments包含了Sample、DNA source、测序平台、数据处理等信息。 一个Experiment可能包含一个或多个runs。 uns 表示测序仪运行所产生的reads。 SRA数据库用不同的前缀加以区分: ERP或SRP表示Studies; RS 表示 Samples; RX 表示 Experiments; RR 表示 Runs;
下载基因组数据:
基因组数据:ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/dna/ Ensemble基因组数据的形式包含以下2种: (1)masked/unmasked dna_sm- Repeats soft-masked (converts repeat nucleotidesto lowercase) dna_rm- Repeats masked (converts repeats to to N's) dna- No masking (2) toplevel / primary assembly toplevel- Includes haplotype information (notsure how aligners deal with this) primary_assembly– contains all toplevel sequenceregions excluding haplotypes and patches. This is best used for performingsequence similarity searches where patch and haplotype sequences would confuseanalysis.
根据README中的介绍,primary_assembly 和 toplevel相比不包含haplotype, 更适合用于比对,对于mask/un mask 通常选择softmask或者unmasked, 一般不用rm的。这个有一个讨论,几个人的回答并不一致,我还是模模糊糊,并不很明白。
macaca的基因组版本没有给出primary_assembly, 所以我下载了sm.toplevel和toplevel, 有时间去比较下会对下游分析有什么影响。
wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/dna/Macaca_mulatta.Mmul_8.0.1.dna_sm.toplevel.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/cdna/Macaca_mulatta.Mmul_8.0.1.cdna.all.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/ncrna/Macaca_mulatta.Mmul_8.0.1.ncrna.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/cds/Macaca_mulatta.Mmul_8.0.1.cds.all.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/dna/Macaca_mulatta.Mmul_8.0.1.dna.toplevel.fa.gz
下载注释数据:
注释数据:https://asia.ensembl.org/info/data/ftp/index.html
wget ftp://ftp.ensembl.org/pub/release-91/gtf/macaca_mulatta/Macaca_mulatta.Mmul_8.0.1.91.gtf.gz
wget ftp://ftp.ensembl.org/pub/release-91/gff3/macaca_mulatta/Macaca_mulatta.Mmul_8.0.1.91.gff3.gz
参考资料:
SRA数据下载方法参考:https://www.ncbi.nlm.nih.gov/books/NBK158899/ SRA、SAM以及Fastq文件高速下载方法: http://bioinfostar.com/2017/12/23/How-to-download-SRA-data-zh_CN/ SRA数据库介绍:https://www.shengxin.ren/article/16
- 系统捕获异常并发送到服务器
- 当调用GetAuthorizationGroups() 的错误-“试图访问卸载的应用程序域“(Exception from HRESULT: 0x80131014)解决方案
- WCF 4.0路由服务Routing Service
- ExpandableListView简单应用及listview模拟ExpandableListView
- 文件句柄与文件描述符
- android GifView分享
- VAE、GAN、Info-GAN:全解深度学习三大生成模型
- android获取设备唯一标示
- 如果正确读取SQL Server中的扩展事件?
- android自定义xmls文件属性
- 分布式系统中的RPC请求经常出现乱序的情况 写一个算法来将一个乱序的序列保序输出
- jsoup详解
- 用LogParser对IIS 日志进行分析
- android异步任务asyntask详解
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- OpenGL ES 帧缓冲区位块传送
- OAuth 2.0 单元测试解决方案
- 「性能提升」扩展 Spring Cache 支持多级缓存
- 如何以源码形式运行Nacos Server
- Spring Boot 2.4 配置文件将加载机制大变化
- OpenGL ES 多目标渲染(MRT)
- R包:gtable包用于处理ggplot2图像
- Sight——杀手级提升Laravel开发速度的组件现在开源了!
- 面试官带你学Android——面试中Handler 这些必备知识点你都知道吗?
- leetcode哈希表之前K个高频元素
- Kali之U盘启动加密与持久化存储制作流程
- Gentoo发行版系统基础使用记录
- Ubuntu-20.04-LTS桌面版与服务器版基础初始配置
- Snap容器基础入门使用
- zabbix入门学习