三阴性乳腺癌表达矩阵探索之数据下载及理解
时间:2022-07-28
本文章向大家介绍三阴性乳腺癌表达矩阵探索之数据下载及理解,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
下面是《GEO数据挖掘课程》的配套笔记(第二篇)
了解数据挖掘
公共数据库:(数据来源)
-
GEO
和TCGA
- 国际三大数据中心:
NCBI
, ENSEMBL
, UCSC
GEO
和TCGA
NCBI
, ENSEMBL
, UCSC
- 数据挖掘的概念
- 从大的数据背景中通过各种统计学方法得到数量大小合适的基因集找到的感兴趣的基因集
- 通过各种统计学方法来注释并解释这个基因集的意义
实战:
对文献解读的第三篇文章==Identification of Key Genes and Pathways in Triple-Negative Breast Cancer by Integrated Bioinformatics Analysis== 的分析过程进行重复
- 第一步:下载数据集 GEO数据库基本介绍: 一篇文章可以有一个或者多个GSE数据集,一个GSE里面可以有一个或者多个 GSM样本 ,多个研究的GSM样本介意根据研究目的整合为一个 GDS , 不过GDS本身用得很少,而且每个数据集都有自己对应的芯片平台,就是GPL GEO Platform:GPL GEO Sample: GSM GEO Series: GSE GEO Dataset: GDS GEO数据库,根据数据存放的标签GSE号进行查询
找到GSE号进如GEO数据库
进入GEO并搜索数据集点击目标查询进入目标数据集网页
下载数据的详细介绍
探针注释平台的位置
表达矩阵下载位置表达矩阵下载的方式:
表达矩阵下载的方法一
表达矩阵下载方式二
- 使用
GEOquery
R 程序包从GEO数据库下载 ==Note==:使用下面的代码下载的文件都会保存到本地,destdir
参数指定数据存放的位置。此外,比较重要的三个参数为GSEMatrix=TRUE,AnnotGPL=FALSE, getGPL=TRUE
#加载程序包
library(GEOquery)
#根据GDS下载soft文件
gds <- getGEO('GD858', destdir='.')
#根据GPL号下载芯片设计信息
gpl96 <- getGEO("GPL96", destdir=".")
#根据GSE号下载series_matrix.txt.gz
gse1009 <- getGEO("GSE1009",dstdir=".")
- 下载原始芯片表达数据(CEL)
- 直接下载matrix文件,点击‘Series Matrix File(s)’进入到矩阵存放位置,直接点击下载
- 第二步:开始分析
- 新建一个R.project
GSE76275.Rproj
- 在新的project下分别创建每个流程的分析
- 总共分step0-step5step0-install.R : 安装需要用到的程序包Notes: R版本高于3.5 使用BiocManager, 低于3.5用BiocInsrallerrm(list = ls()) #清空当前工作空间变量 options()repos #查看当前工作空间默认的下载包路径options()BioC_mirror #查看使用BioCManager下载包的默认路径options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") # 指定使用BioCManager下载的路径options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) # 指定使用install.packages下载包的路径options()repos options()BioC_mirror# https://bioconductor.org/packages/release/bioc/html/GEOquery.htmlif (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") #判断是否存在BiocManger包,没有的话下载该包 #判断是否存在这些包,不存在的话安装这些包if(!require("KEGG.db")) BiocManager::install("KEGG.db",ask = F,update = F)if(!require("GSEABase")) BiocManager::install("GSEABase",ask = F,update = F)if(!require("GSVA")) BiocManager::install("GSVA",ask = F,update = F)if(!require("clusterProfiler")) BiocManager::install("clusterProfiler",ask = F,update = F)if(!require("GEOquery")) BiocManager::install("GEOquery",ask = F,update = F)if(!require("limma")) BiocManager::install("limma",ask = F,update = F)if(!require("impute")) BiocManager::install("impute",ask = F,update = F)if(!require("genefu")) BiocManager::install("genefu",ask = F,update = F)if(!require("org.Hs.eg.db")) BiocManager::install("org.Hs.eg.db",ask = F,update = F)if(!require("hgu133plus2.db")) BiocManager::install("hgu133plus2.db",ask = F,update = F)if(!require("ConsensusClusterPlus")) BiocManager::install("ConsensusClusterPlus",ask = F,update = F)step1-download.R: 下载所需要的数据##1.获取GEO数据library(GEOquery)f = "SE76275_eSet.Rdata" #如果文件不存在则进行下载if(! file.exist(f)){ gset <- getGEO("GSE76275", destdir=".", AnnotGPL=T, #注释文件,可下可不下 getGPL = T) #注释平台,可下可不下,可以改为F save(gset,file="GSE76275_eSet.Rdata") #保存到本地 }load("GSE76275_eSet.Rdata") #载入数据简单对下载的数据进行了解:ExpressionSet数据形式的组成:assayDataphenoDatafeatureDataexperimentDataprotocalDataclass(gset) #list类型length(gset) #查看长度,只有一个元素class(gset[[1]]) #取出第一个元素,并查看类型为"ExpressionSet"?ExpressionSet #查看这个数据类型,getGEO函数的目的就是下载数据,而下载的数据最终以ExpressionSet的形式存在a<-gset[[1]] #取出该列表的第一个元素并赋值a@experimentData #访问不同的数据集a@assayDatamethods(class='ExpressionSet') #可用于查看该对象的操作函数dat=exprs(a) #取出对象a中的表达矩阵dim(dat) #检查维度,54675个探针,265个病人dat[1:4,1:4] #查看前四行前四列了解实验设计:pd <- pData(a) #取出pdcharacteristics_ch1.1 #取出分组信息ifelse(X==1,'X等于1','X不等于1') #首先判断X是否等于1,如果X等于1,返回'X等于1'的值,否则返回'X不等于1'的值group_list<-ifelse(pd
- 新建一个R.project
视频观看方式
我把3年前的收费视频课程:3年前的GEO数据挖掘课程你可以听3小时或者3天甚至3个月,免费到B站:
- 这个课程超级棒,B站免费学习咯:https://m.bilibili.com/video/BV1dy4y1C7jz
- 配套代码在GitHub哈:https://github.com/jmzeng1314/GSE76275-TNBC
- TCGA数据库挖掘,代码在:https://github.com/jmzeng1314/TCGA_BRCA
- GTEx数据库挖掘,代码在:https://github.com/jmzeng1314/gtex_BRCA
- METABRIC数据库挖掘,代码在:https://github.com/jmzeng1314/METABRIC
然后马上就有了3千多学习量,而且有学员给出来了图文并茂版本万字笔记,让我非常感动!
- 小侃 SQL加密和性能
- 接口测试 | 25 requests + pytest测试实例
- 接口测试 | 24 requests + unittest集成你的接口测试
- 接口测试 23 requests基础入门二
- 写让别人能读懂的代码+网页性能管理详解
- CDOJ 1330 柱爷与远古法阵【高斯消元,卡精度】
- Robot Framework | 04 参数化基于Public API的RFS测试
- 接口测试 | 22 requests基础入门
- 分享一个Mvc的多层架构,欢迎大家拍砖斧正
- Robot Framework | 03 基于Public API创建你RFS测试
- Robot Framework | 02 从抛弃RIDE开始创建你的RFS测试
- ASP.NET5 Beta8可用性
- Docker Swarm集群初探
- 数据库逻辑设计
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- MyCat------基于java语言的数据库中间件
- Solr技术(附软件分享)
- VSFTPD技术
- Shiro——基于java的安全框架
- 电子圆二色谱(ECD)的理论计算
- 用 80 行 Javascript 代码构建自己的语音助手
- 手把手教你搭建分布式项目环境
- GraphQL两年实战避坑经验
- 基于Dubbo的服务提供者与消费者的发布(在虚拟机中)以及使用nginx对项目进行负载均衡优化
- 我们为什么不使用CSS框架
- java.lang.IllegalArgumentException: node to traverse cannot be null!
- Spring Data Jpa 异常:PropertyReferenceException: No property xxx found for type for type yyy
- Spring全家桶之SpringData——SpringData Redis(附相关jar包)
- Spring全家桶之SpringBoot——初级阶段
- Spring全家桶之SpringBoot——高级阶段