IT技术之家

首页 > 人工智能

人工智能

WGCNA:概念初探_老实人谢耳朵

发布时间:2022-10-24 17:12:36 人工智能 0次 标签:聚类 算法 数据挖掘
基本分析流程简介即加权基因共表达网络分析,可将表达模式相似的基因进行聚类(共表达基因),并分析模块与特定性状或表型之间的关联关系。WGCNA促进了基于网络的基因筛选方法,可用于识别候选生物标志物或治疗靶标,等方面的研究中被广泛应用。在RNA-seq数据中的应用相关术语补充1、应用WGCNA分析的数据应当2、WGCNA分析对计算机的要求较高,4G内存电脑可处理8000-10000个基因数量,16G内存电脑可以处理2万个,32G内存电脑可以处理3万个3、如果表型为。.........................

简介

WGCNA(weighted gene co-expression network analysis)即加权基因共表达网络分析,可将表达模式相似的基因进行聚类(共表达基因),并分析模块与特定性状或表型之间的关联关系。WGCNA促进了基于网络的基因筛选方法,可用于识别候选生物标志物或治疗靶标,在研究表型性状与基因关联分析等方面的研究中被广泛应用。

在RNA-seq数据中的应用?

鉴定高相关的基因module。一个module内的基因往往有相似的生物学功能,可通过此方法初步探索lncRNA的功能;鉴定与表型相关的基因module。与表型高度相关的module可进行后续分析,用于建立预测模型或者探索生物学机制;寻找hub基因。该类应用在早期的lncRNA研究中很热,如果某个module中有lncRNA作为hub基因,可以继续对该lncRNA进行深度探索。?

相关术语

Co-expression network:加权基因网络。以基因表达谱举例,基因之间的连接由基因间的表达相关性决定,WGCNA则使用β(软阈值)加权提高相关性的绝对值,能突出高相关基因但牺牲低相关的基因。具体来说,aij?= |cor(genei, genej)|^β表示unsigned的共表达网络,?aij?= |(1 + genei, genej)/ 2|^β?表示signed的共表达网络。Module:表达高度相关的基因集。在unsigned的共表达网络中,module对应绝对相关性的基因集;在signed的网络中,module对应正相关的基因集Module?Eigengene ME:给定module的第一主成分,可代表module,例如计算ME和体重相关即说明module与体重相关Module?Membership MM:将该基因的表达量与module eigengene进行相关性分析就可以得到MM值。MM值本质上是一个相关系数,如果基因和某个module的MM值为0,说明二者根本不相关,该基因不属于这个module; 如果MM的绝对值接近1,说明基因与该module相关性很高Intramodular connectivity KIM?衡量的是给定基因相对于特定模块的基因是如何连接或共同表达的。模内连接性可以衡量module?membership。Gene Significance GS:将指定基因的表达量与对应的表型数值进行相关性分析,最终的相关系数的值就是GS。GS越高表明指定基因与研究表型越相关。Module Significance MS:给定module中所有基因的GS平均值。Module significance越高表明指定module与研究表型越相关。Eigengene significance:模块特征(ME)与样本性状的相关性。值越高表明指定module与研究表型越相关。Connectivity:在加权共表达网络中,由于每条边代表两个基因间的相关性的大小,对应一个数值,所以一个基因在共表达网络中的Connectivity定义为与该基因相连的所有边的数值之和。另外,根据相连的基因是否和该基因位于同一个module,又可以将边分为两类,和该基因位于同一个module内,定义为within,位于不同的modules,定义为out。可根据within的connectivity来确定该module的hub基因。Hub gene:这个定义是“highly connected gene”的缩写。表示在指定module内的具有高Connectivity的基因。?SoftThreshold:软阈值,即aij?= |cor(genei, genej)|^β中的β值,含义为调整cor(genei, genej)使其符合幂律分布的最小β值;若变量K满足幂律分布,则P(K)=c·K^-α,即P(K)和K的对数满足线性相关,pearson‘s R^2大于0.8

问题

1、WGCNA分析对输入数据的要求?

输入的表达矩阵应当基因在列,样本在行

fpkm、tpm、cpm等标准化数据均可以分析,推荐分析前对标准化数据使用DESeq2的varianceStabilizingTransformation或log2(x+1)做个转换,如log(cpm+1)

2、WGCNA分析对内存的要求?

WGCNA分析对计算机的要求较高,4G内存电脑可处理8000-10000个基因数量,16G内存电脑可以处理2万个,32G内存电脑可以处理3万个

3、研究的表型为分类变量或者连续变量?

如果表型为分类变量,WGCNA可以很直观的比较某一组基因在不同分组的表达情况如果表型为连续变量,WGCNA很直观的表现特定基因module随连续变量的变化情况

4、对下面两个网站中包的作者给出的部分常见问题进行翻译

WGCNA package: Frequently Asked Questionshttps://horvath.genetics.ucla.edu/html/CoexpressionNetwork/Rpackages/WGCNA/faq.htmlInsights from a billion correlationshttps://peterlangfelder.com/articles/

Q1:?分析需要多少样本?

我们不推荐在样本量少于15个的数据集中使用WGCNA分析。如果样本量少于15,那么基因间的相关性的噪声过大,构建的网络也将失去生物学意义。如果可能的话,样本量应当至少大于20,且样本量越多,越容易得到稳健且精确的结果。

Q2:分析前是否需要对基因或探针进行过滤?

低表达基因和非变异基因通常代表噪声,所以需要通过表达均值或表达方差对基因进行过滤。通常均值和方差相互关联,故二者过滤的基因也大致相同。同时,不推荐通过差异表达来过滤基因。

Q3:推荐使用什么参数?

通常我们倾向于选择在多个程序中表现良好的默认参数,但是有时候为了保证向后兼容性和复现性,我们选择使用“simple”或历史默认参数。对于新的计算,我们不推荐使用默认参数,部分例子如下:

Signed network。对于 signed、signed hybrid、unsigned 的选择比较复杂,总的来说我们推荐signed或signed hybrid。在 accuracyMeasures, adjacency、chooseOneHubInEachModule、chooseTopHubInEachModule、nearestNeighborConnectivity、nearestNeighborConnectivityMS、orderBranchesUsingHubGenes、softConnectivity 等函数中,选择参数是?type = "signed"?or?"signed hybrid";在?blockwiseModules、blockwiseConsensusModules、blockwiseIndividualTOMs、consensusTOM、intramodularConnectivity、modulePreservation、pickSoftThreshold、TOMsimilarityFromExpr、vectorTOM 等函数中,选择参数是 networkType = "signed"?or?"signed hybrid"Robust correlation。WGCNA包中所有函数的默认相关方法是标准皮尔逊相关。总的来说,除非有理由相信数据中没有异常测量值,否则推荐使用双权重中间相关(biweight mid-correlation)作为参数选项。在部分函数中,选择参数是?corFnc?其他参数参考帮助文档。? 需要补充的是,biweight mid-correlation 在多数情况下表现良好,但部分情况下会有问题: 限制排除的异常值数量(参数maxPOutliers。如果表达数据是双峰分布(例如一个基因的表达极度依赖二分类变量,如疾病状态)或纳入相关性计算的变量之一是二分类或有序多分类变量,那么 biweight mid-correlation 将得不到理想的结果。因此,我们强烈推荐在使用 biweight mid-correlation 时加上?maxPOutliers = 0.05?or?0.10?参数。这个参数能够避免 bicor 将过多的样本视为异常值。处理二变量数据。当处理高通量数据x和二分类变量y(如性别0)时,可使用参数?robustY = FALSE?关闭 bicor 的稳健处理功能。这样计算的结果是如 Langfelder and Horvath (2011) 所描述的混合稳健皮尔徐相关(hybrid robust-Pearson correlation),

Q4:WGCNA是否可以用来分析RNA-seq数据?

RNA-seq、Microarray数据在正确归一化之后均可以用WGCNA中分析。我们推荐去除普遍表达较低的基因,例如去除在90%的样本中counts数低于10的基因,实际的过滤阈值应当基于实验设计和测序深度。

在过滤基因之后,我们推荐使用variance-stabilizing transformation处理RNA-seq数据,其中DESeq2包提供的varianceStabilizingTransformation就不错,但你也可以用log2(x+1)对归一化后的counts或fpkm数据进行转换。但是,不管你是用fpkm还是归一化的counts数据,只要所有样本的处理方法相同就都可以用WGCNA分析。

如果样本之间存在批次效应,我们推荐先使用sva::ComBat去除批次效应

Q5:我的数据存在异质性,是否可以使用WGCNA?

数据的异质性(技术来源,如批次效应;生物来源,如性别)会影响分析结果,特别对于WGCNA这类无监督分析。如果异质性就是所研究的因素则可以使用WGCNA分析,例如Treatment组 vs Control组中许多通路别上调,那么就会被WGCNA识别。但多数情况下,异质性都是要被矫正的。

对于有异质性的数据,如果有分类的变异来源(如性别或组织分类),并且每个分类的样本数(至少30)都足够大到可以各自构建网络,那么就值得进行共识模块分析(consensus module analysis)。因为这种分析在各自分类中各自构建网络,分类间的变异对结果无影响。如果必须要对所有样本建立单个网络,就需要使用sva::ComBat函数进行矫正。


安装R包

install.packages("BiocManager")
BiocManager::install("WGCNA")

?基本分析流程

1、数据输入和清理

2、网络构建和模块检测

3、识别与外部临床特征相关的module和hub gene

4、将网络分析与功能注释和基因本体等其他数据相结合

5、使用WGCNA函数的网络可视化

6、将网络导出到外部软件