做生物研究的你,是不是也被海量基因数据折磨过?辛辛苦苦做完测序、差异分析,结果面对成百上千个差异基因,一脸懵:
这些基因到底在干嘛?
它们之间有啥关系?
和我的研究表型有啥联系?
这时候,富集分析就像一位“基因翻译官”,帮你把冷冰冰的基因名,翻译成我们能看懂的生物学功能、代谢通路、信号网络……不管你是研究植物开花、动物疾病,还是细胞信号,它都是解读数据的关键一步。
今天,咱们就来聊聊科研人最常用的四大富集分析工具:GO、KEGG、GSEA和GSVA,一次性讲清楚它们的区别,以及到底该怎么选。
一 、GO和KEGG:经典老牌,稳中带强
要说富集分析,GO和KEGG绝对是科研界的“老熟人”。它们历史悠久,使用广泛,几乎每篇涉及基因功能分析的论文里都能看到它们的身影。
1.GO分析——功能词典
GO(Gene Ontology,基因本体论)就像一本基因功能大词典,把每个基因的功能分成三大类:
-
分子功能(MF,Molecular Function):比如这个基因编码的蛋白能“结合DNA”“催化反应”;
-
生物学过程(BP,Biological Process):比如“细胞分裂”、“免疫应答”、“开花调控”;
-
细胞组分(***,Cellular ***ponent):比如这个蛋白位于“细胞核”、“线粒体”、“细胞膜”。
举个例子,如果你研究植物开花时间,GO分析可能会告诉你,差异基因富集在“光周期响应”、“开花时间调控”这些生物学过程上,或者它们编码的蛋白位于“细胞核”,执行“转录因子”功能。
GO的好处是分类细致,能让我们从多个角度理解基因的功能。但缺点是它只关注单个基因的功能,不涉及基因之间的网络关系。
2.KEGG分析——通路地图
如果说GO是“功能词典”,那KEGG(Kyoto Encyclopedia of Genes and Genomes,京都基因与基因组百科全书)就是一张“通路地图”。KEGG把基因按照它们参与的代谢通路(比如糖酵解、TCA循环)、信号转导通路(比如MAPK通路、PI3K-AKT通路)、疾病相关通路等进行了系统整理。每个通路都是一个网络图,里面包含了哪些基因、这些基因如何相互作用、最终调控什么生物学过程,都一目了然。
继续拿植物开花举例,KEGG可能告诉你,差异基因集中在“光信号转导”或“昼夜节律”通路上,还能直观看到它们在网络中的位置和关系。
KEGG的优势在于它能展示基因之间的协同作用和网络关系,特别适合研究信号传导和代谢途径。但它的缺点是通路数量有限,而且主要是已知的经典通路,对于一些新发现的机制可能覆盖不够。
GO/KEGG富集可视化形式:柱状图,气泡图,网络图,Upset图
3.GO和KEGG怎么选?
-
如果你想知道:“这些差异基因主要参与哪些具体的生物学功能?”(比如是跟代谢有关,还是跟细胞分裂有关?)那就选GO。
-
如果你想知道:“这些基因在哪些经典的代谢或信号通路里起作用?它们之间是怎么相互影响的?”(比如是否集中在某条明星通路上?)那就选KEGG。
-
最佳实践:很多时候,GO和KEGG会一起用,先用GO了解大致功能方向,再用KEGG深入探究具体的通路机制。
二 、GSEA和GSVA:灵活进阶,适合复杂场景
当你的研究问题更复杂,或者你手头的数据不适合直接用GO/KEGG时,GSEA和GSVA这两个进阶选手就派上用场了。
1.GSEA——无阈值捕捞
传统的富集分析(比如GO/KEGG的常规用法),往往需要我们先设定一个差异基因的阈值(比如p-value<0.05,fold change>2),然后只对这些“显著差异”的基因进行分析。但这样可能会漏掉一些虽然变化不大,但集体朝着同一个方向变化、且有生物学意义的基因。
GSEA(Gene Set Enrichment Analysis,基因集富集分析)就聪明多了,它不需要预先筛选差异基因!它会把所有基因按照表达量的变化趋势(比如从高到低)排个队,然后看看你感兴趣的某个基因集(比如某个通路的所有基因,或者某个功能类别的基因群)是不是在这个排序列表的某一端(通常是顶端或底端)富集。
GSEA富集可视化图
举个例子,即使某个通路里的基因没有一个达到传统意义上的“显著差异”标准,但如果它们整体上都呈现上调或下调的趋势,GSEA就能敏锐地捕捉到这种集体变化,并告诉你这个通路可能很重要。
GSEA特别适合:
-
单个基因变化不显著,但整体趋势一致,很可能是协同作用;
-
不想先入为主地筛选差异基因,怕遗漏重要信息;
-
想全面扫描所有可能的通路或功能类别,看看有没有意外的发现。
2.GSVA——单样本活性打分
GSVA(Gene Set Variation Analysis,基因集变异分析)则走的是另一条路线。它关注的是每个样本内部,某个基因集(比如某个通路)的“活性”如何,而不是像传统方法那样比较组间的差异。
GSVA富集评分可视化形式:双向条形图,热图,富集散点图,箱线图
比如你有肿瘤样本和正常样本,GSVA就能通过对每个样本的基因表达谱进行分析,计算出一个“通路活性分数”,告诉你这个通路在每个样本里的活跃程度,进而可以比较不同样本组之间通路活性的差异,或者进行聚类、生存分析等后续研究。
GSVA适合场景:
-
样本间差异大,想看清每个样本的功能状态;
-
没有时间序列或对照组;
-
想做更复杂的下游分析(如分型、聚类、关联临床表型)。
3.GSEA和GSVA怎么选?
如果你的研究问题是:“在两组样本中,哪些整体的通路或功能类别发生了变化?(即使单个基因变化不显著)”那GSEA更合适。
如果你的研究更关注:“每个样本内部,哪些通路是活跃的?我想比较不同样本间通路活性的差异,或者把样本按照通路活性分组。”那GSVA可能更适合。
记住:GSEA通常需要你有明确的分组信息(比如处理组vs对照组),而GSVA不一定需要。
三 、实战指南:我到底该用哪个?
说了这么多,可能你还是有点懵:到底啥时候用GO?啥时候用GSEA?别急,下面我们就结合实际的科研场景,给你一些更接地气的建议。
场景1:你已经有了明确的差异基因列表
这是最常见的情况。比如你做了RNA-seq,用DESeq2、limma等工具筛出了一堆差异表达基因。推荐流程:
-
第一步,GO分析:先看看这些差异基因主要参与哪些生物学功能?是代谢?是应激响应?还是发育过程?
-
第二步,KEGG分析:接着看看这些基因集中在哪些经典的代谢或信号通路上?它们在这些通路里扮演什么角色?
-
可选GSEA:如果想更全面,或者验证你的发现,可以用GSEA再扫描一遍,看看有没有其他重要的通路被你的差异基因富集。
场景2:你没有任何先验假设,想盲筛潜力通路
有时候,我们可能并没有明确的差异基因列表,或者想更全面地探索数据,看看有没有隐藏的模式。
-
首选GSEA:它可以不依赖预先设定的差异基因,全面扫描所有可能的通路或功能类别,帮你发现那些基因集体变化但单个不显著的信号。
-
也可以考虑GSVA:如果你更关心样本间的功能差异,或者想为后续的聚类、分型做准备,GSVA能给你提供每个样本的通路活性信息。
场景3:你想研究时间序列、发育过程,或者临床样本的异质性
-
GSVA可能是你的好帮手:它能分析每个时间点、每个发育阶段、每个临床样本的通路活性,帮你追踪功能的变化,或者找到与表型相关的关键通路。
-
GSEA也可以用于比较不同时间点或组间的富集模式差异。
工具搭配小贴士
-
“GO+KEGG”:经典组合,适合大多数基础的功能和通路分析。
-
“GSEA”:当你想更全面、不遗漏任何可能信号时。
-
“GSVA”:当你关注样本个体差异或需要单样本分析时。
四 、避坑指南&实用建议
最后,再给大家分享几个血泪教训总结出的实用小贴士:
1. ID要对齐:基因名(如ENTREZ、ENSEMBL)和数据库要匹配,物种别搞错;
2. 多重检验校正:富集分析检验次数多,FDR校正不能少;
3. 别只看p值:生物学意义明确但p值略高的结果,也值得关注;
4. 结合背景解读:工具是辅助,最终要回到生物学问题本身;
5. 多方法交叉验证:GO、KEGG、GSEA、GSVA都指向某个通路?那它大概率真靠谱!
总结:没有“最好”,只有“最合适”!
|
工具 |
适合场景 |
特点 |
|
GO |
差异基因功能分类 |
细致全面,角度多 |
|
KEGG |
差异基因通路机制 |
网络清晰,机制明确 |
|
GSEA |
无阈值富集,趋势分析 |
不挑基因,适合探索 |
|
GSVA |
单样本通路活性 |
灵活强大,适合分型 |
一句话总结,先明确你想研究什么,再选择合适的工具。富集分析不是“谁更高级”,而是“谁更适合”。用对了,数据才能讲出好故事!