别瞎折腾了，GEO数据做免疫细胞浸润分析其实就这么简单-HDHCGS

做生信这行八年了，见过太多新手被免疫细胞浸润这个坑给埋了。以前我也觉得这玩意儿高大上，什么CIBERSORT、xCell，跑个代码能跑三天三夜。后来发现，大部分时候大家是在自己吓自己。今天不整那些虚头巴脑的理论，就聊聊怎么用最笨但最稳的办法，把GEO数据里的免疫微环境扒干净。

首先，你得明白一个道理：GEO数据做免疫细胞浸润分析，核心不是代码多牛，而是你选的方法对不对。很多人一上来就搞单样本分析，结果发现样本量稍微大点，内存直接爆掉。我有个学生，之前为了赶进度，硬是用CIBERSORT跑了几百个样本，最后服务器崩了，数据全丢，哭都没地儿哭。所以，第一步，先看看你的样本量。如果超过200个，老老实实用ssGSEA或者GSVA，这两个算法虽然不算最新，但胜在稳定，而且对数据分布没那么敏感。

其次，预处理别偷懒。很多兄弟拿到GEO数据，下载完FPKM或者TPM矩阵就开始跑。大错特错！不同芯片平台或者测序深度不同，直接比对就是耍流氓。我一般习惯先做quantile normalization，把分布拉齐。这一步虽然耗时，但能避免后面出现一堆假阳性。记得之前有个项目，因为没做标准化，结果发现肿瘤组里CD8+ T细胞特别高，后来一查，原来是测序深度差异导致的，尴尬不？

再说说工具选择。现在市面上工具一堆，什么ESTIMATE、MCP-counter、 quanTIseq，挑花眼了吧？我的建议是：如果你只关心大概趋势，用ESTIMATE够用了，它给的是免疫评分和基质评分，简单粗暴。但如果你想看具体细胞类型比例，比如想看看巨噬细胞M1和M2的比例，那就得用CIBERSORTx或者xCell。不过要注意，CIBERSORT需要参考基因集，这个参考集的质量直接决定结果准不准。我通常喜欢用LM22这个经典集，虽然老，但经过验证，靠谱。

还有啊，别光看结果图表好看就完事了。一定要结合临床信息看。比如，你发现某个基因高表达，对应的免疫细胞浸润也高，那这个基因是不是调控因子？这时候得去TCGA或者其它数据库验证一下。我有个案例，发现PD-L1表达和CD8+ T细胞浸润正相关，这很符合预期。但另一个基因，看着挺神秘，结果发现它跟B细胞浸润负相关，这就有意思了，可能暗示了某种免疫抑制机制。这种挖掘出来的故事，比单纯堆砌图表强多了。

最后，可视化别搞得太花哨。火山图、热图、箱线图，这三样足够说明问题了。别整那些三维旋转图，审稿人看了都头疼。重点是要把差异分析的结果标清楚，比如哪些细胞类型在肿瘤组显著升高，哪些降低，P值多少，FDR校正后是多少。这些细节决定了你文章的档次。

总之，GEO数据做免疫细胞浸润分析，没那么难，也没那么简单。关键在于思路清晰，步骤严谨。别指望一键生成完美结果，多检查，多验证，多对比。毕竟，生信分析是个体力活，也是个细心活。希望这些经验能帮你们少走弯路，早点发文章。

本文关键词：GEO数据做免疫细胞浸润分析