搞懂geo芯片数据序列注释，别被那些花里胡哨的分析工具忽悠了-HDHCGS

做这行九年，我见过太多人栽在“原始数据”这四个字上。

刚入行那会儿，我也觉得拿到GEO数据库里的Series Matrix文件就万事大吉了。直接丢进R语言跑个差异表达，画个火山图，完事。那时候年轻，不懂事，觉得技术就是敲代码。直到后来接了几个大单子，客户拿着我的结果去跟临床样本对证，发现基因名都对不上，那脸打得啪啪响。

真的，别嫌我啰嗦。很多新手甚至老手，都忽略了一个最基础、也最要命的环节：geo芯片数据序列注释。

你想想，Affymetrix、Illumina、Agilent，每家公司的探针ID都不一样。Affymetrix的探针可能对应多个基因，或者干脆是个垃圾探针，早就停产了。如果你不做严格的序列注释，拿着过时的注释文件去分析，那结果简直就是垃圾进垃圾出。

我去年帮一家生物科技公司做分析，他们之前找的第三方团队，报告做得挺漂亮，P值一个个都小于0.05。但我拿到原始CEL文件一查，好家伙，探针映射搞错了。有些探针在最新的人类基因组版本里根本找不到对应的转录本。我给他们重新做了geo芯片数据序列注释，用了最新的Annotation包，把那些不稳定的探针全剔除了。

结果你猜怎么着？原本显著的300多个差异基因，现在只剩下不到50个。虽然数量少了，但每一个都经得起推敲。客户后来跟我说，这才是他们敢拿去发文章的数据。

这就是真实工作的粗糙感。没有那么多光鲜亮丽的完美曲线，更多的是在数据库里爬数据、查文献、核对版本号。

很多人问我，为什么一定要自己搞注释？直接用平台自带的或者现成的包不行吗？

行是行，但坑多。

比如，有些旧的注释文件里，一个探针ID对应多个基因名，这时候你该选哪个？有的选第一个，有的选最长的，有的选表达量最高的。如果不加处理，你的下游分析全乱套。

再比如，物种问题。小鼠和大鼠的基因组差异虽然大，但有些同源基因探针容易混淆。如果你没做精细的序列比对，把小鼠的基因注释成了大鼠的，那后续的功能富集分析，GO和KEGG pathway全偏了。

我一般怎么处理？

第一步，确认平台型号。是GPL13607还是GPL570？这个必须准，差一个数字，注释全废。

第二步，下载最新的注释文件。别偷懒，去NCBI或者Bioconductor官网下最新的。

第三步，清洗探针。把那些“control”、“na”、“no match”的探针全部删掉。这一步很繁琐，但至关重要。

第四步，多重映射处理。如果一个探针对应多个基因，我通常会根据表达量保留最高的那个，或者在讨论部分注明歧义。

这过程挺磨人的，有时候为了核对一个探针的历史变更，我得翻好几页的文档。但这就是专业。