小明是一名生物信息研究工作者,奉命分析一批疾病()与健康()人群的基因表达数据()。

在进行了差异基因分析和多检验校正后,小明没有找到任何具有显著性的结果,然而他一点也不慌张。因为小明知道这是“高维度,小样本”经常遇见的情况,对此他有着成熟的解决方案。

小明熟练地打开了 PubMed 和 Decipher 网站,搜集了一个与疾病相关的基因集合 ,然后针对这个集合进行差异分析。结果果然在显著性上有了质的飞跃,然而仍然没有基因达到显著性水平的经验要求。

小明决定从 中手工挑选一下,再结合上 KEGG 网站的数据,得到新的 …… 结合 String v10 的数据,得到新的 …… 终于小明在 基因集合中,找到了他想要的结果。于是成稿、投稿、发表一气呵成,评审意见中,专家们对小明能够手工筛选出基因集合 所表现出的深厚的生物学基础和良好的生物学感觉赞不绝口。

……

发表了十篇一作的小明最终还是离开了学术圈,虽然早于他十年毕业、现已投身业界的师兄小鹏极力地劝说他“这是研究最好的时代,十年前哪有这样方便低廉的数据获取技术?”然而小明自己心里清楚,也许十年之后,当每个生物医药领域内的探索性实验或验证性实验都需要 提前注册数据分析方案 时,一切将不再如此轻松。

参考文献:Button, Katherine S., et al. “Power failure: why small sample size undermines the reliability of neuroscience.” Nature Reviews Neuroscience 14.5 (2013): 365-376.