前日一位友人受邀到我所在的公司做一个关于大数据的讲座,无意间再次勾起了我因为懒惰而扔到一边的就这个话题写点什么的兴致。当然,我自己的工作并不涉及大数据,对于相关的技术和应用大多停留在“听说过”的水平上,因此本文恐怕连纸上谈兵都说不上。
其实什么叫“大”数据曾让我困扰了很久,因为一个东西的大小是模糊的概念,除非数据量的扩大在某个点上引起了不连续的跃变,否则很难区分某个情景下的数据规模是否是“大”的。所以如果把这个带有营销口号性质的词语放到一边,其实诸位DMer为之努力的和让我感到好奇的无非就是如何从一些数据里挖掘出有价值的信息以及这些信息可以被用来干什么这样的问题。
我近一年多的工作(或者美其名曰“研究”)方向是生物学领域中的“组学”这个分支,众所周知的人类基因组计划可谓其滥觞。组学研究是一个奇怪的分支,因为它的研究思路既是微观的同时也是宏观的。一方面,组学研究属于分子生物学和生物化学的范畴,研究对象的物理尺度在目前来看是整个生物学领域里最小的层级;另一方面,组学关注的并非个别基因或代谢物的功能和作用机制,而是把成千上万的微观对象构成的整个“组(-ome)”作为其目标。这种自相矛盾的研究策略本意是为了解决微观生物学管中窥豹盲人摸象的尴尬局面,结果它却带来了一种更大的尴尬——我们从每个个体(或每份研究样本)中获得的信息太多了。
那天的讲座结束后我问了一个问题:现有的大数据解决方案和发展方向都是基于“每个样本提供少量数据,样本量和采样次数极大导致数据量大”这个情景,那对于“每个样本提供大量不同数据,样本量小于每个样本提供的数据个数”的情景我们有没有什么好的解决方案或者思路呢?这位友人很坦率地告诉我,现有的以及处于研究中的方法和技术本质上基于统计学原理,因而并不适用于我描述的后一种情况。
这个答案并不让我感到意外。
我们以为我们在谈论“大”数据,其实我们只是在谈论“胖”数据。
大家都爱用的淘宝网,用户规模以亿计,可从每个用户处采集的数据恐怕不过那么几十种,每次采样的有效数据量应当不会超过KB级别。我知道在数据挖掘的过程中某些方法会将每项原始数据都可以分解成一个高维的特征向量,但就像任何数字图像处理技术都不能增加图片的信息量(脑补可以,嗯)一样,这种分解充其量是把原本的数据里包含的信息以更加清晰的方式呈现出来而已。
回到组学研究中来,每个人拥有的2万多个基因、预计300万个以上的SNP(单核苷酸多态性)将带来GB级别的单次数据量,这还仅仅是基因组而已。如果再加上表观遗传信息和各个主要器官的转录组、代谢组,每个个体每次“访问”产生的非冗余数据量还要扩大数倍,而我们对这数百万、上千万项数据之间的相互关系在很大程度上一无所知——是的,这些未知的关系恰恰是生物学特别是组学研究意图弄清楚的问题。
与这种规模的单次数据量不相称的是,无论是样品获取的难度还是从样品中取得数据的成本(个人全基因组测序成本低于00仍然是众多业内公司和技术人员为之努力的目标)都严重限制了组学信息的采样规模。通常的研究中样本数不会超过数百个,重采样次数即使不是可怜的“1”也极少超过5次。某公司规划实施的“百万人基因组”计划已经是该领域少有的大项目之一,而作为比较的baidu.com的日均PV近32亿、日均IP近4亿。
样本量小、重采样次数低、单次数据量巨大。这样的大数据之“瘦”,毫无疑问提出了一个与“胖数据”截然不同的问题。
典型的大数据应用模式包括样本聚类和关联度分析、数据随样本的分布规律分析和数据类型间关系分析,它们的具体实现包括而不限于细分化的产品营销、基站建设规划和用户行为/特征预测。在组学研究中,基础研究者的根本需求是弄清楚组元(各个基因、蛋白质、代谢物以及表型)之间的关联从而为进一步的机制研究提供线索和框架,而应用研究者则更关注如何基于数据对样本进行分类或对某些组元进行预测以指导医疗活动,且由于领域的特殊性对预测的准确度要求极苛刻——你可以让我拿一个对潜在客户预测准确率30%的模型去做营销,但是绝对不能让医生用一个这样的模型去预测一个人是否需要接受某种疾病的预防性医疗。对组学数据分布的研究也有望为公共卫生政策、农业布局规划等广域决策提供有效的支持。而我们的麻烦始终在于,当数据总量相当的情况下,瘦数据不能通过分析胖数据时使用的方法挖掘出同样多的信息,而大数据的玩家们似乎面对胖数据就已经热血沸腾、焦头烂额了,无心顾及瘦数据这个小众领域。总之,每次听到业内外不知深浅的人谈论起大数据在组学方面的应用,都会有一种忍不住想劝告他不要拿自己的热脸去贴别人的冷屁股的冲动。
我并不是断言大数据和组学研究是两条平行线应该各走各的,相反,我非常看好这二者结合起来后所能爆发出的巨大能量和商业价值。但是——万事怕“但是”——没有弄清楚两者需要进行怎样的磨合就硬生生地把它们捏在一起恐怕是行不通的。我们需要带着我们的创新精神去寻找适合瘦数据的新的(好吧也许是旧的……数学一贯领先于其它学科)数学方法,需要把这些数学变成好用的软件平台,然后才能谈得上解决具有划时代意义的科学问题和开创遍地黄金的新市场。
如果说这对于组学研究者和相关产业来说太过遥远,那我们或许应该试着想一想怎么把瘦数据变成大家喜闻乐见的胖数据——00检测一个人的整个基因组远远不如每个人5美分检测两万个人的某个特定基因来得好,一次性地弄清一份血液样本里的几百种化学物质也不如全天候地跟踪一个人血液中其中特定一种的变化且不需要弄破他的皮肤更有医学价值。总之,既然我们想要搭上大数据的顺风车而这辆该死的车又不愿意为了我们去修改座椅的设计,那还是老老实实地想办法改变自己的体型吧。
瘦未必是什么好事,真的。