《中国科学报》:冯建峰:大数据帮助我们走进大脑的缤纷世界

09.10.2015  11:22

人的大脑由约1000亿个神经元组成,每个神经元又和大约一千个其他神经元相连,组成了一个极其复杂的网络。在此之上,大脑还是一个动态系统,随时间和环境在不断变化,具有自组织、自适应和自学习的特征。而理解和认识大脑是公认的科学的最后堡垒。

一方面,现代社会进步的同时也给人们带来巨大的心理上的压力。据医学权威杂志《柳叶刀》在2009年发表的对中国人群的调查发现,中国的月患精神疾病率高达17.5%。在西方社会,由于服用抗抑郁症药百忧灵的人群基数之大,在伦敦的自来水里甚至发现了百忧灵的残留物。老年痴呆是另一类困扰着我们的疾病,数据表明香港人的女性平均寿命为86.7岁,而这一年龄有约一半以上的人是老年痴呆患者。想象一下:大街上行走的老年人有一半人找不回家了,这该是怎样的一个社会。其他脑疾病如脑卒中(俗称脑中风)每十二秒钟就会夺走一个中国人的性命。

另一方面,脑科学的进步会推进人类社会的长足发展。我们社会可能面临的智能化是继第一次工业革命(蒸汽机的发明)、第二次工业革命(电气化)和第三次工业革命(自动化)后的第四次工业革命。这次工业革命的一大特征是拟脑化,具有一定智能的机器人的出现将是这次工业革命的一大特征。

为达到上述目的:人类更健康的生存和更舒适的生活,研究、认识和理解大脑是其中的关键。欧盟于2013年启动了人类大脑计划,这计划投资十亿欧元为期十年,意在用计算机来模拟人脑。继欧盟之后,奥巴马也宣布了美国大脑计划投资45亿美元,旨在记录每个神经元活动。目前中国的脑计划也在酝酿中。

这些脑计划的背后都有一个关键的问题:如何读懂和解析出深藏在我们获得的海量数据里的关于大脑的运行规律。这样的数据可以是遗传的数据,它决定了你将来的健康状况、智力水平和大脑的结构,可以是成千上万个神经元共同行为;它决定了你如何学习,如何对付一些突发状况,也可以是更为粗略化的脑影像数据;它可以让我们无创地首次观察到每个人大脑的运行情况,或更为常见的各种认知行为指标如智商等。

这些前所末有的大数据为大脑研究开启了全新的天地,一个典型的病人可以有至少1GB的原始数据,一千个人就有1TB的数据。目前在这方面做得较为成功的是南加州的Toga教授组,他们有一个一百多人组成的研究小组从UCLA被南加州大学整个买断;据报道,Toga教授本人也以百万美元的年薪搬到南加州大学。自2004年以来,他们开始收集老年痴呆症的各种各样的如前所述的数据,前后花了数亿美元。但由于缺乏有效数理分析工具,在这方面一直没有得到有显著结果的结论,原因在于基于大数据,寻找老年痴呆病根相当于大海捞针。与他们合作,我所在团队利用新发展的统计工具首先在这些数据中找到了可能的老年痴呆症基因和对应的损坏脑区。为了克服上述困难,Toga团队的另一个明星教授Paul Thomson另辟蹊径,开始了另一个被称为“迷”的研究项目。该项目的成功之处在于它并不需要索取原始数据,Thomson为你提供了一个分析方法软件,通过该方法在各个具有数据的小组里得到一个或数个统计分析结果,然后这些统计结果通过一种叫作荟萃分析的统计方法汇总,Thomson得到一个总的结果。通过对几万位病人的数据分析,他们得到了许多十分有意义的结果。“迷”项目的成功实施为大数据应用中如何克服数据获取这一难题提供了一个很好的、值得借鉴的解决方法。

近几十年人工智能的快速发展具体体现于一些智能算法如深度学习的成功应用中。深度学习的成功秘诀在于:华人科学家李飞飞构建的一个大型的人脸数据库、今天的大规模计算能力的提高。由于这两点,深度学习在人脸识别上的精度甚至超过了人类。当然,人工智能最看得见的应用应该是机器人,具有很强计算能力又有大型数据为依托的机器人将在我们社会智能化发展中扮演十分重要的角色。

正像《大数据时代》作者维克多·施恩伯格指出,大数据的核心就是预测,通常被视为人工智能的一部分或者更精确说被视为是一种机器学习。因此大数据在脑科学研究中会大显身手,脑科学研究可使我们开发出更有效和智能化的机器学习算法,又会反过来推动和帮助我们更好地开采大数据。

(作者系上海脑科学与人工智能重大项目首席科学家, 国家“千人计划”特聘教授,上海数学中心首席教授)