复旦大学建设“大数据试验场”,英美大学教授建言献策
大数据为科学研究模式带来了怎样的改变?25—26日,由国际科技数据委员会中国委员会等主办,上海产业技术研究院、上海大数据联盟等协办的2016第三届科学数据大会在复旦大学举行。来自中国科学院、复旦大学、美国密歇根大学等科研院所、高校的500多位科研人员参加会议。记者从会上获悉,复旦大学正在市科委支持下,建设“大数据试验场”。英国帝国理工学院数据科学研究所所长郭毅可、美国密歇根大学教授Shawn McKee在演讲中为“大数据试验场”建言献策,指出数据可视化、优化的数据共享软件界面是科研大数据平台建设的重点。
复旦大学副校长金力介绍,“大数据试验场”是拥有大规模数据容量及其管理分析能力的重大基础设施,支持大数据研究开发和人才培养,支持基于大数据的科技与产业创新,支持政策与决策的大数据推演实验。复旦大学承担了“大数据试验场”项目后,成立了筹备组和工作组。目前,一期资金6000万元已经到位,计划今年底达到1PB(2的50次方字节)数据规模的试验能力。
郭毅可认为,数据驱动是当今科学研究的新特点,因此建立为科研服务的大数据平台有着重要意义。以医学信息学领域为例,数据支持医学信息学全生命周期,包括医学数据获取、数据转化、数据分析、数据可视化和最终决策。“eTRIKS医学信息学标准平台”是郭毅可团队的一个研究项目,通过大数据,将基础医学研究和临床治疗连接起来。例如,用机器学习技术研究呼吸道疾病的生物标志物,通过对分子层面、生理层面、表型层面临床数据的融合与分析,对病人进行精准化、个性化医疗。“eTRIKS医学信息学标准平台”已获得欧盟2200英镑投入,有12家制药企业、约500家医院正在使用。
“数据是庞大而复杂的,在科研过程中,数据可视化是人与数字世界交互的重要手段,对决策分析有重要价值。”郭毅可说。他向现场观众展示了数张类似病毒结构的复杂图片,其实,它们是比特币实时交易的可视画面。这些虚拟货币在各国各地之间瞬息往来,形成无数条轨迹。他还向听众展示了一张由不同颜色线条纠缠组成的图片,解释说:“这张图所代表的是上海地铁的数据可视化。”通过数据可视化分析,研究人员可以判断各条线路在不同时间的拥挤状况,以及预判地铁运营出现故障时造成的影响。这些图片都是由设在帝国理工学院的全球数据观察站绘制的。观察站有64块高清屏,围成315度环幕,半径达6米,像素有1亿多,是一个沉浸式大数据可视化分析平台。郭毅可建议,上海高校也可建立这种配置的全球数据观察站。
在大数据时代,如何存储、访问、转换和管理海量数据,以满足不同的研究需求,是亟待解决的一大难点。Shawn McKee带领团队建立的MI-OSiRIS项目,在这方面做出了尝试。MI-OSiRIS提供的平台可以让研究人员读、写、管理、共享各种科研数据,从而消除各高校、各学院、各专业之间的数据壁垒,使研究团队能够更方便地开展跨学科合作。
McKee说,OSiRIS的一大特色是创造性地使用Ceph。这是一种分布式文件系统,拥有自我管理和自愈功能,可轻松扩展到数个PB 容量。经过特定设计,Ceph能根据不同科学家的科研领域,为他们提供专门的优化数据界面,使得科学家可以直接处理数据,而不用将数据输入电脑、转化后再输出。这种实用性较强的软件平台,值得上海高校借鉴。(俞陶然 薛徐婷)