中国科学家热切期盼国内科学数据存得好、用起来
卫星上天、大科学装置崛起、大科学项目启动……近年来,我国受世界瞩目的科技项目越来越多,除了挑战高难度的工程技术、科学问题,它们更大的价值或许是普通人想不到的———源源不断产生大量的科学数据。
大量一手科学数据是一种极其重要的战略性资源。但杂乱无章堆放的数据很难被加以利用并产生价值。如何让与日俱增的科学数据能够有序生产、加工、交流、使用? 这已是一个迫在眉睫的问题。日前,国务院办公厅发布《科学数据管理办法》,不少科学家在接受记者采访时表示,合理、完善的科学数据管理办法,将有助于我国的科技投入发挥出更巨大的能量。
科学数据包含丰富信息,可以深度加工出各种知识产品
当中国科学家的论文频频登上 《自然》《科学》《细胞》等国际一流学术期刊,当中国的SCI论文发表数量上升到全球第二位,你可曾想到,这同时意味着大量一手、原始的科学数据也流到了国外?
目前,在生命科学领域,世界上有三大数据中心,分别位于美国、欧洲和日本。过去30年,中国学者为这三大中心贡献了30%以上的基因组数据,其中大部分与中国人群有关。
“根据国际学术期刊论文发表惯例,一篇论文所有的原始数据都必须上传到权威的专业数据库。”中国科学院上海生命科学研究院生物医学大数据中心副主任张国庆告诉记者,因为同行重复实验、杂志编辑审核论文,都需要调用原始实验数据。
地面遥感、天文观测、基因组、医学病例样本……利用这些科学数据所包含的丰富信息,数据中心可以深度加工出各种知识产品,并提供给工业界。中国科学院院士、中科院上海药物研究所所长蒋华良曾多次提议,应注重科学数据的保护和利用,当我国科研水平不断提升,科学数据的产出越来越多、质量越来越高,这一问题的迫切性也就日益突出。
与此同时,我国的大科学装置、高水平实验平台也越来越多。这些平台上产生、汇聚的科学数据也蔚为壮观。“过去,中国天文学家愁的是拿不到一手的科学数据,要做研究只能利用国外开放出来的,甚至购买别人的数据。这些数据不少已经被过滤、咀嚼过。”中科院上海天文台赵建海高级工程师说,他负责领导的国际合作团队研发出世界顶级底片扫描仪,并负责图像大数据的推进,“现在我们可以获得第一手数据,应该加以妥善利用,从中做出引领性的科学成果。”但这首先需要对科学数据有良好的收集、加工、流通等全过程的管理制度。
“以开放为常态”,同时强调数据安全
“有政策出台,我们很高兴,在我国科技创新中,科学数据的管理太需要加强了!”张国庆说,《管理办法》突出了科学数据共享利用“以开放为常态、不开放为例外”的理念,同时也强调了数据安全、知识产权保护等。
“原始数据就好像货物,如果杂乱堆放在仓库里,很难发挥作用,形成一个个‘数据孤岛’,甚至保管都会成为沉重负担。”他介绍,对于生物医学领域而言,好的数据中心会将数据进行加工,首先是确保数据的安全;第二是设计合理的制度,使数据中心发挥更好的汇聚科学数据的作用,比如帮助医生整理手头的临床数据,并促成科研各方的协同合作;第三则是给各种数据以客观的质量评价。
“我们也热切地盼望具有实际操作性的细则尽快出台。”张国庆说,他们正在建设的生物医学大数据中心就是要让生命科学、临床、环境等各类数据交汇在一起,加以分析、检索、利用。据悉,上海发起的首个国际大科学计划———人类表型组计划,就将科学数据处理的任务交给了生物医学大数据中心。