《中国科学报》:范剑青:数据科学的学科建设、发展和展望
大数据伴随着技术与信息的革命应运而生, 对科学技术、社会经济、管理决策等各行各业的发展正在发挥巨大的作用。“大数据概念”“大数据应用”及“大数据时代”等词语已经在互联网、报刊杂志、专家访谈及政府公文中得到了广泛的报道和深入的探讨。“用数据说话、用数据决策、用数据管理、用数据创新”的思想逐渐深入人心。大数据的发展前景广阔,它是经济的新资源、发展的新引擎、信息的新矿山、科研的新依据、决策的新基因。2012年世界经济论坛的“大数据大影响”报告甚至把它称为像黄金和货币之类的新型经济财产。它深刻影响到了人类生活、科技研究、产品开发、政府决策、商务管理等方方面面。
我们正处在数据的海洋和云端里。难以数计的数码探测仪被安装在工业设备、汽车、电子仪表、集装箱里。这些数码探测仪可以实时测量和传递各种各样的数据信息。上千万的摄像头,数亿部的智能电话,几十亿次的网页搜索和社交网络上的对话产生巨大的数据,其中包括公共安全、公共卫生、消费倾向、商业活动、经济走势等信息。无数次的科学实验和观察产生从天文到地理、从物理到化学的科学大数据。海量数据的收集促成了大数据时代的到来。它给数据存取、交换、分析带来诸多新的挑战。它彻底改变了计算机科学、统计学和计算数学的许多方面:从硬件到软件,从存储到超算,从数据库到数据安全,从网络传输到并行计算,从数据分析到统计建模,从科学计算到优化方法等。
大数据发展之一就是要解决上述软硬件瓶颈的挑战。许多传统的方法已不适用于大数据呈现出的多结构且容量巨大的特点,现有的分析方法不但不能有效地给出有用的答案,而且很可能无法分析,甚至给出错误的结论。大容量、多样性、高维数、测量误差、假相关、内生性等大数据特征,需要崭新的分析理念和统计思想,从而对计算技术和硬件产生新的要求,促进相关学科的发展。所幸的是,计算技术和硬件的发展与高速计算算法的出现,使得对大容量和多结构性的大数据的处理变得可行,使得我们能够用符合实际的复杂模型来解决一些棘手的实际问题,进而促进了统计学及相关学科的发展。但是,现有的计算机技术和优化算法对很多大规模的数据集和统计分析还是束手无策。如何合理地利用这些数据,并针对大数据的特征,把它加工成有用的信息,也是大数据未来发展的方向。
大数据的出现为健康医疗、科学发现、技术创新、商业管理、政府决策等带来了信息海啸驱动的又一次工业革命,同时也在方方面面改变着人类的工作、生活和通讯方式。各行各业技术创新所产生的大量数据增加了对海量数据处理和分析的强烈需求,进而催生了一门新兴诱人的学科和职业:数据科学。其中,计算机科学、统计学和应用学科知识被称为数据科学的三根支柱,《哈佛商业评论》则将数据科学家评为21世纪最诱人的职业。
如何用好大数据,怎样培养大数据分析人才是目前世界共同关心的问题。我们认为,大数据科学是大数据系统与计算和大数据统计与分析的有机结合,通过大数据实验场与其他学科交叉,同时发展该学科和大数据科学,促进新技术的开发、新产品的研制,服务于社会。我们的课程设计应该围绕这个理念来展开。课程的设计应综合计算机学、统计学、计算数学进行有效的整合,并与其他学科的知识相结合。这不是现有课程重组的新套餐,而是为数据科学重新设计、认真选材的新课程。它应根据大数据的特点进行多方面的基础教育,应该比统计学科懂更多的计算机技术,比计算科学学更多的统计学和数学知识。
过去的几年里,国内外的一些大学相继设立了与大数据建设有关的研究机构和学科专业,并开始授予数据科学的学士、硕士学位和数据分析师认证证书。这些课程或多或少都应用了大数据理念,但处于一种相对分散的状态,即在其现有课程的基础上,针对本学科的特点讲授大数据的应用,并没有提升到大数据作为一门学科的基础性和方法学研究的高度,更勿论将计算机科学、统计学、计算数学有机结合进行的综合研究、应用和产品开发。
复旦大学大数据学院和大数据研究院的成立正是基于这样的社会需求和学科需求。大数据学院和大数据研究院的主旨是汇集海内外计算机科学、数学、统计学、运筹学的专家学者共同开展大数据的教学和研究,并将研究成果进行产业转化。在我院的筹备和成立过程中,得到了复旦大学、上海市政府、上海市虹口区政府的积极倡议,鼎立支持和大力参与,这些支持是对学科建设和人才培养的最佳保障。我相信大数据科学的学科建设必将健康发展,为社会源源不断地输送大数据分析所需的各式人才和各种各样的技术和产品,并带动相关学科的发展。
(作者系复旦大学大数据学院和研究院(筹)院长,普林斯顿大学运筹与金融工程系前系主任)