朱扬勇教授讲解大数据:数据科学家将成热门职业
大数据的出现颠覆了我们既有的一些观念。比如,过去衡量是不是金融中心,主要看全球有多少家金融机构入驻。但是未来,金融中心就是有多少金融的数据资源在这里流通。如果将来在华尔街买股票的时候,要看一下上海的数据发布才能决策,到那个时候,上海就离全球金融中心不远了.
当前,“土地财政”已经难以为继,但“盘活政府数据资源,建立数据财政”的时机可能已经到来。和土地不同,数据不会越用越少,并且数据本身会日益增加,因此盘活数据资源,建立“数据财政”,可能是政府数据资源开发利用的有效手段
思想者小传
朱扬勇复旦大学计算机科学技术学院教授、学术委员会主任,上海市数据科学重点实验室主任,上海市政府信息化专家委员会专家,中国计算机学会大数据专家委员会专家,美国马里兰大学客座教授。从事数据领域研究25年,是国内最早一批从事数据挖掘研究的学者,是国际数据科学研究的主要倡导者之一。主持过国家自然科学基金、国家863计划项目、上海市科委重点课题等多项数据挖掘领域的研究课题,曾获上海市科技进步一、二、三等奖。在国内外权威期刊或会议上发表论文100余篇,出版专著2本,教材3本。第462次香山科学会议“数据科学与大数据的理论问题探索”的执行主席,并担任《大数据技术与应用丛书》主编。
三年前,很多人不知道大数据是何物。当时我在某地作一个关于大数据的报告,台下一片茫然,有人发问,“大数据是什么东西”。但是到了今天,我相信大家对这个词已经再熟悉不过了,甚至有些人已经开始了冷思考,认为大数据不是万能的,质疑它的有效性。
毫无疑问,大数据已经渗透到我们的生活。比如,社交网络成为IT领域研究的方向,很多研究生、博士生写的论文就是社交网络分析。按理说,这个是社会学研究的一个方向,但是现在只是从IT角度加以分析。
再比如,中国最出名的作家是谁?一般老百姓感觉是金庸。但是如果用大数据分析,就会发现,最出名的作家是鲁迅,因为他排在最高出现的词频上。
大数据的出现,也改变了我们传统的研究方法。比如,国家要做一个重大课题,要求调查1万户居民家庭收入支出的情况,以衡量现在居民的生活水平和幸福指数。用传统的方法做这样一个课题,大概需要培养200名调查员,到居民家中去调查。每次大概是2个人一组,每组大概要调查100户。可以试想一下,调查100个家庭大概需要一年的时间,因为是遍布全国的,有西藏的或者是新疆喀什地区某个村里面的一户人家。而每一次调查,还要支付调查员工资、差旅费等费用,这样一年下来成本估计在5000万元左右。问题是,调查的可信度并不能得到充分保证,因为你去别人家里问他的收入,一般人都不大愿意讲。即便得到回答,要将这么多数据整理出来,又要费一番工夫。
但是,今天我们有了网络的集合运用,尤其是互联网运用,原有的方式就有了改变。发调查问卷得到回馈再做分析,是我们现在早已驾轻就熟的方式。未来还可以怎么做?希望今天的讲座结束后,大家能找到答案。
数据和信息是一回事吗
讲大数据之前,我们先来说一下信息。之前,我们把知识和获得的概念叫做信息。信息产业、信息技术、信息化,都是由此而来的。那么,信息与大数据是一回事吗?这可能是第一个容易引起混淆和困惑的地方。
比如,我电脑里存了很多东西,如果你看得懂,你就获得了信息,反之,你就没有获得信息。而在电脑里的这些东西就是数据。
数据有很多,但是信息可能不一定多,或者说你从一大堆的数据当中要获得的信息可能并不多。比如,现在外面温度是19摄氏度,当我把这个数据拍照片给你看的时候,你可能感觉不到外面多少度。那么对你而言,你获得不了这个信息,这个就只是数据。数据在我电脑里,你看懂了才能获得信息,这是我第一个想要说的观点。
那么,我们经常看到的数据、信息、知识,三者之间有什么关系?怎么定义?早期关于数据的概念就是数字。到了今天,数据不再只是指数字,而是指整个网络空间里的东西,包括照片、声音、图像、文字等,只要放在电子化设备里的东西,都可以叫数据。比如,你看到这样一段话“银行流动性紧张”,如果你看懂了,你就获得了信息,并会采取相应措施去应对。这是一个从数据到获得信息以及到用知识做决定的过程。简单来说,从范畴而言,数据大于信息,信息大于知识。
大数据究竟是什么
大数据一词最早于1997年出现在迈克尔·考克斯的论文中。2008年,著名刊物NATURE出版了一个大数据专刊,引起了学术界的高度重视。2012年3月29日美国政府发布《大数据研究和发展倡议》,引起了各国政府和产业界的关注。
关于大数据的定义,存在不少争论。从根本上说,大数据是指为决策问题提供服务的大数据集、大数据技术和大数据应用的总称。其中,大数据集是指一个决策问题所用到的所有可能的数据,通常数据量巨大、来源多样、类型多样;大数据技术是指大数据资源获取、存储管理、挖掘分析、可视展现等技术;大数据应用是指用大数据集和大数据技术来支持决策活动,是新的决策方法。
所有人都是数据的拥有者,做数据的可能主要是IT工作者。但是,数据的价值在于应用。正如同,我们不需要做手机,不需要做软件,但是这些连起来以后数据成了价值,用技术能把价值找出来,最后把它用好就实现了这个价值。
随着数据的增长,整个人类的能力在提高。
比如,从卫星图看地球,长期观测下来,有科学家就发现地球的南极跟北极白色的区域逐年在减少。白色区域减少,意味着冰山雪正在融化消失,这就是全球变暖现象。
又如,疾病的早期诊断。每年死亡于癌症人数的有200多万,如果癌症能够在早期进行诊断,能够早期发现,那么对人的生命的延长是非常有帮助的。疾病的早期诊断方式,就是通过你的病史、你的生活习惯、你的工作环境,再加上当前的检验值,来评估你患癌的风险有多高。
说得更近一点,现在智能手机普及率很高,出行的时候有导航系统,买东西的时候有移动支付,所有的这些系统在后台有一个我们称之为智慧引擎的东西,这个东西存储了大量的数据以及大量数据分析的软件,通过各种各样智能化的软件推送到终端,才会有我们今天享受到的各种各样的智能服务。
大数据的出现颠覆了我们既有的一些观念。比如,过去衡量是不是金融中心,主要看全球有多少家金融机构入驻。但是未来,金融中心就是有多少金融的数据资源在这里流通。也就是说,如果将来在华尔街买股票的时候,要看一下上海的数据发布才能决策,到那个时候,上海就离全球金融中心不远了。
数据是最重要的资源
数据不断增长,被大量积累以后就形成了数据资源。数据是本世纪最重要的资源,李克强总理说它是基础资源,我想这个定位非常准确。以前我们只关注石油、煤炭之类的天然资源,没有关注数据资源。
数据能力是国家竞争力。美国、英国、日本等国相继推出大数据战略,以提升政府效能。在我国,党的十八届五中全会提出要实施网络强国战略,实施“互联网+”行动计划,发展分享经济,实施国家大数据战略。“十三五”规划建议首次提出“拓展网络经济空间”。日前,国务院常务会议通过了《关于促进大数据发展的行动纲要》,强调开发应用好大数据这一基础性战略资源,推动公共数据资源开放共享,将大数据打造成新常态下经济提质增效升级的新动能。可以预见,大数据将创造下一代互联网生态、下一代创新体系、下一代制造业形态以及下一代社会治理结构。
我们讲大数据,实际上是在讲两件事。
第一个是用数据解决问题。小到去哪里旅游,大到国家全面二孩政策的放开,都可以用数据。
第二个是解决数据的问题。比如,数据多了以后怎么存放。大数据就是一个大海捞针的过程,怎么算、怎么运、怎么存,这些都是问题。
今天,数据的组织形式和以前相比,发生了巨大的变化。比如,有人发给我一个邮件,我就知道要做一个报告,再发一个邮件,我就知道这个报告有100个人来听。但是如果我在朋友圈里发一条微信,这就连成了一个圈,延伸到了整个社会。最终来听报告的是什么样的人,我并不清楚。由此可见,数据的增长、流通、流向是不可控的。
如果把所有网络空间里的数据加起来,那就形成了数据界。它呈现出自然界的特征,即不可控性、未知性、多样性、复杂性。而如何开发和应用数据资源,成为摆在我们面前的最大问题。
数据还有可能产生新的文明形态。科学家在2011年做了一张各国网络流量图,显示一种新的文明方式很快就要出现。我们讲的古老文明就是河流的文明,接下来是海洋文明。因为水是人类进步所必需的,人不能没有水,我们称之为“蓝色文明”。但是今天网络是人类进步的必需品,你没有网络谈不上进步,网络的流向、大小、流量的内容以及流量变化的规律,决定了网络文明的兴起和消亡。网络流量往哪里去,哪里的文明就会发达。在网络文明当中也会有一些发达地区,这些地区往往存在发达的结点,数据集中于这个点,这个结点上会产生数据效应,数据越多这个网站提供的服务越好,服务越好数据就会越多,所以会形成一个良性的发展。
数据科学家将成热门职业
大数据来了以后,给我们各行各业带来革命性的变化,同时也出现了一个新的学科或者是新的科学,叫做数据科学。数据科学,顾名思义就是研究数据的科学或关于数据的科学,它是研究探索网络空间中数据界现象和本质的理论、方法和技术,主要有两个内涵:
一是科学研究的数据方法(不同于实验方法、理论方法、计算方法)。这是指数据科学为传统科学研究提供了方法,其目的在于揭示自然界和人类行为的现象和规律。我们可以利用网络空间中的数据指导科学研究,或者提高各种科学研究领域的效率和效果,例如生物信息学。从这个内涵上看,科学研究方法需要进一步发展,包括数据工具的利用、科学数据存储和共享技术、科学研究的数据方法论,等等。
第二个是研究数据本身。这是指数据科学研究数据自身的现象和规律,包括数据的历史、进化和迁移,数据网络的形成和发展,数据的各种形式、类型、状态、属性及其变化形式和变化规律等,即认识数据、掌握数据。
我认为在将来,数据科学、自然科学是并列的。
早先的天文学,坐井观天是很重要的。今天的天文学家再也不看天,他们坐在电脑前看图像,进行数据分析。所以今天我们讲认识宇宙、认识生命、认识社会都要先认识数据,要先读懂这个社会的数据才能读懂现象。就此而言,数据科学跨越了所有的学科。
大数据时代,最热门的职业是数据科学家,而不是传统的信息科学家,也不是大数据工程师。麦肯锡公司预测,到2018年,仅在美国本土就可能面临缺乏19万名具备深入分析数据能力人才的情况,同时具备通过分析大数据并为企业作出有效决策的数据的管理人员和分析师也有150万人的缺口。
目前,被称为数据科学家的大致有三类人:从事商业数据分析的人、从事科学数据分析的人、研究数据的人。但在解决一个大数据分析问题时,常常是由来自数学与统计、计算机和业务领域的一个数据科学家团队来完成的。这说明,目前在大学没有什么专业具备了数据科学家所需要的全部知识,这是一个新问题。
2010年起,各国大学开始了数据科学人才培养工作。哥伦比亚大学从2011年起开设《数据科学导论》课程,并从2014年起设立硕士学位,2015年起设立博士学位;复旦大学从2010年开始招收数据科学博士研究生,并从2013年起开设研究生课程《数据科学》,2015年开始正式招收数据科学专业研究生以及本科第二专业学位。2015年10月,复旦大学大数据学院、大数据研究院正式成立。清华大学于2014年成立数据科学研究院,推出大数据硕士项目。
尽管国内大数据人才的培养已经起步,但值得注意的是,当前缺乏数据科学家培养的基础条件,主要包括:计算条件——建设数据科学人才培养所需的计算能力,包括软硬件环境;数据条件——数据是资源,也是数据科学人才培养的核心,需要建设丰富的数据资源环境;师资条件——这是目前相当缺乏的数据科学人才培养资源,也是影响未来数据科学人才培养成果的关键。
如何用数据资源去赚钱
数据产业是网络空间中数据资源开发利用形成的产业。信息化是生产数据,大数据是开发数据,所以两者的方向性是不一样的。
很难用传统产业划分来归类数据产业。首先它是数据资源,它具有资源性。然后,数据要加工,属于加工业。它也具有服务性,所以又是第三产业。就此而言,数据是新产业、新业态、新模式、新技术,是新经济的典型代表。
所谓新的业态产业,我们叫基于大数据的产业整合。具体来说,手机、电视是终端,终端是低价甚至是免费,上面有很多的应用。然后整合终端制造商、网络、电信、IT等,提供一个新的服务业态,这个就叫做基于大数据的产业整合。它怎么赚钱呢?靠它的数据资源赚钱。大家可以回顾一下什么叫做“眼球经济”,就是我开一个网站,有多少人看我的网站,那么我就值多少钱。身处移动时代,你不仅要看这个东西,还要用这个东西,那么就需要有一个很大的客户群体在这个平台上,而你则一定要提供低价甚至是免费的服务,你用这个数据资源去赚钱。中关村有一句话叫做“羊毛出在狗身上,猪买单”。就是说,你的主业要低价,甚至是免费。那么怎么赚钱呢?就要找“猪”。把“猪”找到,叫“猪”来买单,现在最大的“猪”就是硅谷和华尔街的VC(风险投资)。“飞猪”时代,重要的是找到那头“猪”。
信息化是生产数据的,大数据是开发数据的,二者不混淆、不对立。十八届五中全会公报提出“实施国家大数据战略”,数据资源开发利用将成为未来若干年的战略新兴产业——数据产业。这里需要注意的是,数据资源不会因为使用而减少,也不会因为不用而增值。因此,不能按照对待煤炭、石油等天然资源的方式来对待数据资源,而是要尽早、尽快、尽量使用数据资源,不要囤积待涨。必须把握大数据带来的战略机会,提升政府治理能力、实现经济转型升级。
当前,推进政府数据资源开发利用的一个主要障碍是“数据不愿意开放共享”,其本质是利益分配的问题。数据收集、管理和维护是有成本的,数据开放也是有成本的。因此,需要理性看待“数据不愿意开放共享”问题,允许数据资源拥有部门在数据开放共享过程中获得一定的利益。近20年来,政府通过盘活土地资源,实现了经济高速发展,城市现代化进程得以加快。虽然“土地财政”被人诟病,但不能否认“土地财政”在这些年经济发展中的贡献。当前,“土地财政”已经难以为继,但“盘活政府数据资源,建立数据财政”的时机可能已经到来。和土地不同,数据不会越用越少,并且数据本身会日益增加,因此盘活数据资源,建立“数据财政”,可能是政府数据资源开发利用的有效手段。
国家发布《关于促进大数据发展的行动纲要》,是希望借此提升全民数据意识,发展数据文化,释放数据红利,打造数据优势,这是国家的战略性考虑。要从文化上、意识上、根本上来做,即要用数据来说话,用数据来管理,用数据来决策,用数据来创新。整体来讲,就是要打破政府数据资源利益的割据,把政府的数据资源释放出来,这对于整个管理创新、政府治理和产业变革都有大作用。
(本演讲系由复旦大学文科科研处等组织的“大数据系列讲座”第一讲)