数博会开幕:你真的了解大数据吗?

自从2011年大数据在中国受到关注以来,每年与此相关的会议和讲座接连不断,大家也都事事必谈大数据。2015年11月,党的十八届五中全会公报提出要实施“国家大数据战略”,开启了我国大数据建设的新篇章。可是怎样有效使用数据,如何让数据产生价值,如何在数据领域获得投入产出,这些虽事关国运,却是很多人都讲不明白的事。

上个世纪80年代出现了个人计算机,软件开发变得热门;90年代互联网开始兴起,数据库在企业中被广泛使用,办公实现自动化。新世纪CRM,ERP流行,互联网应用得到了爆炸式的增长,电子商务、社交媒体和移动互联网也随之出现,所有这些技术进步、业务发展都带来一个同样的结果,就是数据无法控制地大量增加。现在人们的一切行为几乎都会留下数据痕迹,比如使用手机软件消费、出行等等,我们生活在了一个大数据时代。

数据记录了很多事情发生的过程和状态。而一件事情的发生会受到很多因素的影响,这些因素的内在联系是什么,如何影响到了事情的发展,都可以用数据记录下来。人们就是希望通过对数据的分析,找到事情发生的来龙去脉,以便预测将来的发展。为此,人们找到了很多的方法研究数据,像统计分析的方法、计量经济学和时间序列、运筹学、概率论和机器学习的方法、可视化技术,还有各种辅助的计算机技术和算法。数据分析可以在各行各业得到具体的应用,还可以作为一种主要方法进行科学研究,也能开辟新的应用建立新的行业。

大数据和计算机技术、互联网一样,具有普适性和通用性,各行各业都需要,不但传统行业需要,而且是新兴行业的依托。大数据技术的出现,使得物联网、云计算、人工智能得以落地变成现实。所以,大数据是真正自计算机时代、互联网时代后,能够撑得起一个时代的技术。

大数据技术确实是给各行各业带来了实实在在的利益。但是,是不是每个人都能够理解大数据的一些实质性的问题呢?

举这样一个例子:一年中,当人们游泳的次数增加的时候,吃冰棍的数量也会增加;游泳次数减少的时候,吃冰棍的数量也会减少。那么,这两件事情是否有关系,谁引起了谁的变化?其实游泳与吃冰棍没有任何因果关系,它们之间是相关性关系。它们同时变化的原因是天气的变化,这是人们的常识。大数据中,很多变量之间的关系都是这种相关关系(不知道是什么原因引起的),而不是因果关系,因此,不能简单下结论谁引起了谁的变化。这是大数据对人们思维方式的影响。

英国统计学家辛普森在1951年提出了一个悖论,即在某个条件下的两组数据,各自研判时,都具有某种倾向性,而合并研判,却可能得出相反的结论。比如,两个院系都有女生录取比例高的问题,但是把两个院系的所有学生合并以后,再计算却是男生的录取比例高。如果是比较两个产品的销售情况,就不能仅仅看单一地区的销售比例,而是要看总体的比例。要全面考虑问题,不可轻易下结论。

1936年美国民主党总统富兰克林-罗斯福任满一届,参加下一届的总统大选,当时共和党的候选人是阿尔佛雷德-兰登。著名的《文学文摘》通过对240万人的民意测验,预测共和党的候选人兰登将当选。而一家由乔治-盖洛普新成立的舆论研究所,只对5000人进行了问卷调查,却准确地预测了民主党的罗斯福会胜出。为什么大的数据没有得出正确的判断?因为这240万都是富人,他们的意见不具有普遍性,而5000个数据却是来自社会各个阶层,具有普遍性。《文学文摘》使用了错误的数据。

谷歌流感趋势GFT是谷歌从2008年推出预测流感的项目。谷歌的依据是特定关键词的相对搜索量和特定事件之间存在相关性。GFT利用这些搜索数据可以近乎实时地对全球当前的流感疫情进行估测。大数据为研究人类行为和人与人之间大规模的互动提供了新的方式。然而,由于大数据的搜集做不到像经过严谨科学试验得到的“小数据”那样精确,因此分析解读大数据是一件十分复杂的事。

2013年2月,《自然》杂志发文指出,GFT预测的流感样病例门诊数超过了美国疾病预防控制中心CDC根据全美各实验室监测报告得出的预测结果的两倍,偏差太大。因此,用户的搜索行为并不仅仅受外部事件影响,它还受到很多其它因素的影响。做数据分析不是数据量越大越好,模型科学地选择变量很重要。

大数据利用好了,是收益;利用错了,就会做出错误的判断。除了要具备对大数据本身的认知,也要走出大数据项目建设的一些误区。

一种是认为投资大数据来钱慢,不挣钱,安于现状,不思进取;另外一种是做大数据急功近利,不尊重科学,搞形式主义、政绩工程。

有人看不到大数据投资带来的利益,缺乏长远的眼光,因此,迟迟不在这个领域下功夫,不投资基础设置,不投资人才,不做规划。企业数字化是大数据的基础,企业数字化可以提高自动化效率,积累数据,为智能化做准备。

2017年,华为接受数字化转型的建议,构建了与消费者和渠道互通的数字化平台,使得华为能够应对外部环境的变化,经受住了各种打击。日本上个世纪八、九十年代的辉煌是制造业的辉煌,当时日本的GDP最高能够达到美国GDP的69.6%多。后来,除了美国的打压外,日本对互联网产业关注不够,使得日本错过了互联网时代,也使得中国这个后来者今天达到了日本GDP的3倍多。这是一个深刻的教训,中国是万万不可错过大数据时代的。

大数据是通往智能化的必由之路。没有大数据,就没有人工智能,就没有物联网,就没有智能制造,就没有传统行业的升级换代,没有现代生物制药、基因工程的研究等等,也就没有中国现代化的未来。因此,我们一定要通过各种方式普及大数据知识,推进大数据的建设。(作者:刘政)