作者:维克托·迈尔-舍恩伯格
最近看了一本有历史的书《大数据时代》(拿研究成果来说三年前的已经是老成果了),作者对 我们这个大数据时代产生了很多颇有意思的洞见,为了保持原汁原味,我就直接原封不懂的把他们保留下来了,有空的话推荐大家去看看,顺便看看书中提到的电影《少数派报告》,和《点球成金》.部分摘抄难免断章取义,还请大家多参照原书。
序
一 拥抱“大数据时代”
我们的行为、位置,甚至身体生理数据等每一点变化都成为了可被记录和分析的数据。以此为基础,“反馈经济”(feedback economy)等新经济、新商业模式也正在开始形成。
二 实实在在大数据
只要发现了两个现象之间存在的显著相关性,就可以创造巨大的经济或社会效益
译者序 在路上·晃晃悠悠
某些观念有时会以惊人的力量给知识状况带来巨大的冲击。由于这些观念能一下子解决许多问题,所以,它们似乎将有希望解决所有基本问题,澄清所有不明了的疑点。每个人都想迅速地抓住它们,作为进入某种新实证科学的法宝,作为可以用来建构一个综合分析体系的概念轴心。这种‘宏大概念’突然流行起来,一时间把几乎所有的东西都挤到了一边。
因为越是万能的,就越是空洞的!
引言 一场生活、工作与思维的大变革
-
这是当今社会所独有的一种新型能力:
以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。 -
最惊人的是,社会需要放弃它对因果关系的渴求,而仅需关注相关关系。也就是说只需要知道是什么,而不需要知道为什么。这就推翻了自古以来的惯例,而我们做决定和理解现实的最基本方式也将受到挑战。
-
事情真的在快速发展。人类存储信息量的增长速度比世界经济的增长速度快4倍,而计算机数据处理能力的增长速度则比世界经济的增长速度快9倍。
-
大数据的核心就是预测 !!!
-
大数据时代的3个转变:
第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。
第二个改变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。
第三个转变因前两个转变而促成,即我们不再热衷于寻找因果关系。
-
大数据告诉我们“是什么”而不是“为什么”。在大数据时代,我们不必知道现象背后的原因,我们只要让数据自己发声。
-
大数据时代开启了一场寻宝游戏,而人们对于数据的看法以及对于由因果关系向相关关系转化时释放出的潜在价值的态度,正是主宰这场游戏的关键。
01 更多 不是随机样本,而是全体数据
-
采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。
-
采样忽视了细节考察。
-
这说明一般来说无论是针对一个小团体还是整个社会,多样性是有额外价值的。
02 更杂 不是精确性,而是混杂性
-
伟大的物理学家开尔文男爵曾说过:“测量就是认知。”
-
社会从“大数据”中所能得到的,并非来自运行更快的芯片或更好的算法,而是更多的数据。
03 更好 不是因果关系,而是相关关系
-
相关关系
的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。 -
我们用数据驱动的关于大数据的相关关系分析法,取代了基于假想的易出错的方法。
-
通过找出一个关联物并监控它,我们就能预测未来。
-
用一系列的因果关系来验证各种猜想的传统研究范式已经不实用了,如今它已经被无需理论指导的纯粹的相关关系研究所取代。
04 数据化 一切皆可“量化”
-
庞大的数据库有着小数据库所没有的价值
-
大数据的核心就是挖掘出庞大的数据库独有的价值。
-
“数据化”——这是指一种把现象转变为可制表分析的量化形式的过程。
-
“文化组学”
是一个计算机专业词汇,指的就是通过文本的定量分析来揭示人类行为和文化发展的趋势。 -
个人会偿还债务的可能性和其朋友会偿还债务的可能性呈正相关。正应了一句老话:物以类聚,人以群分。
-
2011年《科学》杂志上的一项研究显示,来自世界上不同文化背景的人们每天、每周的心情都遵循着相似的模式
-
这个它,就是无处不在的数据化。像其他的基础设施那样,它会给社会带来根本性的变革。
05 价值 取之不尽,用之不竭”的数据创新
-
数据的潜在价值有三种最为常见的释放方式:基本再利用、数据集整合和寻找“一份钱两份货”。而数据的折旧值、数据废气和开放数据则是更为独特的方式。
-
一位谷歌的员工说:“我们喜欢从大的‘噪音’数据集中吸取教训。”
-
事实上,政府才是大规模信息的原始采集者,并且还在与私营企业竞争他们所控制的大量数据。
-
奥巴马的指令促成了data.gov网站的建立,这是美国联邦政府的公开信息资料库。
-
公司账面价值和市场价值之间的差额被记为“无形资产”
06 角色定位 数据、技术与思维的三足鼎立
-
数据科学家是
统计学家、软件程序员、图形设计师与作家
的结合体。 -
“如果你想成功,你不应该成为一个普通的、可被随意替代的人,你应该成为稀缺的、不可替代的那类人,”
-
如果一个人在下午四点左右给汽车加油的话,他很可能在接下来的一个小时内要去购物或者去餐馆吃饭,而这一个小时的花费大概在35~50美元之间。商家可能正需要这样的信息,因为这样它们就能在这个时间段的加油小票背面附上加油站附近商店的优惠券。
-
如果病人出院之后的医学干预是以解决病人的心理问题为重心,可能会更有利于他们的身体健康。这样就可以提供更好的健康服务,降低再入院率和医疗成本。
-
所谓大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。
-
谁在这个大数据价值链中获益最大呢?现在看来,应该是那些拥有大数据思维或者说创新性思维的人。
-
现在,国外的外包公司使得基础的计算机编程技术越来越廉价,如今它甚至成为了世界贫困人口的致富驱动力,而不再代表着高端技术。
-
2011年,美国经济复苏开始放缓,虽然政客们强烈否定,但是这个信息还是被交通状况分析给披露了出来。Inrix的分析发现,上下班高峰时期的交通状况变好了,这也就说明失业率增加了,经济状况变差了。
-
影片《点球成金》改编自迈克尔·刘易斯的《魔球——逆境中制胜的智慧》。讲述的是一个真实的故事,介绍奥克兰运动家棒球队(又称绿帽队或白象队)总经理比利·比恩(Billy Beane)的经营哲学,描写了他抛弃几百年一直依赖的选择球员的传统惯例,采用了一种依靠电脑程序和数学模型分析比赛数据来选择球员的方法。
-
人类从依靠自身判断做决定到依靠数据做决定的转变,也是大数据做出的最大贡献之一。行业专家和技术专家的光芒都会因为统计学家和数据分析家的出现而变暗,因为后者不受旧观念的影响,能够聆听数据发出的声音。他们的判断建立在相关关系的基础上,没有受到偏见和成见的影响
-
随着大数据能够越来越精确地预测世界的事情以及我们所处的位置,我们可能还没有准备好接受它对我们的隐私和决策过程带来的影响。
07 风险 让数据主宰一切的隐忧
-
互联网的出现使得监视变得更容易、成本更低廉也更有用处。
-
大数据还会带来更多的威胁,毕竟,
大数据的核心思想就是用规模剧增来改变现状。
-
大数据时代,很多数据在收集的时候并无意用作其他用途,而最终却产生了很多创新性的用途。
-
我们把谷歌街景作为一个例子来看,谷歌的图像采集车在很多国家采集了道路和房屋的图像(以及很多备受争议的数据)。但是,德国媒体和民众强烈地抗议了谷歌的行为,因为民众认为这些图片会帮助黑帮窃贼选择有利可图的目标。有的业主不希望他的房屋或花园出现在这些图片上,顶着巨大的压力,谷歌同意将他们的房屋或花园的影像模糊化。但是这种模糊化却起到了反作用,因为你可以在街景上看到这种有意识的模糊化,对盗贼来说,这又是一个此地无银三百两的例子。
-
约翰·安德顿(John Anderton)是华盛顿特区警局预防犯罪组的负责人。这是特别的一天,早上,他冲进了住在郊区的霍华德·马克斯(Howard Marks)的家中并逮捕了他,后者打算用剪刀刺杀他的妻子,因为他发现他妻子给他戴了“绿帽子”。安德顿又防止了一起暴力犯罪案件的发生。他大声说:“我以哥伦比亚特区预防犯罪科的名义逮捕你,你即将在今天谋杀你的妻子萨拉·马克斯(Sarah Marks)……”其他的警察开始控制霍华德,霍华德大喊冤枉,“我什么都没有做啊!”这是电影《少数派报告》(Minority Report)开始时的场景,这部电影描述的是一个未来可以准确预知的世界,而罪犯在实施犯罪前就已受到了惩罚。人们不是因为所做而受到惩罚,而是因为将做,即使他们事实上并没有犯罪。
-
在未来,我们不仅会失去选择的权利,而且会按照预测去行动。如果精准的预测成为现实的话,我们也就失去了自由意志,失去了自由选择生活的权利。
-
这是一个典型的滑坡,可能直接导致《少数派报告》中的情况成为现实——我们将生活在一个没有独立选择和自由意志的社会,在这里我们的道德指标将被预测系统所取代,个人一直受到集体意志的冲击。简单地说,如果一切都成为现实,大数据就会把我们禁锢在可能性之中。
-
谷歌就是在重蹈前人覆辙,过去美国的科技巨头们也把个人简历看得比个人能力重要。如果按谷歌的做法,其创始人都没有资格成为传奇性的贝尔实验室的经理,因为他们都在博士阶段辍学了;比尔·盖茨和马克·扎克伯格也都会被淘汰,因为他们都没有大学文凭。
-
史蒂夫·乔布斯多年来持续不断地改善Mac笔记本,依赖的可能是行业分析,但是他发行的iPod、iPhone和iPad靠的就不是数据,而是直觉——他依赖于他的第六感。当记者问及乔布斯苹果推出iPad之前做了多少市场调研时,他那个著名的回答是这样的:“没做!消费者没义务去了解自己想要什么。”
08 掌控 责任与自由并举的信息管理
-
永不磨灭的数字记录让人无法告别过去。我们的个人数据就像达摩克利斯之剑一样悬在头上,多年之后也会因为一件私事或者一次遗憾的购买记录而被翻出来再次刺痛我们。
-
大数据将要求一个新的人群来扮演这种角色,也许他们会被称作“算法师”。他们有两种形式:在机构外部工作的独立实体和机构内部的工作人员——正如公司有内部的会计人员和进行鉴证的外部审计师。
结语 正在发生的未来 -
大数据为我们提供的不是最终答案,
只是参考答案
-
对于善于运用科技解读未来的人来说,我们的未来不再是只字未书的画布,而是似乎已经着上了淡淡的墨痕。未来的可预知性似乎缩小了塑造命运的空间。潜在的可能性在概率的圣坛上被解剖。[插图]与此同时,大数据又意味着我们将永远受困于过去的行为,这些行为在预知我们下一步动作的预测过程中与我们作对,即我们永远无法逃避已发生的事。莎士比亚曾写道:“凡是过去,皆为序曲。”大数据通过运算将这句话铭刻,无论结果好坏——无论这句话是否会浇熄我们迎接下一个日出的热情,是否会打击我们留名于世的渴望。
-
没有什么是上天注定的,因为我们总能就手中的信息制定出相应的对策。
-
我们能收集和处理的数据只是世界上极其微小的一部分。这些信息不过是现实的投影——柏拉图洞穴上的阴影罢了。因为我们无法获得完美的信息,所以做出的预测本身就不可靠。但这也不代表预测就一定是错的,只是永远不能做到完善。这也并未否定大数据的判断,而只是让大数据发挥出了应有的作用。大数据提供的不是最终答案,只是参考答案,为我们提供暂时的帮助,以便等待更好的方法和答案出现。这也提醒我们在使用这个工具的时候,应当怀有谦恭之心,铭记人性之本。