正文

《删除:大数据取舍之道》Google记得你的一切(1)

删除:大数据取舍之道 作者:(英)维克托·迈尔-舍恩伯格


在德国城市爱森纳赫(Eisenach)城外坐落着一家名叫 MAD的巨型迪斯科舞厅,它能容纳 4 000名顾客。当顾客进入这家舞厅时,他们必须出示他们的护照或者由政府发布的身份证;这些顾客的详细资料都被输入到一个数据库中,连同一起被存入的还包括他们的数字脸部照片。每名顾客都会有一张专用的支付卡,他们只能用这张卡支付在 MAD餐厅及多个酒吧中消费酒水与食品的账单。每次交易都会被添加到顾客的永久数字记录中。据一次电视报导, 2007年年底之前, MAD数据库存储的信息包括一万三千多名顾客与几百万次交易。60台数字摄像机持续地拍摄迪斯科舞厅及周围的每个角落;记录与存储的录像所占的硬盘空间超过 8 000 G。顾客的实时信息、他们的交易行为,以及他们的消费偏好都被显示在一个专用控制室里的大屏幕上,这个控制室中的情景仿佛出自 007电影一样。管理人员很自豪地说,每周 7天每天 24个小时,当地的警察都能通过互联网在线访问 MAD舞厅硬盘里存储的信息。

即便有,也只是少数顾客才能意识到他们的一举一动都被记录了,并且会被保存多年,同时第三方机构还可以访问这些信息——这给成千上万名不知情的顾客造成了一种深远的信息阴影。

再举一个更为普遍的例子,互联网搜索引擎。 Google、Yahoo!、微软搜索、Ask.com以及对万维网(World Wide Web)进行编录的其他许多搜索引擎,通过对网页的逐个搜索,使得所有人仅在搜索框中键入一两个关键词就能访问这些网页。我们知道,同时假设搜索引擎也知道大量的信息,而且这些信息可以通过全球互联网上的网页进行获取。多年来,这种易于使用且功能强大的搜索引擎,成功地将世界各地的信息资源展现在几十亿用户面前。然而,搜索引擎所记住的,要比网页上所发布的信息多得多。

2007年春天, Google承认,直到那天他们一直在存储每位用户曾经键入的每次搜索请求,同样被存储的还有每位用户随后点击访问的每一条搜索结果。

通过保存大量被整齐排列的搜索关键词(Google每月收到的搜索请求大概有 300亿次),Google能够将这些数据与人口统计资料联系起来。比如, Google能够显示出搜索请求的趋势,甚至是几年以后的趋势。 Google能告诉我们, 2006年秋天在美国印第安纳州首府印第安纳波利斯人们多久会搜索一次“伊拉克”,或者 2007年圣诞季在亚特兰大的中产阶级中搜索最多的关键词是什么。不过,更为重要的是,通过智能地整合登录数据、 cookies数据与 IP地址, Google能够以极高的准确率将时间跨度很远的多次搜索请求与某个人关联起来。


上一章目录下一章

Copyright © 读书网 www.dushu.com 2005-2020, All Rights Reserved.
鄂ICP备15019699号 鄂公网安备 42010302001612号