随着人们生活越来越智能化、信息化、数字化,政府、企业和个人每天都在生成大量的数据。据估算,全球存储的数据总量已经现在要以上万艾字节来测量。

艾字节这个单位恐怕很多人会觉得陌生,这里先介绍一下,一艾字节等于10亿兆字节。更加恐怖的是,数据增长的数量大约是每3年翻一倍,而且这种增长没有任何减缓的预兆。由于所有数据都是以数字格式存储的,因而计算机就可以直接访问存储这些数据的服务器。

对这些数据的收集、关联、分析和处理是信息时代必不可少的工作,也是非常具有意义的工作。毕竟,像企业的交易数据、客户联系数据、内部沟通数据、财会数据,汽车、飞机、火车的实时运行数据,工厂、政府、医院,以及个人消费数据都具有非常高的价值。

举例来说,美国目标公司的一位数据科学家发现了从女性购买的25种不同的避孕和美容产品能对怀孕早期进行精准预测,甚至还能高度精确估算出女性的预产期。目标公司在这样的早期阶段就开始对准妈妈们进行妊娠相关产品的推销。

同理,大型零售商依靠大数据对单个消费者购买偏好的洞悉达到了前所未有的水平,可以做到针对每个消费者的喜好和消费习惯进行精确定位。在打击犯罪和维护国家安全方面,全球范围内的警察系统都在应用大数据分析来预测犯罪最有可能发生的时间和地点,然后相应的部署警力。

美国财政部则通过对纽约清算所银行同业支付系统和环球同业银行金融电讯协会的数据库的深度挖掘,掌握了恐怖组织的资金流向方面的相关数据,借此成功破获数十起恐怖主义袭击案件,并成功挖出了基地组织的二把手。可以说,大数据正对包括商业、政治、医学和几乎每一个自然与社会科学领域都产生了革命性的影响。

不过,大数据也存在一个特点,那就是绝大多数都是散乱的,属于计算机科学家所称的“非结构化”数据。这与传统的关系型数据库系统有很大的不同,传统系统的信息行列一致,整齐排列在一起,使搜索于检索快速、可靠和精准。

而“非结构化”数据以各种形式存在,因而很难匹配或比较。这就迫使工程师开发出了专门用于理解各种渠道搜集的信息的人工智能,在大数据领域计算机能够高效率的规模化处理信息,而这恰恰是人脑去做不到。

实际上,人工智能在准确度、效率、成本等方面都大幅优于最出色的人类工程师和数据分析师。美国WorkFusion公司接到过一个项目,要检索大约4万条有用信息。以前,客户公司依靠内部员工来完成这项工作,平均每条记录更新的成本约为4美元,而且只能一年更新一次。在使用人工智能技术之后,依靠人工智能更新一条信息的成本被压缩到20美分,而且可以每个月更新一次。

2012年,旧金山Good Data公司使用亚马逊的云服务对其6000家客户进行数据分析,该公司执行总裁罗曼.斯坦尼克指出:“以前,每一个客户公司的工作量至少需要5个人来完成,这就需要3万名员工。而现在我借助人工智能只需要用180人就能完成以往3万人才能完成的工作”。