第三节 没有数据就无法运行新世界
元宇宙是一个搭建了数字化体系的多元化虚拟空间。数字化体系的底层要素是数据。数据作为信息的载体是元宇宙的组成因子,构成元宇宙对物理空间的映射和反映。因此,对数据的获取、采集、计算能力,对数字化体系的构建至关重要。元宇宙中的所有事物都需要数据建模,所有活动都需要数据计算和分析,所有记录都需要数据存储和管理……
在现实世界中,人们常常说被数据包裹着,甚至是裹挟着。那到底什么是数据?为什么数据能够给人们的生活乃至全社会带来如此巨大的改变呢?数据仅仅是数字串的组成和计算吗?在元宇宙中,数据又将扮演什么角色呢?
一、在谈论数据时,人们在说些什么
数据是信息的载体和表现,是事件的表达和记录,是人们可以读取和浏览的符号。它不仅是人们通常认为的数字,也可以是文字、符号、字母,还可以是图片、视频、音频等。对于日常生活来说,数据是人们浏览网页的记录,是人们手机短信和聊天的记录,是人们的身份信息和身体数据,是与人们息息相关的一切。在科学领域,数据更是研究的基础。对于研究者来说,数据是天文学家对宇宙的观测和记录,是地质学家绘制的地质图表,是化学家无数次的实验成果,是数学家天马行空的演算,是交叉学科学者无与伦比的新鲜脑洞。
在当今时代,每个人都被数据包裹着,形成了一个巨大的体量。
近年来,大数据发展浪潮席卷全球。根据国际数据公司(IDC)的监测数据显示,2013年全球大数据储量为4.3ZB(相当于47.24亿个1TB容量的移动硬盘),2014年和2015年全球大数据储量分别为6.6ZB和8.6ZB。近几年,全球大数据储量的年增长率约为40%,2016年甚至达到了87.21%。2018年全球大数据储量达到33.0ZB。2019年全球大数据储量达到41ZB。
实际上,大数据不仅具有体量大的特点,而且在经过收集、归纳和分析后,能够向人们展现更深层次的信息,帮助人们了解更深层次的内容,作出更准确的判断和决策。例如,电商平台通过记录人们的购物时间、常购商品、偏爱品牌、价格区间,对人们的消费习惯进行判断,并在合适的时间推送合适的商品,从而提高复购率;打车软件通过定位手机位置,结合地理技术和数据分析查看道路拥堵状况,或根据历史数据预测可能拥堵的道路,给出最优路线;听歌软件通过记录听歌时间、听歌类型、听歌次数和频率,判断、告知自己的音乐品位……总之,数据有“奇效”,能帮助人们了解自己!
二、大数据:不只是大量数据的堆砌
大数据,顾名思义,是大量数据的集合。从统计学的角度讲,数据量越大,能够提供的信息越多,对其进行数学分析后得出的结论越准确。所以,大数据的基本前提是足够大的数据量。若想通过大数据表达更多信息,帮助人们解决各种问题,仅数据量大还远远不够。人们常用“4个V”来概括大数据。
● 第1个是Variety,即多元化,是指数据的不同格式:能够用二维表结构表达的数据,称为结构化数据;无法用二维表结构表达的数据,称为非结构化数据,包括办公文档、文本、图片、XML、HTML、各类报表、图像、音频、视频等。只有将不同格式的数据组合在一起,才能让大数据多元化。
● 第2个V是Volume,即海量。海量不仅要求数据量大,还要求数据观测的期限长。例如,电商平台在对用户开展大数据观测时,一方面基于海量用户的数据,另一方面会对同一个用户进行较长时间的观测,并基于历史和当下的数据,对未来进行预测和判断。只有具备这两个维度的观测,才能让大数据立体起来。
● 第3个V是Velocity,即速率。数据具备一定的时效性,需要快速搜集和处理,并即刻给出判断和决策。例如,工厂中的传感器和监视器需要实时向处理器传递数据,以便人们随时查看生产信息,及时处理异常情况。总之,实时数据着眼于当下最紧要的事情,对速率的要求高。
● 第4个V是Value,即价值。并不是所有的数据都对决策有益。在这个数据大爆炸的时代,常常会接收到无用的数据,甚至有害的数据。对于这部分数据,需要进行筛选和分辨,只针对有价值、有意义的数据进行挖掘和处理。
正是因为大数据具有这些特质,人们需要对其进行系统性处理和研究,需要通过数学和IT的逻辑了解数据的价值和意义,所以,在对大数据的处理形成了一定的规模和体系后,大数据产业应运而生。
● 对企业来说,大数据无疑为其增加了更多商业机会。大数据通过计算和处理,可提供预判性的参考,帮助企业制定最佳商业决策。例如,在购买频次最高的地区进行更多备货;根据服装的历史销售数据走势,判断哪种颜色会流行,哪种款式和材质应主推。大数据让企业的决策变得“有理有据”,改变了过去仅凭借经验主观判断的情况。
● 对于社会来说,大数据的存在大大增加了管理的便捷性。近年来,政务系统和公共行政系统开始引入大数据分析,大大提高了人员信息的处理效率。例如,留学人员只需在手机App上查询以往的出入境记录,就可以提供在海外旅居的证明,不必前往政务机关查询;办理贷款时只需要提供身份证信息,不必再走繁杂的流程(身份证信息中已包含个人的财务信息、信用状况),同时人脸识别和身份认证也降低了造假的可能性。总之,大数据的出现,提高了效率,降低了成本!
三、让数据会说话
大数据的“神奇功效”已经不言自明。数据科学家和数据工程师仿佛化身侦探,只凭借数据的“蛛丝马迹”就可以复原整个数据链条。这是如何做到的呢?实际上,大数据之所以能发挥作用,全要依仗数据分析和数据挖掘工作。数据科学家和数据工程师设计的体系,让数据能够开口说话!
数据分析的方式很多,如描述和诊断性分析、预测性分析、预案性分析等。通过不同维度的分析,构建出一张立体的图谱,提供具有预判性的决策方案。就好像不同的绘画方式:素描可清晰展示细节和轮廓;水彩突出表达色彩的层次;油画注重色彩和光影,适用于大面积绘画;3D画面突出立体感和科技感……不同的绘画方式,本身没有高低之分,只是适用于不同的需求。总之,不同的数据分析方式,适用于不同的业态和需求。例如,社交媒体注重预测性分析,会根据以往的浏览量,预测能够带动活跃用户的话题并加以推送;电商平台更在乎描述和诊断性分析,通过对用户满意度的分析,了解产品的优势与不足,并进行改善。
当然,除了需要掌握数据处理方式,还需要了解数据处理能力。
设备在一定时间内处理数据的能力被称为算力。实际上,算力并不是一个新鲜概念:
● 古代,人们通过算盘来进行简单的数字计算。
● 近代,人们使用计算器来进行运算。
● 近现代,人们利用晶体管、集成电路进行数据处理,计算工具更加多样化和轻量化,计算速度、精度、处理能力也得到进一步提升。
● 信息时代,各种算力方式和设备层出不穷,其中有一种将硬件设施整合、存放在一起,形成巨大算力的方式最为出众,即IDC。IDC的全称为Internet Data Center,是提供存放计算设备、存储设备、硬件网络设备的场所,类似于一个存储数据的仓库。这个数据仓库不仅需要有足够大的空间来存放所有的数据,而且需要保证数据的安全和稳定。当用户需要查看数据时,应能够提供方便、快捷的查询服务。因此,IDC虽然是数据仓库,但在基础设施之上,还需要提供良好的服务和运营维护。实际上,IDC的部署是一种释放和提升算力的方式,通过物理空间和软件系统的整合,把设备汇聚成一个整体,让数据处理更加方便、快捷、高效!
通过以上体系设计,确保数据能够开口说话。
扩展阅读
在元宇宙的体系慢慢成熟后,数据开口说话更会成为稀松平常之事。由于数据将变成可视化的、动态的、行为化的,因此对数据的阅读和理解不再是数据科学家和数据工程师的专属,每个人都能接触数据、了解数据,甚至参与到数据分析的工作中来。与此同时,随着元宇宙的逐步完善,数据的“排列组合”将变得更加丰富,数据维度变得更加多元。由于元宇宙中的各种数据都是动态实时更新的,因此对数据挖掘、存储、分析等环节的要求将变得越来越高。
四、云和云计算:一切皆可在云端
为了应对越来越多的数据,满足更高的算法要求,人们引入云计算的概念。云计算就是对数据的“深加工”,以便将数据的更多信息挖掘出来。
天空中的云,人们抬头就能看到它、共享它;互联网中的“云”,是一种共享机制的平台,通过对资源的整合管理,可让人们随时取用想要的资源,并且可扩展。
“云”概念的出现,打破了物理空间的界限,开始让互联网慢慢走向虚拟化。例如,使用“云网盘”时,不再需要U盘或硬盘,只要网络正常,则可随时登录网盘下载或上传文件;通过云端部署,企业不再需要实体机房来处理数据(出于安全性和数据体量的考虑,有些企业也会选择本地部署),突破了物理空间的限制,降低了技术投入成本。
“云”让人们对数据的使用越来越方便。就像用水时,只需打开水龙头或购买矿泉水即可,并不需要参与采水、铺设运输管道、过滤处理等过程。“云”的基本逻辑是按需使用,即需要多少取用多少,不必考虑储备和维护。
云计算是在“云”的基础上发展出的计算方式,可在几秒内完成对大量数据的处理,即通过分布式计算,将海量数据分解成细分数据,对细分数据分别进行计算后,再将结果合并。企业通过在不同地理空间设置云计算中心,不仅可大大提高计算能力和处理速度,而且可在出现突发状况时,保证数据的安全性和稳定性。随着云计算的普及,其不再是高不可攀的前沿技术,而是摇身一变成为数据系统中的基础设施。
云计算是数据爆发及IDC基础设施进步的必然结果。
新一代互联网技术不再是单一技术,常常需要与其他底层技术融合,并根植在应用场景之中,创造出新的互联网业态。例如,微信起初只是一个即时通信工具,但随着其功能的不断完善,生活中的各种细节逐步渗入其中。这就是业态的融合和创新。这些具体的细节潜移默化地改变了人们的生活习惯。
技术的融合在云计算领域也是如此:
● 随着通信技术越来越发达,“5G+云+人工智能”迸发出新的火花,产生了智能制造、智慧城市、智慧医疗等新兴产业。
● 云计算与传统产业结合,让传统产业“老树发新芽”。例如,云之稻项目将水稻基因型分析技术与大数据分析技术结合,无偿向全球提供超过3000份水稻基因组的项目成果,并创建“水稻功能基因组和育种信息数据库”,为基础性研究提供了难得的参考材料。