「大数据」借着有别于传统数据的3V 特性— — 量(Volume)、多样性(Variety)与即时性(Velocity) 成为众所瞩目的焦点后,令人们开始重新思考、定义数据,并好奇接下来又会有何发展?

要探究未来,需要先追本溯源,了解数据过去是以什么样态存在。

谈及数据历史,多数人也许会有电脑发展后才有数据的错觉,但若回归数据的本质是#被记录下来的事实(Recorded Fact),只是仰赖每个历史阶段的科技条件如何,#让这些「事实」藉由当代所能提供的载体,以殊异的形式留存下来,从这样的角度重新审视,那么其实数据早就存在于美索不达米亚平原的石板、古埃及金字塔的壁画浮雕中,贯穿这些相异载体背后的共通目的都是— — 「人类在试图寻找大脑以外的第二个储存基地」,希望资讯能够突破时间、空间进行传递。仔细推敲过往数据的历史和突破性的发展,我们或许可将其大致划分为四个阶段。

制图: Aralia, 2024 年 05 月


跨越时空的资讯传承:信息载体的历史演变

人类历史的起源中,蕴藏着四大古老文明,分别繁荣于尼罗河、两河流域、印度河及黄河流域。这些文明的遗迹,不论位于何处,都能看见远古人类利用手边能捡拾而得的贝壳、石头、芦苇杆、木棒等原始工具书写、绘画,试图留下生活过的证据,他们以洞穴壁画、石板文字甚至结绳记事等方式,将千年前的狩猎场景和日常生活隽永地保存下来。这些古老的记录,标志着人类数据历史的起点,它们达成了资讯保存的目的,共同特色是这些纪录的载体都是不便搬动的物体,因此传播速度慢,所带来的文化转变和影响范围都也相对较小,这是数据历史的#第一阶段— — 远古数据时代(Ancient Data Age)。

图片来源取自 freepik

时间来到西元一百多年, 《后汉书·蔡伦传》记载着:「自古书契多编以竹简,其用县帛者谓之为纸。绉贵而简重,并不便于人。伦乃造意,用树肤、麻头及敝布、渔网以为纸」即便目前历史学者对于东汉的蔡伦究竟是纸张的发明者亦或是改良者,仍然未有定论,但可以确定的是,蔡伦以系统性的方式扩大了造纸原料的来源,制造成本降低的同时令纸张更容易被取得,加上纸张具有轻盈便于携带的特性,很快就取代了竹简、丝帛等过往的书写工具,带领着数据的历史来到#第二阶段— — 手抄数据时代(Manuscriptive Data Age)。

纸张使抄写和携带变得容易,间接影响了佛教能顺利自中国东传至日本、韩国;西元751 年因怛罗斯战役,被俘虏的士兵当中有造纸工匠,造纸术因而西传至阿拉伯乃至欧洲,影响西方书写工具从此革新;后续又随着1439 年德国的古腾堡(Johannes Gutenberg)发明活字印刷术,其有如强大的催化剂,加速了人们之间思想的交换,对于后来一波波的文艺复兴、宗教改革、启蒙运动有不可磨灭的功用,#第二阶段的数据革命让资讯可以有效率地被复制和传播,使得人类的知识、文化能够便捷地传递到遥远国度,促进不同国族间的相互学习,显著扩大了资讯影响的时空范围。

1970 年代积体电路的出现,解放了原先仅供军事用途的真空管电脑,又拜摩尔定律所赐,经过晶片不断的优化让体积适当、运算便捷的商转电脑成为可能,国际大厂IBM 与Apple先后推出大获市场好评的电脑产品,供办公室使用,商业交易与金融记录、厂商与客户资料、科学研究、工程项目乃至医疗记录的数据,大举从纸本转移到电脑档案中,数据存放在电脑中克服了过往纸本媒介数据量受限、不能跨地区即时处理的缺点,也避免了纸本容易受到损坏且可能丢失的风险,铺天盖地的数位化因此快速席卷产业界,这是数据历史的#第三阶段— — 电脑数据时代(Computer Data Age),一切运作以电脑为核心,数据只是附属品。

此阶段收集到的数据呈结构化形式,具有明确的栏位和表格结构,方便进行统计和分析,存放在档案(File)中,缺乏所有权(Ownership)概念,只要空间(存储设备)转换,基本上难以分辨原始纪录出自于谁,而当#数据一旦被分享,就容易被复制与占有,模糊不清的界线使数据的主人不愿意轻易将数据分享给他人。

当所有权模糊不清时会使拥有者不愿分享数据。制图: Aralia, 2024 年 05 月


万物联网新时代:以开放式系统迎接前所未有数据量能

随着电脑晶片的制造成本持续下降,搭配高频宽电信技术,不再只有电脑能产生并记录数据,现今世界上有多达数十亿个装置联网内建微型感测器,举凡车子、手表、红绿灯等物品之间能透过通讯技术互相连接,不断将结果回传并分析,举例而言,全台湾公共运输包括公路、 轨道、航空及航运上都有感测器,纪录着前进速度、行径方向、踩踏油门等可观测项目,再透过交通部的「公共运输整合资讯流通服务平台」(Public Transport Data eXchange,PTX)进行资料交换,企业或学校则能进一步根据这些开放数据做延伸应用,如民间开发的App「台北等公车」就能即时了解公车动态,帮助乘客精准掌握上车时间、「LINE TAXI机场接送」串接了班机时刻表,方便旅客能在App 上一站式进行查询与预定、「寻找微笑单车」能够确认当下微笑单车站点可使用的车辆数,避免使用者扑空,各个App 有效运用数据资源,提升城市生活的便利性。

微型感测器搜集到的数据,如同一面镜子,即时映照着真实世界的一举一动,把已经发生的、正在发生的人类行为与环境状态,随时随地记录下来,带领我们进入当前的#第四阶段— — 物联网感知数据时代(IoT-Perceivable Data Age),多元的数据(Diverse)因此源源不绝(Live)同时无所不在(Ubiquitous)地产生,如同大地上支流繁多又细密的河流不断汇入大海,当今的数据量不能再用上一阶段的电脑数据时代来想像,让人不禁好奇,目前数据产生的形式和数量都不可同日而语,我们若持续以过往使用数据的方法为基本守则— — 「将庞大数据下载到自己在云端的主机上或是地端的电脑中,接着慢慢清洗,最终予以分析」,旷日费时的惯例真的还适用吗?还是,我们能跳脱老方法,以全新视角来看待数据的使用方式呢?

有没有可能,我们一起想像一个开放式的数据生态系统(Open Data Ecosystem),数据再也不需要下载,不再有「数据应存放在你的电脑,还是我的电脑?」的顾忌,将数据进行封包(Capsulated)的方式,并透过一个事先定义好的方法(Method)来进行使用,使数据档案(Data File)成为无法被轻易复制的数据物件(Data Object),数据提供者的数据拥有权(Data Ownership)清楚明确,受到保障的同时能够溯源,促使数据提供者能为手上的数据负责,确保数据品质、提高真实性。

使用者无需下载数据,透过封包方式让档案无法轻易被复制。 制图: Aralia, 2024 年 05 月

在这个自由的数据生态系统中,数据之间能相互运作,甚至彼此碰撞,如同人们之间透过对话创造机会,文化之间透过交流激荡想法,数据碰撞也能产生未曾想见的新综效,只要你我愿意多问自己几次「有没有可能?」,就像古人选择放下手中的石头转身离开壁画,尝试寻找更加轻便的载体一样,一个单纯的起心动念,就有机会开启一个新时代。

我们的品牌承袭了这个使命,定名为Aralia — — 是造纸时制作最高级蓪草纸的原料,透过此名,我们向渊远流长的数据历史致敬,也向历史中每一个愿意以新思维看待手中工具并进行改良的人们致敬,并欣然期盼下一个数据时代的开展。

如果你也喜欢数据,欢迎追踪我们的社群,一起来享受数据吧!
IG: https://www.instagram.com/araliadata/
FB: https://www.facebook.com/Araliadata

Consent Management Platform by Real Cookie Banner