「大數據」藉著有別於傳統數據的 3V 特性 — — 量(Volume)、多樣性(Variety)與即時性(Velocity) 成為眾所矚目的焦點後,令人們開始重新思考、定義數據,並好奇接下來又會有何發展?

要探究未來,需要先追本溯源,了解數據過去是以什麼樣態存在。

談及數據歷史,多數人也許會有電腦發展後才有數據的錯覺,但若回歸數據的本質是 #被記錄下來的事實(Recorded Fact),只是仰賴每個歷史階段的科技條件如何,#讓這些「事實」藉由當代所能提供的載體,以殊異的形式留存下來,從這樣的角度重新審視,那麼其實數據早就存在於美索不達米亞平原的石板、古埃及金字塔的壁畫浮雕中,貫穿這些相異載體背後的共通目的都是 — — 「人類在試圖尋找大腦以外的第二個儲存基地」,希望資訊能夠突破時間、空間進行傳遞。仔細推敲過往數據的歷史和突破性的發展,我們或許可將其大致劃分為四個階段。

製圖: Aralia, 2024 年 05 月



跨越時空的資訊傳承:信息載體的歷史演變

人類歷史的起源中,蘊藏著四大古老文明,分別繁榮於尼羅河、兩河流域、印度河及黃河流域。這些文明的遺跡,不論位於何處,都能看見遠古人類利用手邊能撿拾而得的貝殼、石頭、蘆葦桿、木棒等原始工具書寫、繪畫,試圖留下生活過的證據,他們以洞穴壁畫、石板文字甚至結繩記事等方式,將千年前的狩獵場景和日常生活雋永地保存下來。這些古老的記錄,標誌著人類數據歷史的起點,它們達成了資訊保存的目的,共同特色是這些紀錄的載體都是不便搬動的物體,因此傳播速度慢,所帶來的文化轉變和影響範圍都也相對較小,這是數據歷史的 #第一階段 — — 遠古數據時代(Ancient Data Age)

圖片來源取自 freepik

時間來到西元一百多年, 《後漢書·蔡倫傳》記載著:「自古書契多編以竹簡,其用縣帛者謂之為紙。縐貴而簡重,並不便於人。倫乃造意,用樹膚、麻頭及敝布、漁網以為紙」即便目前歷史學者對於東漢的蔡倫究竟是紙張的發明者亦或是改良者,仍然未有定論,但可以確定的是,蔡倫以系統性的方式擴大了造紙原料的來源,製造成本降低的同時令紙張更容易被取得,加上紙張具有輕盈便於攜帶的特性,很快就取代了竹簡、絲帛等過往的書寫工具,帶領著數據的歷史來到 #第二階段 — — 手抄數據時代(Manuscriptive Data Age)

紙張使抄寫和攜帶變得容易,間接影響了佛教能順利自中國東傳至日本、韓國;西元 751 年因怛羅斯戰役,被俘虜的士兵當中有造紙工匠,造紙術因而西傳至阿拉伯乃至歐洲,影響西方書寫工具從此革新;後續又隨著 1439 年德國的古騰堡(Johannes Gutenberg)發明活字印刷術,其有如強大的催化劑,加速了人們之間思想的交換,對於後來一波波的文藝復興、宗教改革、啟蒙運動有不可磨滅的功用,#第二階段的數據革命讓資訊可以有效率地被複製和傳播,使得人類的知識、文化能夠便捷地傳遞到遙遠國度,促進不同國族間的相互學習,顯著擴大了資訊影響的時空範圍。

1970 年代積體電路的出現,解放了原先僅供軍事用途的真空管電腦,又拜摩爾定律所賜,經過晶片不斷的優化讓體積適當、運算便捷的商轉電腦成為可能,國際大廠 IBM 與 Apple 先後推出大獲市場好評的電腦產品,供辦公室使用,商業交易與金融記錄、廠商與客戶資料、科學研究、工程項目乃至醫療記錄的數據,大舉從紙本轉移到電腦檔案中,數據存放在電腦中克服了過往紙本媒介數據量受限、不能跨地區即時處理的缺點,也避免了紙本容易受到損壞且可能丟失的風險,鋪天蓋地的數位化因此快速席捲產業界,這是數據歷史的 #第三階段 — — 電腦數據時代(Computer Data Age),一切運作以電腦為核心,數據只是附屬品。

此階段收集到的數據呈結構化形式,具有明確的欄位和表格結構,方便進行統計和分析,存放在檔案(File)中,缺乏所有權(Ownership)概念,只要空間(存儲設備)轉換,基本上難以分辨原始紀錄出自於誰,而當 #數據一旦被分享,就容易被複製與佔有,模糊不清的界線使數據的主人不願意輕易將數據分享給他人。

當所有權模糊不清時會使擁有者不願分享數據。製圖: Aralia, 2024 年 05 月


萬物聯網新時代:以開放式系統迎接前所未有數據量能

隨著電腦晶片的製造成本持續下降,搭配高頻寬電信技術,不再只有電腦能產生並記錄數據,現今世界上有多達數十億個裝置聯網內建微型感測器,舉凡車子、手錶、紅綠燈等物品之間能透過通訊技術互相連接,不斷將結果回傳並分析,舉例而言,全台灣公共運輸包括公路、 軌道、航空及航運上都有感測器,紀錄著前進速度、行徑方向、踩踏油門等可觀測項目,再透過交通部的「公共運輸整合資訊流通服務平臺」(Public Transport Data eXchange,PTX)進行資料交換,企業或學校則能進一步根據這些開放數據做延伸應用,如民間開發的 App「台北等公車」就能即時了解公車動態,幫助乘客精準掌握上車時間、「LINE TAXI機場接送」串接了班機時刻表,方便旅客能在 App 上一站式進行查詢與預定、「尋找微笑單車」能夠確認當下微笑單車站點可使用的車輛數,避免使用者撲空,各個 App 有效運用數據資源,提升城市生活的便利性。

微型感測器蒐集到的數據,如同一面鏡子,即時映照著真實世界的一舉一動,把已經發生的、正在發生的人類行為與環境狀態,隨時隨地記錄下來,帶領我們進入當前的 #第四階段 — — 物聯網感知數據時代(IoT-Perceivable Data Age),多元的數據(Diverse)因此源源不絕(Live)同時無所不在(Ubiquitous)地產生,如同大地上支流繁多又細密的河流不斷匯入大海,當今的數據量不能再用上一階段的電腦數據時代來想像,讓人不禁好奇,目前數據產生的形式和數量都不可同日而語,我們若持續以過往使用數據的方法為基本守則 — — 「將龐大數據下載到自己在雲端的主機上或是地端的電腦中,接著慢慢清洗,最終予以分析」,曠日費時的慣例真的還適用嗎?還是,我們能跳脫老方法,以全新視角來看待數據的使用方式呢?

有沒有可能,我們一起想像一個開放式的數據生態系統(Open Data Ecosystem),數據再也不需要下載,不再有「數據應存放在你的電腦,還是我的電腦?」的顧忌,將數據進行封包(Capsulated)的方式,並透過一個事先定義好的方法(Method)來進行使用,使數據檔案(Data File)成為無法被輕易複製的數據物件(Data Object),數據提供者的數據擁有權(Data Ownership)清楚明確,受到保障的同時能夠溯源,促使數據提供者能為手上的數據負責,確保數據品質、提高真實性。

使用者無需下載數據,透過封包方式讓檔案無法輕易被複製。 製圖: Aralia, 2024 年 05 月

在這個自由的數據生態系統中,數據之間能相互運作,甚至彼此碰撞,如同人們之間透過對話創造機會,文化之間透過交流激盪想法,數據碰撞也能產生未曾想見的新綜效,只要你我願意多問自己幾次「有沒有可能?」,就像古人選擇放下手中的石頭轉身離開壁畫,嘗試尋找更加輕便的載體一樣,一個單純的起心動念,就有機會開啟一個新時代。

我們的品牌承襲了這個使命,定名為 Aralia — — 是造紙時製作最高級蓪草紙的原料,透過此名,我們向淵遠流長的數據歷史致敬,也向歷史中每一個願意以新思維看待手中工具並進行改良的人們致敬,並欣然期盼下一個數據時代的開展。

如果你也喜歡數據,歡迎追蹤我們的社群,一起來享受數據吧!
IG: https://www.instagram.com/araliadata/
FB: https://www.facebook.com/Araliadata

Consent Management Platform by Real Cookie Banner