資料就像樂高,邪惡強力膠

資料集就像樂高。

開放資料,就像是接手其他人(政府)玩到一半的樂高。別人通常已經蓋東西蓋到一半,有一個隱含的結構。這一種結構,只是資料一種組合方式而已,應該還有各式各樣的組合方式。

而拿到樂高的第一件事情,就是把別人的結構拆掉。拆成碎片。政府不太了解為什麼資料要把結構拆掉,而且拆掉的人還口口聲聲說政府原本蓋的東西很醜。

一方面是越多人使用,本來就越有創意。

二方面是政府受到不同部門的限制,在過去每一個人都只能玩自己單位的樂高,很難進行跨部門整合。像是國土測繪圖資可以出現,算是少數的反例。

假如有這一個想法的話,就不難理解一些相關的問題:

清理樂高:想像樂高的前一個主人,給你了一大箱樂高。他曾經不小心尿在幾塊的樂高上,這幾塊樂高沒救了,所以你想要把它挑出來。因為假如不先挑出來的話,你的程式會爆掉。

要在一箱樂高裡挑出沒救的樂高很困難。現實世界中,一個資料集平均有 2 萬行資料,約 10 個欄位。然後我們有 7,000 個這樣的資料集。清理資料是一個困難的任務。沒有太多人談論這一個問題,就像不會有人承認自己的樂高盒裡有尿尿。

邪惡強力膠:統計資料的有用程度,就像是一大塊已經用強力膠黏死的樂高塊。強力膠是邪惡的。樂高應該越接近原始狀態越好。

四星級開放資料:當樂高可以被切為最小單位的時候,在開放資料上就取得四星級了。這是最方便讓人家重組的形式。

不釋出關鍵樂高:有一些單位手上握有「唯一的紅色樂高」,但一直不釋放出來。這對大家都很煩惱,因為缺了紅色樂高,就是有一些東西蓋不出來。這些單位還會整理一個他們有的樂高清單,把清單說成是開放資料。

決勝關鍵:一個好的開放平台,要做的事情,就是可以讓別人在這一個平台上快速找到自己想要的樂高,並且可以產生自已要的形式。具體作法,是在這一個平台上累積很多不同的樂高藍圖,讓別人可以相互參考。

絕大部份的資料應用都會是垃圾,初期尤其如此。但這些都不是重點。重點是誰可以盡快吸取經驗,然後重複嘗試。總有一天我們可以蓋出漂亮東西的。