開放資料平台真的再迅速成長,繼上星期立法院開放資料,剛剛又看到:商工行政資料開放平臺。台灣的開放資料平台,每兩個星期就有一個新平台。
我最近一直好奇的問題:
就是到底是越多資料平台越好,還是越少越好?
我的意思是,現在從事 SheetHub.com 的一個核心想法,就是希望可以只有一個開放平台:所有的資料都倒進來,然後只有一個統一的 API 接口。因為照理來講,越多開放平台是越糟的。
但在爬資料,遇到的問題是,資料本身的品質真的很可怕。有幾種情勢的可怕:
API 太有個性
這裡指的是不同的開放資料 API,往往會要求開方者有不同的開發方式,這是為什麼每一個開放平台都需要重新寫一個爬蟲,並且可以寫一篇文章。 舉例,像是一般的 JSON 回覆是 [{資料}, {資料}, {資料}