資料視覺化 李慕約公司

Data Visualization

匯入 30+ 台北地圖

多謝林立哲告訴我有這一個台北市圖資網:http://www.tpgos.taipei.gov.tw/ct.asp?xItem=2596017&ctNode=44465&mp=121004

剛剛匯入約 50 張的圖資,不知道為什麼這一個沒有放在台北市的開放平臺上。除了以下兩筆沒有匯入(loading 會卡住),我不確定我們是不是已經有了:

臺北市建築執照地籍套繪圖.kml 臺北市地標資料

只是想說留一個紀錄,假如我們以後要做比對的話,

李慕約

Continue reading...

萬華區糖■里

這是全國村里界圖(http://data.gov.tw/node/5968 )裡的小錯誤。應該是編碼轉檔所造成。

edit:原檔案是 big5 編碼,裡面寫的是「糖廍里」,所以應該是由我們這邊 big5 轉 utf8 所產生的編碼錯誤。原政府網站應是正確的。)

之所以可以抓到這一個錯誤,是因為我們對造另外一筆「用電資料」。因為兩個資料集都有完整的名稱,所以我們可以相互對照,哪邊不一致。

可是問題來了,就算我們知道一個資料集有一個錯誤,假如我們沒有辦法「指出」這一個錯誤在哪裡,我們其實沒有辦法改進。這一份資料集總共 7,000 列 x 27 欄,約 20

Continue reading...

資料連結,讓大家能各取所需

許多人會抱怨政府提供的資料不夠乾淨,之前我們也花許多時間對資料作清理,但是清理之後開始在思考,到底什麼叫作乾淨的資料?

以一份行政區人口為例,對於想看資料的人來說,他只想要看到

行政區人口
新北市板橋區556,920
臺北市松山區210,343

這樣對看資料的人來說就是一份很乾淨的資料。

但是對於想與其他資料做交叉比對的人來說,這份資料就不乾淨了,因為他要交叉比對的另一份資料也許用的是 「臺北市」(台、臺問題真的困擾需多資料處理者),也許用的是「中華民國行政區域及村里代碼:63000」,也許是「ISO3166-2:TPE」

因此,對於資料使用者來說,也許期待看到的是:

行政區代碼人口
65000010556920
63000010210343

也有人可能為了想要方便篩選不同縣市資料,因此期待看到的是

縣市鄉鎮人口
Continue reading...

友站連結

Linked Data and Dirty Data

我們當然不是第一個有這樣子想法的人:https://github.com/pudo/nomenklatura @pudo 真的有很多非常有趣的想法

Structured Data

裡面提到 Reg Chua 對於新聞從 push 到 pull 的轉變,跟我先前的想法完全吻合。

Continue reading...

Unus pro omnibus, omnes pro uno

資料實在有太多格式了, SheetHub 的轉換功能就是希望可以把各種格式都可以匯入,轉化為內部格式,然後以各種格式匯出。現在可以輸出的格式包含 excel、csv、json。

使用的方面,是直接在所屬頁面加上 format=json 就可以了,比方我們的目標頁是 https://sheethub.com/moi.gov.tw/宗教團體表揚查詢 那麼下載就是:

  • Excel https://sheethub.com/moi.gov.tw/宗教團體表揚查詢?format=xls (這裡寫 xls,可是下載會是 xlsx,一個小 bug)
  • JSON https://sheethub.
Continue reading...