資料視覺化 李慕約公司

Data Visualization

超過 20% 的台北人 100 公尺內就有 7-11

走在台北的街頭時常看到兩家 7-11 距離很近,對於全台 5000 家 7-11 分布的狀況有點好奇。不過僅是分布狀況也許還不夠,如果能夠結合縣市或村里的人口數或許可以看到一些有趣的資料。

於是我使用 7-11 門市經緯度加上村里界圖及人口數產生出下面表格 (資料依「比例」欄位排序):

從表格可以看出台北市約每五個人就有一人離 7-11 僅 100 公尺內。

這張表格的做法是利用各縣市村里界圖村里人口數,找出每個村里被 7-11 門市涵蓋的面積大小。這邊指的涵蓋面積是以 7-11 門市座標點方圓 100 公尺與村里面積的交集。

以新北市板橋區華福里為例,下圖藍色區域為華福里範圍,紅色為附近兩家 7-11 門市方圓 100 公尺。華福里面積約為

Continue reading...

不是 CSV 就是三星等級資料啊...

中華民國一百零四年政府行政機關辦公日曆表 http://data.gov.tw/node/9463

Continue reading...

校正臺北市電器承裝業業者:福泉、褔泉

(信件轉寄)

您好,我叫王向榮,

(略)

  • 我現在正試著逐步將一些臺北市電器承裝業業者的資料倒進SheetHub.com 並讓他保持更新,然後我發現 臺北市電器承裝業業者 這個資料組現在會錯誤 他會顯示 "很抱歉,系統暫時無法提供服務。請您稍後再試~ 若持續出現此畫面,請向services@mail.taipei.gov.tw反應。"

  • 順便想要請教一下,目前台北市有舊平台 data.taipei.gov.tw 和新平台 data.taipei 這兩個平台目前資料是不同步的,似乎 oid 也不一樣 請問有新舊平台的 oid 對照表嗎?

  • 另外我將臺北市電器承裝業業者這份資料與經濟部商業司的資料作資料連結 發現有一些資料的統編找不到對應的公司。

    無法對應的資料如下:

拿公司名稱去商業司查詢之後,發現這些應該是統一編號誤植

Continue reading...

以西洋棋反思 Big Data

準備明天在巨量資料演講 http://www.accupass.com/go/lydiatalkfuturesos 中的引言

在 20 世紀結束,「人」vs「機器」的西洋棋對決中, IBM 最厲害的機器打敗最厲害的人類。從此機器一直佔上風,沒有什麼好比的。

這是大家知道的故事。

機器的「暴力運算」,人類「直覺式」解法其實是兩種截然不同下西洋棋的方式。一個更有趣的問題是 ,假如兩者可以結合在一起的合作模式。

也就是 「人加機器 對 人加機器」(Advanced Chess) ,也就是西洋棋手與機器同一隊,對決其他的「西洋棋手與機器」隊伍。

怎麼樣的組合會贏?假如考慮「人」

Continue reading...

校正地理(台北市公車為例)資料

這是台北市的公車路線,假如要看線上版的話,可以看這裏。在完美的世界裡,經過同一條路線的公車應該只有一段而已。但這邊,公車路線似乎是因為 GPS 產生,所以每條線都稍微有偏差。這樣的問題,就是畫起來很耗運算資源。

一種可能的解法,是針對每一個路段都只取一條線。然後針對每一條公車,重新判斷走過哪些路段。

另外一個比較快,但不太精準的矯正方法,是利用 topojson 的 simplification。也就是讓資料的解析度變差,當解析度變差的時候,有一些相近的點就會彼此變成一條線了。

在這一個例子,解析度便到較低的時候,圓環雖然不見,但原本多個路線就變成單一路線了。

我們今天剛剛反饋給臺北市公共運輸處的信件:

我發現 5284 的資料有一些錯誤,例如站牌座標標錯或者有些站牌不在路線上面,這邊提供給您參考一下

站牌資訊是來自於 Stop.aspx API 路線資訊是來自於 RouteGeom.

Continue reading...