以西洋棋反思 Big Data

準備明天在巨量資料演講 http://www.accupass.com/go/lydiatalkfuturesos 中的引言

在 20 世紀結束,「人」vs「機器」的西洋棋對決中, IBM 最厲害的機器打敗最厲害的人類。從此機器一直佔上風,沒有什麼好比的。

這是大家知道的故事。

機器的「暴力運算」,人類「直覺式」解法其實是兩種截然不同下西洋棋的方式。一個更有趣的問題是 ,假如兩者可以結合在一起的合作模式。

也就是 「人加機器 對 人加機器」(Advanced Chess) ,也就是西洋棋手與機器同一隊,對決其他的「西洋棋手與機器」隊伍。

怎麼樣的組合會贏?假如考慮「人」與「機器」是兩個主要因素,應該是選最強的機器,以及最強的人在一起的組合。

但其實,後來發現可以贏得比賽的隊伍,不是擁有最強的棋士、或最強的機器。而是一個普通的人,在一台普通的筆記型電腦,用一般開源軟體的西洋棋演算軟體。

大家才發現,其實有第三個因素被忽略掉了,就是人跟機器的「介面品質」:好的介面品質可以讓人跟機器充分的合作,人類擬定一個策略方向,電腦進行細節的運算。壞的介面品質,人類就跟電腦,是彼此獨立,沒有彼此使用自己的能力。

這其實不只是西洋棋而已:當我們生活中的問題,越來越複雜的決定的時候,我們已經沒有辦法單純靠「人力」來解決問題了。

有一些人開始喊 Big Data 大數據,他們的說法是很強大的運算能力就可以解決所有數據的問題了。

可是這其實只是因為這一些廠商在販售很強大的運算能力。很大的運算能力當然可以解決一些問題,想像數據算式,一些定義明確,有明確衡量產出結果的問題。

但問題在現實世界裡,很難找到這樣子的問題,大部份都是定義不明,甚至問題是什麼都不知道。這是機器沒有辦法幫忙的地方(至少在 strong AI 出現之前,現代的機器沒有辦法)。西洋棋,這一種規則、目的明確的賽事,都是要靠人跟機器的合力才可以贏得比賽。更何況是現實世界?

到底「介面品質」是什麼?我的解讀是有部份「資料視覺化」,讓你有一個介面可以很有效的「探索問題」。比方說,我們在世界衛生組織專案裡面,在資料庫上建了一個數據分析介面,可以讓醫療人員很有效率的對資料進行多維度的分析。Ronny 都有很多的案例。我們幾天前在台北黑客松獲得首獎的「公車之王 307 路線分析」也是這樣子的例子。從這一個角度想,其實視覺化只是一種介面,其他諸如語音、自然語言處理,這一種可以讓人機互動更少摩擦力的東西都在這一個範圍內。這部份我們先前有一些嘗試:語音互動介面

討論「介面品質」的基礎建設,就是資料品質了:有很高品質的資料可以取得。現在不是因為沒有資料,而是資料太多、太零散了,無法介接到資料,這是我們在開放資料平台 SheetHub.com 想要做的事情。

反思回來,公司與公司一般的競爭環境,就是一場西洋棋競爭。大家都一直以為是人跟人的對決,好像有一條規則規定不能使用機器。但其實是因為機器很新,環顧周圍,還沒有多少人在用。但經濟學上,完全競爭從來都是沒有獲利的。每當科技進步,有人開始用別人都不懂得科技的時候才有超額利潤。

剛好在準備明天星期三晚上巨量資料的演講看到的故事,想要把這一個當成演講的引言,也恰好描述了我們現在多管齊下試著解決的問題。

原本的西洋棋故事源自 hacker news "Watson seems to work WITH you rather than for you"