2016年5月24日 星期二

Data Science的用途與方向

Data Science現下最受矚目的應用莫過於Machine Learning,而AlphaGo前一陣子的比賽更是這門學科一個極佳的宣傳。雖然術業有專攻,但至少在machine learning的應用上大多不是單一學門的成就,不少研究都是由特化過的專門知識經過跨領域合作不斷重複補足修正才達到了如今的成過。唸過人類的學習理論後再來看機械學習,有些可以沿用的概念也有些容易被混淆的部分,下面就以我自己學習心理學時留下的基礎來描述機械學習的方向。

人類學習的重點是在資訊的存取,現在機械學習的應用則著重在客觀資料的決策行為上。機械在資訊儲存,提取,以及處理的機能上已經超過人類的能力了,而機械學習則是利用其性能:運算出基於客觀資料下做出的理性判斷,分析海量資料中可能存在的關聯因素,找出最佳化行動的模式。下面我試著舉三個例子做參考。

假設我們要找出創業成功的方程式,在設定好成功的定義後(比方說損益比)可以藉由既存資料找出關鍵的因素,而當一間新創公司的資料進來後,我們可以把相關參數丟進訓練好的電腦中,讓它計算出這間公司是否會符合我們成功的定義。

或是當手中有一大堆資料,可以透過一些運算找出具有關鍵性卻被忽略的部分。這個過程或許會需要更多專業知識來輔佐,並需要足夠的簡報技巧以創造出市場價值。我現在可以想到的是如The Big Short(大賣空)裡預測到次級房貸將崩盤並乘勢製造出新商品一般。(所以也是有可能遇到資料作假或是暗地操盤導致成果不如預期)

最貼近一般生活的莫過於我們用google map設定目的地時,它會依照現在路況及各路段時速計算出最快路線供駕駛參考。

機械學習大約分成 supervised learning, unsupervised learning, reinforced learning三種,上面我試著各舉了一個例子,爾後再詳述各學習方式的細節。

所以人腦應該會有更多時間和資源來做更高階的策略規劃...吧


2016年5月13日 星期五

契機

我從小算是一個懶惰的孩子,而一個月前在有力的心靈支持下決定開始自學Data Science了。只帶著一些粗淺的認識就打算把人生一部分投下去的原因是不想讓自己停留在固定的領域裡。 這邊主要想留下一個沒基礎的人慢慢累積經驗的紀錄,以便將來自我審視或有幸做為他人借鏡。

Data Science是一門跨領域學科,跟我大學主修的心理學一樣是與許多業界有所重疊的知識/技術。然而Data Science在2016年的現在可說是股價高漲,除了許多人掛在嘴上的Big Data,心理學界曾經帶領過的AI發展,在人類圍棋棋士與人工智能對戰敗北的里程碑下又多了幾分令人目眩的吸引力。

以我現有的基礎知識來解釋,Data Science是藉由處理與分析資料來理解甚至建構模型以預測事件的技術,老實說也存在有一段時日了。然而在資訊量爆漲的情況下,人們發現在那一山蒐集來的資訊裡可能藏了價值連城的寶物或藏寶圖,於是有人開始重視如何挖掘,整理,組合成我們需要的成品,更甚者,讓大量的資料告訴我們想也沒想過的關聯性。

統計數學能力,coding能力,專業知識大概是走這行必須注意的幾個方向。而我,則是樣樣皆鬆...