昨天,柯潔和AlphaGo的最后一戰(zhàn)結果出爐,柯潔再敗,總比分0:3完敗。另外,機器人小冰出了一本詩集,更是引起了廣泛討論。一時間,對人工智能的討論此起彼伏。
無論是寫詩,還是國際象棋冠軍加里·卡斯帕羅夫、李世石、柯潔這些頂尖高手一一敗給人工智能,都讓人不禁想,人工智能是如何做到這些的?
全文3591字,閱讀約需5分鐘
2016年3月9日,韓國首爾的一場棋賽反響空前。此戰(zhàn)不僅吸引了全球記者的長槍短炮,也成了人們茶余飯后的談資。這不是一場普通的圍棋賽事,而是被稱為“世紀大戰(zhàn)”的人機智慧對決。對弈的一方是人類頂級棋手李世石,另一方則是誕生于英國的人工智能程序——。五盤大戰(zhàn)最終以李世石1比4投子認負結束。此役過后,人們記住了這個叫“阿爾法狗”的人工智能,也記住了它背后的“新”技術:強化學習(Reinforcement Learning)。
━━━━━
AlphaGo:強化學習的空前成功
AlphaGo的出現(xiàn),讓人聯(lián)想起當年的“深藍”——1997年,這臺IBM超級計算機就曾擊敗人類國際象棋冠軍加里·卡斯帕羅夫。那么,為什么時至今日人工智能界還會為一場棋賽的勝利而大肆狂歡?這還要從圍棋和國際象棋這兩種棋說起。20年前,雖然國際象棋程序已能逼平甚至戰(zhàn)勝人類冠軍,但當時在圍棋上尚不及業(yè)余棋手。這是因為,對于計算機來說,后者的復雜程度遠高于前者:國際象棋的棋盤為8行8列,而圍棋盤的縱橫則各有19路——361個可供落子的交叉點。也就是說從空間的復雜度來看,國際象棋約為1047,而圍棋則高達10170。復雜度的天壤之別,也意味著“深藍”的制勝套路無法復制到圍棋賽場。當年有人質(zhì)疑“深藍”所謂的“智能”,不過是依靠每秒可運算2億步的“蠻力”,窮舉出棋盤的可能性而已。而在圍棋中難以測算某些走棋的優(yōu)劣,即便將“深藍”所采用的全部優(yōu)化算法放到如今最高性能的計算設備上,人們也無法將圍棋比賽中機器的決策用時修剪到合理的時間內(nèi)。那么,AlphaGo究竟是靠什么贏得比賽的呢?2016年1月,《自然》雜志詳細解析了AlphaGo背后的技術:AlphaGo將“價值網(wǎng)絡”及“策略網(wǎng)絡”結合,并通過人類職業(yè)棋手的比賽數(shù)據(jù)對網(wǎng)絡進行監(jiān)督學習訓練。通俗地說,就是先讓AlphaGo學會評價棋路的優(yōu)劣,然后再通過不斷與自己對弈進行強化學習,讓AlphaGo“參悟”下棋的感覺。而在實際的比賽現(xiàn)場,AlphaGo則根據(jù)積累的經(jīng)驗,動態(tài)地尋找最優(yōu)方法,如此才締造了AlphaGo 最終的“壓倒性”勝利。
▲Mel Bochner泡泡(Babble),2011年計算機和人工智能系統(tǒng)難以理解語言的其中一個原因在于,詞語的意思往往與語境甚至字母形態(tài)有關系。上圖中,幾位藝術家展示了如何通過不同的視覺線索來傳達文字背后的意義。
━━━━━
強化學習的發(fā)展和原理
如果說人工智能的研究發(fā)展史是全球一眾學者辛勤攻克的馬拉松,那么強化學習就是希望實現(xiàn)人工智能的一個技術手段。聽起來工業(yè)味十足的人工智能,與心理學等其他社會學科、科學學科都頗有淵源,強化學習因此無法免俗。實際上,現(xiàn)代強化學習的教父理查德·薩頓最早就來自斯坦福大學的心理系。他曾表示,心理學就像是個秘密武器,讓他在計算機研究中汲取了無數(shù)的靈感。在心理學實驗的基礎上,薩頓為強化學習的發(fā)展史梳理出了3條主流脈絡。第一條發(fā)展線是源自心理學動物實驗的“試錯”流派。簡單來講,就是通過不斷嘗試、犯錯、再嘗試,“偶然”完成目標,然后加強“成功”經(jīng)驗,不斷靠近解決方案。強化學習的第二條發(fā)展線主要采用“最優(yōu)控制”理論及“動態(tài)規(guī)劃”。舉個例子,當司機駕駛汽車行駛在翻山越嶺的公路上時,在什么時機踩下油門加速、加速多久,都會對最終到達目的地的時長帶來影響。在這一過程中,又可能存在諸多限制條件,“最優(yōu)控制”要做的,就是在限定條件下尋求最優(yōu)結果。發(fā)展線則是時序差分法。時序差分與過往的經(jīng)驗和狀態(tài)有關,它根據(jù)一些策略對環(huán)境進行隨機取樣學習。時序差分法又汲取了動態(tài)規(guī)劃的精髓,在過去習得的估測結果的基礎上,對未來狀態(tài)進行盡可能的“擬合”。在20世紀80年代末,這3條分支逐漸匯集一處,形成了現(xiàn)代的強化學習。
總的來說,強化學習是通過與環(huán)境交互獲得最優(yōu)解的過程。在強化學習中,機器代理會與環(huán)境進行交互,根據(jù)當前的環(huán)境狀態(tài)權衡“即時獎勵”以及“延遲獎勵”,然后采取行動,依此不斷地往復、試錯,尋找能夠最大化累積獎勵的策略。最終,獲得較高的獎勵后,得到這一獎勵的過程中的所有行動均會得到加強。
━━━━━
強化學習的應用
強化學習技術該如何落地,在現(xiàn)實生活中找到用武之地,這是人們比較關心的話題。如今的強化學習技術已經(jīng)邁出了游戲競技的小賽場,在我們的生活中找到了更多“接地氣”的應用場景。提到機器人,首先映入腦海的可能是電影《星球大戰(zhàn)》中外形呆萌人形機器人。但我們都忽略了機器人圈中兩個非常重要的成員——自動駕駛汽車和工業(yè)機器人。相比那些外形惹眼的擬生機器人,貌不驚人的自動駕駛汽車和工業(yè)機械手臂卻與我們的生活有著更緊密的聯(lián)系,它們也正是強化學習技術的主戰(zhàn)場。1.自動駕駛汽車:學會應對復雜的路況2016 年年末,在巴塞羅那的一次人工智能會議上,播放了一段令人熱血沸騰的駕駛模擬視頻。在實時計算機模擬的畫面上,幾輛自動駕駛汽車在一條四車道虛擬高速公路上展開了一場瘋狂至極的演習。這幾輛車一半在嘗試從右側車道移向中間,而另一半則希望從左側向中間并線。即便對于人類老司機來說,遇上這樣的情況也會亂了陣腳,不過這些自動駕駛汽車卻能夠在混亂的情況中做到精確控制,成功地完成了這個棘手的任務。這些自動駕駛汽車的出色表現(xiàn),來自于反反復復的練習,它們在練習中自己學會了如何流暢、安全地并線。每一次并線成功后,系統(tǒng)都會加強對這些動作的偏好。沒錯,這里所應用的技術便是強化學習。強化學習正在越來越多的領域中得到應用。這一方法尤其適合自動駕駛汽車,因為駕駛的過程是一種“良好的決策序列”。未來,寶馬和英特爾將合作測試自動駕駛的軟件。谷歌、優(yōu)步等公司也會有研究團隊用強化學習的方法訓練自動駕駛汽車。
▲圖像來自Mobileye的強化學習汽車的視覺系統(tǒng)
2.智能工業(yè)機器人:機械臂被裝上了“大腦”20世紀50年代,美國人喬治 · 戴沃爾提出了工業(yè)機器人的概念并申請專利。后來這些機械手臂得到了長足進步。它們的出現(xiàn)大幅提升了工廠的自動化程度,并降低了人力成本,已經(jīng)被大量采用。但對于機械手臂,即便是抓起物品這樣看似簡單的小動作,往往也需要程序員投入大量的時間,反復修改、實驗。當工廠的生產(chǎn)任務發(fā)生改變時,修改、調(diào)整機械手臂的預設程序的成本也同樣不容小覷。不過隨著強化學習技術的到來,這些隱藏在“無人”工廠背后的程序員的工作負荷也可以被大幅降低。2015年年底的東京國際機器人展覽會上,出現(xiàn)了一種新型智能機械臂。只需給這些工業(yè)機器人布置簡單的小任務(如從盒中挑揀物品等),然后等上一晚的時間,第二天清晨它就基本可以“摸索”出一套自己的解決方案。令人驚奇的是,它的背后并沒有強大的專家系統(tǒng),也沒有一群加班熬夜、精通機械的程序員。這些新型工業(yè)機器人正是通過深度強化學習技術訓練自己學會執(zhí)行新的任務。揀拾物品的過程,這些機械手臂會錄制視頻,每次揀拾完成,根據(jù)效果它們會得到不同的獎勵值,這些知識不斷積累,強化那些更接近最終目標的動作(如拾起物品)也得到了強化。在深度強化學習的幫助下,這些工業(yè)機器人仿佛擁有了屬于自己的“大腦”。3.互聯(lián)網(wǎng)營銷及推廣網(wǎng)絡營銷與推廣,是強化學習的另一個舞臺。搜索引擎廣告常采用競價排名機制,廣告主需要購置關鍵字并根據(jù)點擊等進行付費。由于廣告界的競爭,整個廣告環(huán)境的競爭狀況構成一個復雜網(wǎng)絡。廣告競價也變得復雜起來。強化學習技術正好可以滿足廣告競價的需求。為了實現(xiàn)更高投資回報率,強化學習根據(jù)當前的各種環(huán)境狀態(tài),來訓練對應的神經(jīng)網(wǎng)絡,最終通過比對,求得最優(yōu)的結果。借助強化學習所建立的模型,所有狀態(tài)都可以被反映出來,并能根據(jù)實時數(shù)據(jù)、狀態(tài)做出對應的預測和調(diào)整。這一點與自動駕駛汽車有異曲同工之妙。
━━━━━
逃不出的“維數(shù)詛咒”
強化學習雖然已經(jīng)有了一些成功的案例,但是這一方法也遇到了一定的阻力。這些阻力中,最嚴重的當屬 “維數(shù)災難”。在現(xiàn)實世界中,走出了實驗室的機器人需要面對更多的未知情況,因此在進行強化學習的過程中就要將幾十甚至上百個變量納入考慮,這會導致問題的困難程度呈指數(shù)級增長。
另外一個問題則是機器人制造及維修的成本。強化學習的本質(zhì)是不斷試錯的過程,因此在機器人進行實踐的過程中,很有可能在訓練中受損甚至報廢;即便設備還能繼續(xù)使用,也有可能因為損傷而影響訓練中策略的準確性,F(xiàn)在,強化學習的研究人員們?nèi)匀辉谂μ剿、找尋那些能夠讓強化學習應用于復雜場景的方法。也許在2017年的晚些時候,在你身邊的某一條高速公路上,強化學習會經(jīng)歷誕生以來最戲劇性也是最重要的測試。
·請注意語言文明,尊重網(wǎng)絡道德,并承擔一切因您的行為而直接或間接引起的法律責任。
·長沙社區(qū)通管理員有權保留或刪除其管轄留言中的任意非法內(nèi)容。