谷歌教AI畫畫：會讓它像人類那樣思考嗎？

山的那邊是海 · 發(fā)表于 2017-6-10 10:28:12

本帖最后由山的那邊是海于 2017-6-10 11:06 編輯

(原標題：If Google Teaches an AI to Draw, Will That Help It Think?)

　 6月9日消息，《大西洋月刊》(The Atlantic)撰文稱，人類最早在巖石上畫圖形的時候，實現(xiàn)了巨大的認知躍進——如今，計算機也在學(xué)習(xí)做同樣的事情。要是谷歌教導(dǎo)AI去繪畫，那會有助于它思考以及像人類那樣思考嗎?

　　以下是文章主要內(nèi)容：

　　想象一下，有人叫你畫一頭豬和一輛卡車。你可能會畫成這樣：

　　這很簡單。但接著，想象下你被要求畫個豬卡車。作為人類，你會直觀地想到如何將豬和卡車這兩個物體的特征結(jié)合起來，也許你會畫成下面這樣：

　　看看那條小小的、彎曲的豬尾巴，看看駕駛室有點圓的窗口，該窗口也會讓你想到眼睛。車輪變成了蹄狀，又或者說豬腳變得像車輪。如果你這么畫，同為人類的我會主觀地認為這是對“豬卡車”很有創(chuàng)意的一種解讀。

　　谷歌的AI 繪畫系統(tǒng)SketchRNN

　　直到最近，只有人類能夠完成這種概念轉(zhuǎn)變，但現(xiàn)在并不只有人類能夠做到了。該豬卡車實際上是極具吸引力的人工智能系統(tǒng)SketchRNN輸出的作品，該系統(tǒng)是谷歌探究AI能否創(chuàng)作藝術(shù)的新項目的一部分。該項目名為Project Magenta，由道格·艾克(Doug Eck)領(lǐng)導(dǎo)。

　　上周，我在谷歌大腦(Google Brain)團隊位于山景城的辦公室拜訪了艾克。該辦公室也是Magenta項目的所在地。艾克非常聰明，也很謙遜。他于2000年在印第安納大學(xué)獲得計算機科學(xué)博士學(xué)位，后來專注于研究音樂和機器學(xué)習(xí)技術(shù)，一開始是在蒙特利爾大學(xué)(人工智能的溫床)擔(dān)任教授，后來到谷歌供職。在谷歌，他最初從事Google Music音樂服務(wù)項目，后來轉(zhuǎn)到谷歌大腦團隊參與Magenta項目。

　　據(jù)艾克說，他打造可創(chuàng)作藝術(shù)的AI工具的雄心最初只是夸夸其談，“但經(jīng)過幾輪的反復(fù)思考后，我覺得，‘我們當(dāng)然需要做這個，這非常重要。’”

　　正如他和他的同事大衛(wèi)·哈(David Ha)所寫到的，SketchRNN的意義不僅僅在于學(xué)習(xí)如何畫畫，而在于“用類似于人類的方式概括歸納抽象的概念�！彼麄儾⒉幌胍蛟煲慌_能夠畫豬的機器。他們想要打造一臺能夠識別和輸出“豬的特征”的機器，即便機器得到的是諸如卡車的提示性語言，它也能夠不受影響，作出準確的判斷。

　　隱含的觀點是，當(dāng)人的畫畫的時候，他們會對這個世界做抽象的概念。他們會去畫“豬”的廣義概念，而不是畫特定的動物。也就是說，我們的大腦如何存儲“豬的特征”信息和我們?nèi)绾萎嬝i之間存在關(guān)聯(lián)性。學(xué)習(xí)如何畫豬，你可能就能學(xué)到人腦合成豬的特征的能力。

　　這是谷歌的AI軟件的運作模式。谷歌開發(fā)了一款名為“Quick, Draw!”的游戲，在人們玩該款游戲時，它會生成一個涵蓋人類各種各樣的繪圖(如豬、雨、救火車、瑜伽動作、花園和貓頭鷹)的龐大數(shù)據(jù)庫。

　　當(dāng)我們畫的時候，我們是將豐富多彩、熙熙攘攘的世界壓縮成少數(shù)的一些線條或者筆畫。正是這些簡單的筆畫構(gòu)成了SketchRNN底層的數(shù)據(jù)集。借助谷歌開源的TensorFlow軟件庫，每一種繪圖——貓，瑜伽動作，雨——都能夠用于訓(xùn)練一種特定的神經(jīng)網(wǎng)絡(luò)。這有別于引起媒體廣泛報道的那種基于照片的繪圖系統(tǒng)，比如機器能夠渲染出梵高或者原來的DeepDream風(fēng)格的照片，又或者能夠畫出任何的形狀，然后給它填充“貓的特征”。

　　這些項目都讓人類覺得很不可思議。它們相當(dāng)有趣，因為它們所產(chǎn)生的圖像看起來就像來自人類對現(xiàn)實世界的觀察，盡管不完全像。

　　像人那樣用繪圖表達所看到的東西

　　然而，SketchRNN的輸出作品一點都稱不上不可思議�！八鼈兏杏X很真實，”艾克說，“我不想說‘很像人類的作品，’但它們感覺很真實，那些像素生成工具則不然�！�

　　這是Magenta團隊的核心洞見。“人類……并不是把世界當(dāng)成一個像素網(wǎng)格去理解，而是發(fā)展出抽象的概念去表示我們所看到的東西�！卑撕痛笮l(wèi)·哈在描述其工作的論文中寫道，“我們從小時候就能夠通過用鉛筆或者蠟筆在紙上繪畫來傳達我們所看到的東西�！�

　　如果人類能夠做到這一點，那谷歌會希望機器也能夠做到。去年，谷歌CEO桑達爾·皮查伊(Sundar Pichai)稱他的公司“以人工智能為先”。對于谷歌來說，AI是其“將全世界的信息組織起來，使之隨處可得，隨處可用”初始使命的一種自然而然的延伸�，F(xiàn)在不同的地方在于，信息由人工智能來組織，然后使得它們能為廣大用戶使用。Magenta是谷歌組織和理解一個特定的人類領(lǐng)域的瘋狂嘗試之一。

　　機器學(xué)習(xí)是谷歌所采用的各種工具最廣泛的一個概念。它是通過編程讓計算機自學(xué)如何執(zhí)行各種不同的任務(wù)的一種方式，常見的方式是給計算機注入標簽數(shù)據(jù)來進行“訓(xùn)練”。進行機器學(xué)習(xí)的一種熱門方式是，借助以人腦的連接系統(tǒng)為原型的神經(jīng)網(wǎng)絡(luò)。不同的節(jié)點(人工神經(jīng)元)會相互連接，它們有著不同的權(quán)重，會響應(yīng)部分輸入信息，但不響應(yīng)其它的輸入信息。

　　近年來，多層級神經(jīng)網(wǎng)絡(luò)被證明在解決棘手的問題上非常成功，尤其是在翻譯和圖像識別/操縱上。谷歌在這些新架構(gòu)上重新構(gòu)建了很多的核心服務(wù)。這些神經(jīng)網(wǎng)絡(luò)模擬人類大腦的運作過程，其互相連接的層可識別輸入信息(比如圖像)不同的模式。低級別的層可能含有響應(yīng)光明與黑暗簡單的像素級模式的神經(jīng)元。高級別的層則可能會響應(yīng)狗的臉、汽車或者蝴蝶。

　　構(gòu)建帶有這種架構(gòu)和機制的網(wǎng)絡(luò)會帶來不可思議的成效。原本極其困難的計算難題變成了調(diào)整模型的訓(xùn)練，然后讓一些圖形處理單元運算一會的問題。正如吉迪恩·劉易斯-克勞斯(Gideon Lewis-Kraus)在《紐約時報》所描述的，谷歌翻譯(Google Translate)曾是一個開發(fā)超過10年的復(fù)雜系統(tǒng)。該公司后來利用深度學(xué)習(xí)系統(tǒng)僅僅花了9個月就重新構(gòu)造了一個谷歌翻譯系統(tǒng)�！霸揂I系統(tǒng)一夜之間就有了巨大的提升，這種提升相當(dāng)于老系統(tǒng)在整個生命周期積累的全部提升�！眲⒁姿�-克勞斯寫道。

　　正因為此，神經(jīng)網(wǎng)絡(luò)的使用量和類型呈現(xiàn)井噴式增長。SketchRNN方面，他們使用可處理輸入序列的遞歸神經(jīng)網(wǎng)絡(luò)。他們用人們畫各種不同的東西時連續(xù)畫下的筆畫來訓(xùn)練該網(wǎng)絡(luò)。

　　用最簡單的話來說，這種訓(xùn)練就是一個編碼的過程。數(shù)據(jù)(繪圖)輸入之后，該網(wǎng)絡(luò)會嘗試想出它在處理的東西的一般性規(guī)則。那些概括是數(shù)據(jù)的模型，數(shù)據(jù)存儲在描述網(wǎng)絡(luò)中的神經(jīng)元的傾向的數(shù)學(xué)計算當(dāng)中。

　　那個結(jié)構(gòu)被稱作潛伏空間或者Z(zed)，是豬的特征或者卡車的特征又或者瑜伽動作的特征方面的信息存儲的地方。正如AI行業(yè)人士所說的，叫系統(tǒng)做個樣本，即叫它畫出它訓(xùn)練的東西來，SketchRNN就會畫出豬或者卡車又或者瑜伽動作。它所畫的東西，就是它所學(xué)到的東西。

　　SketchRNN 能夠?qū)W到什么？

　　SketchRNN能夠?qū)W到什么呢?下圖是一個接受過消防車繪畫訓(xùn)練的神經(jīng)網(wǎng)絡(luò)所生成的新消防車。在該模型中，有個名為“溫度”的變量，它可讓研究人員上下調(diào)整輸出的隨機性。在下圖中，偏藍色的圖像是“溫度”下調(diào)后的產(chǎn)物，偏紅色的圖像則是“溫度”上調(diào)后的產(chǎn)物。

又或者，你可能更喜歡貓頭鷹：

最好的一個例子就是瑜伽動作：

　　這些畫看似人的作品，但它們并不是由人親自繪畫的。它們是對人類可能會如何畫這種東西的一種重造。有的畫畫得很不錯，有的則畫得沒那么好，但如果你是在跟AI玩看圖說詞游戲，那你應(yīng)該不難看出它們是什么。

　　SketchRNN還能夠接受以人工繪圖為形式的輸入。你傳送某種繪圖，然后它就會嘗試去理解它。如果你給一個接受過貓數(shù)據(jù)訓(xùn)練的模型輸入一張三眼貓繪圖，那會發(fā)生什么呢?

　　看到?jīng)]?看該模型在右邊的各種輸出圖像(同樣用藍色和紅色來表示不同的“溫度”)，它剔除了第三只眼睛!為什么呢?因為該模型已經(jīng)通過學(xué)習(xí)知道，貓有兩只三角形的耳朵，臉部左右兩邊都有胡須，臉圓圓的，只有兩只眼睛。

　　當(dāng)然，該模型完全不知道耳朵實際上是什么東西，不知道貓的胡須是否會動，甚至不知道臉是什么，也不知道我們的眼睛能夠?qū)D像傳輸?shù)轿覀兊拇竽X。它對于這些繪圖指代的是什么一無所知。

　　但它確實知道人類是如何表示貓、豬、瑜伽動作或者帆船的。

　　“當(dāng)我們開始生成帆船的繪圖時，該模型會基于所輸入的那張繪圖得出數(shù)百張顯示其它帆船模型的繪圖�！惫雀璧陌吮硎�，“我們都能看出它們畫的是什么，因為該模型是利用所有的訓(xùn)練數(shù)據(jù)得出理想的帆船圖像。它并不是畫出特定的帆船，而是畫出帆船的特征�！�

　　成為人工智能運動的一份子是一件令人興奮的事情，它是有史以來最令人興奮的技術(shù)項目之一，至少對那些參與其中的人來說是如此，對于很多其他的人來說也是如此——它甚至能夠擊倒道格·艾克。

　　我是指訓(xùn)練神經(jīng)網(wǎng)絡(luò)畫雨天。輸入一副蓬松的云繪圖，然后就會出現(xiàn)下面的情況：

　　雨從你給該模型傳送的云下下來。那是因為很多人畫雨天的時候都是先畫出一朵云來，然后再在下面畫雨。如果該神經(jīng)網(wǎng)絡(luò)看到云，那它就會在那個云的形狀下面畫出雨來。(有意思的是，那些數(shù)據(jù)是關(guān)于一連串的筆畫，因此如果你先畫的是雨，那該模型就不會先畫云朵。)

　　這可以說是一項令人欣喜的工作，但在對人類如何思考實施逆向工程的漫長項目中，這算是一項巧妙的附帶項目，還是很重要的一塊拼圖?

　　艾克認為繪圖最吸引人的地方在于，它們用如此少的信息來包含如此多的意義�！澳惝嬕粡埿δ�，只需幾個筆畫就能畫出來�！彼f道。筆畫看起來跟人臉以像素為基礎(chǔ)的照片完全不一樣。但3歲的小孩也能夠分辨出人臉，也能分辨它開心與否。艾克認為這是一種信息壓縮，對于這種編碼，SketchRNN會解碼，任何隨心所欲地進行重新編碼。

　　SketchRNN 覆蓋范圍有限

　　OpenAI研究者安德烈·卡帕錫(Andrej Karpathy)目前在AI研究成果傳播上扮演著重要角色，他說，“我非常支持SketchRNN項目，它真的很酷。”但他也指出，他們就筆畫的重要性給他們的模型引入了很強的假設(shè)，這意味著他們對于整個人工智能開發(fā)事業(yè)的貢獻相對沒那么大。

　　“我們開發(fā)的生成模型通常都會嘗試盡可能全面地注重數(shù)據(jù)集的細節(jié)，不管你給它們注入什么數(shù)據(jù)，不管是圖像、音頻、文本還是別的東西，它們都適用。”他說，“除了圖像以外，這些數(shù)據(jù)沒有一樣是由筆畫組成的。”

　　他補充道，“對于人們作出很強的假設(shè)，將它們編碼到模型中，在各自的特定領(lǐng)域取得更令人印象深刻的成果，我完全能夠接受�！�

　　艾克和大衛(wèi)·哈正在打造的東西更接近于玩國際象棋的AI，而不是能夠判斷出任意游戲的規(guī)則，也能夠玩這些游戲的AI。對于卡帕錫來說，兩人當(dāng)前項目覆蓋的范圍似乎比較有限。

　　理解人類的思考方式

　　不過，他們覺得線條畫對于理解人類的思考方式至關(guān)重要，并不是沒有原因的。除了這兩位谷歌人員之外，也有別的研究者被筆畫的力量所吸引。2012年，喬治亞理工大學(xué)的詹姆斯·海斯(James Hays)聯(lián)手柏林工業(yè)大學(xué)的馬賽厄斯·艾茲(Mathias Eitz)和馬克·亞歷克莎(Marc Alexa)打造了一個筆畫數(shù)據(jù)集，以及一個識別筆畫的機器學(xué)習(xí)系統(tǒng)。

　　對于他們而言，繪圖是一種“通用的溝通”形式，是某種所有有標準認知功能的人都能夠做和做過的事情�！白允非皶r代以來，人們都用繪圖式的巖石畫或者洞穴畫來描繪視覺世界。”他們寫道，“這種象形文字比語言要早幾千年出現(xiàn)，如今人人都會繪畫和識別繪圖中的物體�！�

　　他們提到了多倫多大學(xué)神經(jīng)系統(tǒng)科學(xué)家德克·沃爾特(Dirk Walther)在《美國國家科學(xué)院院刊》上發(fā)表的論文，該論文說“簡單抽象的繪圖激活我們的大腦的方式與真實的刺激物相似�！蔽譅柼睾驮撜撐牡暮现呒俣ǎ€條畫“可捕捉我們自然世界的本質(zhì)，”盡管逐個像素來看，貓的線條畫看上去一點都不像貓的照片。

　　如果說我們大腦中的神經(jīng)元是在神經(jīng)網(wǎng)絡(luò)模擬的分層結(jié)構(gòu)內(nèi)運作，那繪圖可能是掌握存儲我們對于物體的簡化概念(沃爾特所說的“本質(zhì)”)的層級的一種方式。也就是說：它們可能能夠讓我們真正理解我們的祖先很久以前進化成現(xiàn)代形態(tài)的時候人類開始采用的那種新思考方式。繪圖，不管是在洞穴的墻壁上還是在紙巾的背面上，或許描繪了從識別馬到識別馬的特征的進化，從畫出日常經(jīng)歷到畫出抽象的象征性思維的進化，這也是人類進化成現(xiàn)代形態(tài)的過程。

　　人類的現(xiàn)代生活大多數(shù)都源自那一轉(zhuǎn)變：語言，金錢，數(shù)學(xué)計算，最后是電腦運算本身。因此，如果繪圖最終在意義重大的人工智能的打造上扮演重要的角色，那就最好不過了。

　　然而，對于人類來說，繪圖是對真實物品的一種描繪。我們能夠輕易理解抽象的四線表示法和物品本身之間的關(guān)系。該概念對于我們來說有某種意義。對于SketchRNN來說，繪圖就是一連串的筆畫，是經(jīng)過一定的時間形成的一個形狀。機器的任務(wù)是抓住我們的繪圖所描述的東西的本質(zhì)，嘗試利用它們來理解這個世界。

　　SketchRNN團隊正在探索多個不同的方向。他們可能會開發(fā)一個嘗試通過人類反饋提升繪畫能力的系統(tǒng)。他們可能會在一種以上的繪圖上訓(xùn)練模型。也許他們將會找到辦法去判斷他們受過繪圖中的豬特征識別訓(xùn)練的模型能否推廣到識別照片級圖像中豬的特征。我個人很希望看到他們的模型能夠接入其它在傳統(tǒng)的貓圖上訓(xùn)練過的模式。

　　SketchRNN 只是“第一步”

　　但他們自己也坦言，SketchRNN只是“第一步”，要學(xué)習(xí)的還有很多。這些解碼繪圖的機器要參與的人類藝術(shù)歷史相當(dāng)悠久。

　　在給《紐約客》(The New Yorker)撰寫有關(guān)歐洲洞穴壁畫的文章時，朱迪思·瑟曼(Judith Thurman)寫道，舊石器時代的藝術(shù)在“長達2.5萬年的時間里幾乎沒有變化，幾乎沒有任何的創(chuàng)新或者抵制活動。”她指出，那是“有記錄的歷史的四倍長”。

　　計算機，尤其是新的人工智能技術(shù)，正在動搖長久以來人類對于自己擅長做的事情的觀念。人類在1990年代在西洋跳棋比賽中輸給機器，之后下國際象棋也輸給機器，近年則是在圍棋比賽中輸給AlphaGo。

　　但AI近年之所以取得顯著的進步，并不是因為藝術(shù)發(fā)展的速度(盡管它確實發(fā)展得很快)。對于艾克來說，它更多地是因為他們奮力去研究人類思考方式的基本原理，以及我們究竟是誰。“藝術(shù)真正核心的部分是基本的人文素養(yǎng)，是我們平常相互溝通的方式。”艾克說。

　　縱觀整個深度學(xué)習(xí)運動，各式各樣的人都是在研究人類生活的基本機制——我們?nèi)绾慰礀|西，我們?nèi)绾我苿樱覀內(nèi)绾握f話，我們?nèi)绾巫R別人臉，我們?nèi)绾斡醚哉Z編故事，我們?nèi)绾巫鄻贰@看起來有點像人類特征的輪廓，而不是任意特定的人的輪廓。

　　現(xiàn)在，它分辨率低，是真實想法的漫畫，是真實想法的人物線條畫，但我們應(yīng)該不難想到要從該繪圖收集信息。(樂邦)

來源：網(wǎng)易科技報道

[國際] 谷歌教AI畫畫：會讓它像人類那樣思考嗎？

[國際] 谷歌教AI畫畫：會讓它像人類那樣思考嗎？