近日百度宣布在一部超算系統Minwa上部署了深度學習算法,進而在ImageNet圖像識別測試中取得了只有5.98%錯誤率的新紀錄。無獨有偶,Facebook也剛剛宣布對部分深度學習代碼開源,以推進這項技術在業界的普及。深度學習這個概念越來越頻繁地出現在媒體報道中,那么究竟什么是“深度學習”,它又對我們的生活有什么影響與好處呢?
讓計算機擁有接近人類的智能水平是IT行業最偉大,也是最難實現的夢想。雖然科幻作品中早就出現了匹敵甚至遠超人類智能水平的計算機、機器人,但尷尬的是現實中的計算機技術即使經過六十余年的指數發展也仍然與真正的“智能”相去甚遠。甚至一只小鳥的大腦都要比現時最強大的超級計算機聰明許多。雖然計算機擁有恐怖的計算能力、數據存儲空間,但是一直以來這些能力卻難以用來模擬復雜的思維,而只能執行既定的運算任務。
“深度學習”是通往人工智能的漫漫長路上的一項重要的技術。“深度”是一種專業術語,表示將某種復雜問題分解成簡單問題的層數。深度學習可以理解為將一項復雜的概念抽象為多層簡單概念的疊加,然后通過簡單概念的判斷和學習來理解復雜的整體。例如讓計算機從一張圖片上識別出一只小狗,過去的做法是由人給圖片加注“圖中有萌犬一只”之類的標簽,然后計算機根據標簽來進行分類。基于深度學習算法的系統的做法完全不同:給計算機大量的有小狗內容的圖像,然后系統會自動從這些圖像中總結規律:所有的圖像中都有一團物體、這些物體都有幾條腿、有尾巴、有腦袋、腦袋上有兩只可愛的眼睛……經過大量的訓練,計算機最終總結出“小狗”的圖像特征,之后就可以自動識別出圖像是否包含這些特征。這一學習過程不需要人類的太多參與,基本上是自動化的。與過去簡單的“標簽識別方式”相比,深度學習是對動物大腦神經網絡的一種簡化模擬,離“智能”的目標更近了一步。
深度學習技術對現代IT產業意義非凡。隨著PC、智能手機的廣泛普及,互聯網上產生了大量需要計算機來處理的數據。用戶對數據處理的水平要求也不斷增加。諸如復雜圖像識別、語音識別、自動翻譯等應用的需求越來越強烈,而這些正是深度學習技術大顯身手的時候。大型計算機網絡可以通過海量數據的訓練不斷提升自己的認知水平,進而完成許多過去只能由人工完成的工作。
典型的例子就是谷歌、蘋果和微軟等企業推出的智能語音助手服務。這些服務將用戶的語音指令發送到數據中心,并由中心的計算集群進行分析、處理,再將結果傳回終端設備。這一過程中最困難的一步就是識別用戶指令的實際含義,傳統的算法在這里很難起到作用,解決方案就是深度學習。使用這些服務的用戶越多、系統得到的訓練越多,整體服務質量就會越高。類似的應用還包括谷歌、百度等提供的智能識圖服務、在線翻譯服務,電商網站的機器人客服,以及堪稱革命的無人駕駛技術等。
由于深度學習需要海量數據作為訓練系統的“材料”,那些擁有大量用戶資源的大企業在這一方面無疑有先天優勢。目前,全球范圍內發展這一技術的領跑者就是谷歌、Facebook、蘋果、百度、騰訊等企業。其中,谷歌、蘋果的相關服務,尤其是語音助手服務已經部署較長時間,也獲得了大量的用戶反饋。國內企業中,百度在這一領域耕耘較深,不僅模仿谷歌的“谷歌大腦”計劃建立了“百度大腦”團隊,還在百度識圖、百度翻譯等服務中應用了深度學習技術并取得了不錯的成果。不過從實際使用體驗來說各大企業的深度學習技術仍處于發展初期階段,服務質量與用戶的心理預期仍相去甚遠。蘋果的Siri上線后就經常被用戶“調戲”,總是難以真正理解操作者的意圖;百度測試上線圖像內容自動識別服務后也陷入類似的尷尬:由于識別率較差,多數用戶僅僅是將它當作是娛樂消遣的玩具嘗鮮而已。總之,深度學習離改變我們的生活還有很長的路要走。
最近幾年,基于GPU運算的深度學習算法成為這一領域的大趨勢。此次百度創下新紀錄的圖像識別系統即是運行在GPU服務器集群上。GPU運算速度的快速提升也讓深度學習技術有了硬件層面的有力支持。業界對這一技術的重視也鼓勵研究者不斷開發出更優秀的算法與模型。預計未來數年內,深度學習技術就將在多個領域真正實用化,造福廣大消費者。雖然深度學習離真正的人工智能仍有較大距離,但它總算能讓計算機有一點“聰明”的樣子了。