原文:A Brief History of AI with Deep Learning,Aug 31, 2024 原作者:LM Po,一位科技專欄作家 編譯者:唐隆基博士 編譯者注:本文編譯者在一場意外的左手創(chuàng)傷中走出來后,又繼續(xù)開始了他的新興技術(shù)發(fā)展趨勢及戰(zhàn)略和應(yīng)用的研究,研究中發(fā)現(xiàn)兩篇介紹人工智能簡史的文章,特編譯發(fā)布以供讀者學(xué)習(xí)參考,以幫助讀者提高對人工智能革命的認(rèn)識和促進(jìn)人工智能技術(shù)的釆用。本文是兩篇文章之一,另一篇待發(fā)布的是《大模型(LMMs)發(fā)展簡史(2017~2025)》。 |
過去幾十年來,人工智能 (AI) 和深度學(xué)習(xí)取得了顯著進(jìn)步,徹底改變了計(jì)算機(jī)視覺、自然語言處理和機(jī)器人等領(lǐng)域。本文概述了深度學(xué)習(xí)在人工智能發(fā)展史上的重要里程碑,從早期的神經(jīng)網(wǎng)絡(luò)模型到現(xiàn)代的大型語言模型和多模態(tài)人工智能系統(tǒng)。下圖描繪了一個(gè)人工智能深度學(xué)習(xí)的簡史。
人工智能 (AI) 的概念已存在數(shù)百年,但我們今天所知的現(xiàn)代人工智能領(lǐng)域始于 20 世紀(jì)中葉?!叭斯ぶ悄堋币辉~最初由計(jì)算機(jī)科學(xué)家和認(rèn)知科學(xué)家約翰?麥卡錫于 1956 年在達(dá)特茅斯人工智能夏季研究項(xiàng)目中提出。
達(dá)特茅斯會議通常被認(rèn)為是人工智能研究領(lǐng)域的發(fā)源地。會議匯集了一群計(jì)算機(jī)科學(xué)家、數(shù)學(xué)家和認(rèn)知科學(xué)家,探討創(chuàng)造能夠模擬人類智能的機(jī)器的可能性。與會者包括馬文?明斯基、納撒尼爾?羅切斯特和克勞德?香農(nóng)等知名人士。下圖拍于馬文?明斯基、克勞德?香農(nóng)、雷?所羅門諾夫和其他科學(xué)家參加達(dá)特茅斯人工智能夏季研究項(xiàng)目。
人工智能的演進(jìn)始于 20 世紀(jì) 50 年代,當(dāng)時(shí)出現(xiàn)了用于國際象棋和問題解決等任務(wù)的算法,第一個(gè)人工智能程序“邏輯理論家”于 1956 年誕生。20 世紀(jì) 60 年代和 70 年代出現(xiàn)了基于規(guī)則的專家系統(tǒng),例如 MYCIN,它可以協(xié)助復(fù)雜的決策過程。20 世紀(jì) 80 年代出現(xiàn)了機(jī)器學(xué)習(xí),它使人工智能系統(tǒng)能夠從數(shù)據(jù)中學(xué)習(xí)并不斷改進(jìn),為現(xiàn)代深度學(xué)習(xí)技術(shù)奠定了基礎(chǔ)。
如今,大多數(shù)尖端人工智能技術(shù)都由深度學(xué)習(xí)技術(shù)驅(qū)動,這些技術(shù)徹底改變了人工智能的格局。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支,它利用多層人工神經(jīng)網(wǎng)絡(luò)從原始輸入數(shù)據(jù)中提取復(fù)雜特征。本文將探討人工智能的歷史,并重點(diǎn)介紹深度學(xué)習(xí)在其發(fā)展過程中所扮演的角色。
神經(jīng)網(wǎng)絡(luò)的概念可以追溯到 1943 年,當(dāng)時(shí) Warren McCulloch 和 Walter Pitts 提出了第一個(gè)人工神經(jīng)元模型。McCulloch-Pitts (MP) 神經(jīng)元模型是對生物神經(jīng)元的突破性簡化。該模型通過聚合二進(jìn)制輸入,并使用閾值激活函數(shù)基于該聚合結(jié)果進(jìn)行決策,最終得到二進(jìn)制輸出 {0, 1},從而奠定了人工神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)。
這個(gè)簡化的模型抓住了神經(jīng)元行為的本質(zhì)——接收多個(gè)輸入,對其進(jìn)行積分,并根據(jù)積分信號是否超過閾值產(chǎn)生二進(jìn)制輸出。盡管簡單,MP神經(jīng)元模型卻能夠?qū)崿F(xiàn)基本的邏輯運(yùn)算,展現(xiàn)了神經(jīng)計(jì)算的潛力。
1957 年,弗蘭克?羅森布拉特 (Frank Rosenblatt) 提出了感知器 (Perceptron),這是一種能夠?qū)W習(xí)和識別模式的單層神經(jīng)網(wǎng)絡(luò)。感知器模型是一種比 MP 神經(jīng)元更通用的計(jì)算模型,旨在處理實(shí)值輸入并調(diào)整權(quán)重以最小化分類誤差。
羅森布拉特還為感知器開發(fā)了一種監(jiān)督學(xué)習(xí)算法,使得網(wǎng)絡(luò)可以直接從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)。
羅森布拉特對感知器能力的雄心勃勃的宣稱,包括其識別個(gè)體和翻譯不同語言語音的潛力,在當(dāng)時(shí)引發(fā)了公眾對人工智能的濃厚興趣。感知器模型及其相關(guān)的學(xué)習(xí)算法標(biāo)志著神經(jīng)網(wǎng)絡(luò)演進(jìn)的重要里程碑。然而,一個(gè)關(guān)鍵的局限性很快顯現(xiàn)出來:感知器的學(xué)習(xí)規(guī)則在面對非線性可分離的訓(xùn)練數(shù)據(jù)時(shí)無法收斂。
1959年,Widrow 和 Hoff提出了ADALINE(自適應(yīng)線性神經(jīng)元,又稱 Delta 學(xué)習(xí)規(guī)則),這是對感知器學(xué)習(xí)規(guī)則的改進(jìn)。ADALINE 解決了二進(jìn)制輸出和噪聲敏感性等限制,并能夠?qū)W習(xí)和收斂非線性可分離數(shù)據(jù),這是神經(jīng)網(wǎng)絡(luò)發(fā)展的重大突破。
ADALINE 的主要功能包括:
線性激活函數(shù):與感知器的階躍函數(shù)不同,ADALINE 使用線性激活函數(shù),使其
適用于回歸任務(wù)和連續(xù)輸出。
最小均方 (LMS) 算法:ADALINE 采用LMS 算法,最大限度地減少預(yù)測輸出和實(shí)際輸出之間的均方誤差,從而提供更高效、更穩(wěn)定的學(xué)習(xí)過程。
自適應(yīng)權(quán)重:LMS 算法根據(jù)輸出中的誤差自適應(yīng)地調(diào)整權(quán)重,使 ADALINE即使在存在噪聲的情況下也能有效地學(xué)習(xí)和收斂。
ADALINE 的推出標(biāo)志著神經(jīng)網(wǎng)絡(luò)第一個(gè)黃金時(shí)代的開啟,它克服了羅森布拉特感知器學(xué)習(xí)的局限性。這一突破實(shí)現(xiàn)了高效學(xué)習(xí)、連續(xù)輸出以及對噪聲數(shù)據(jù)的自適應(yīng),引發(fā)了該領(lǐng)域的創(chuàng)新浪潮和快速發(fā)展。
然而,與感知器一樣,ADALINE 仍然局限于線性可分離問題,無法解決更復(fù)雜、更非線性的任務(wù)。這一局限性后來被 XOR 問題凸顯,從而催生了更高級的神經(jīng)網(wǎng)絡(luò)架構(gòu)。
1969年,馬文?明斯基(Marvin Minsky)和西摩?帕普特(Seymour Papert)在他們的著作《感知器》(Perceptrons)中強(qiáng)調(diào)了單層感知器的一個(gè)關(guān)鍵局限性。他們指出,由于感知器的決策邊界是線性的,它無法解決簡單的二分類任務(wù)——異或(XOR)問題。異或問題不是線性可分的,這意味著沒有任何一個(gè)線性邊界能夠正確地對所有輸入模式進(jìn)行分類。
這一發(fā)現(xiàn)凸顯了對能夠?qū)W習(xí)非線性決策邊界的更復(fù)雜神經(jīng)網(wǎng)絡(luò)架構(gòu)的需求。感知器局限性的暴露導(dǎo)致人們對神經(jīng)網(wǎng)絡(luò)失去信心,并轉(zhuǎn)向符號人工智能方法,標(biāo)志著從 20 世紀(jì) 70 年代初到 80 年代中期“神經(jīng)網(wǎng)絡(luò)的第一個(gè)黑暗時(shí)代”的開始。
然而,從解決異或問題中獲得的洞見使研究人員認(rèn)識到,需要更復(fù)雜的模型來捕捉非線性關(guān)系。這一認(rèn)識最終促成了多層感知器和其他先進(jìn)神經(jīng)網(wǎng)絡(luò)模型的發(fā)展,為未來幾十年神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的復(fù)興奠定了基礎(chǔ)。
多層感知器 (MLP) 于 20 世紀(jì) 60 年代問世,是對單層感知器的改進(jìn)。它由多層互連的神經(jīng)元組成,從而彌補(bǔ)了單層模型的局限性。蘇聯(lián)科學(xué)家AG Ivakhnenko 和 V. Lapa在感知器的基礎(chǔ)工作基礎(chǔ)上,為 MLP 的發(fā)展做出了重大貢獻(xiàn)。
隱藏層的添加使 MLP 能夠捕獲并表示數(shù)據(jù)中復(fù)雜的非線性關(guān)系。這些隱藏層顯著增強(qiáng)了網(wǎng)絡(luò)的學(xué)習(xí)能力,使其能夠解決非線性可分的問題,例如異或問題。
MLP 標(biāo)志著神經(jīng)網(wǎng)絡(luò)研究的重大進(jìn)步,展現(xiàn)了深度學(xué)習(xí)架構(gòu)在解決復(fù)雜問題方面的潛力。然而,在 20 世紀(jì) 60 年代和 70 年代,MLP 的發(fā)展受到了以下幾個(gè)挑戰(zhàn)的阻礙:
缺乏訓(xùn)練算法:早期的MLP模型缺乏有效的訓(xùn)練算法來調(diào)整網(wǎng)絡(luò)權(quán)重。缺乏反向傳播使得訓(xùn)練多層深度網(wǎng)絡(luò)變得困難。
計(jì)算限制:當(dāng)時(shí)的計(jì)算能力不足以處理訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)所需的復(fù)雜計(jì)算。這一限制減緩了 MLP 研發(fā)的進(jìn)度。
神經(jīng)網(wǎng)絡(luò)的第一個(gè)黑暗時(shí)代于 1986 年隨著反向傳播算法的重新發(fā)現(xiàn)和發(fā)表而結(jié)束,從此開啟了神經(jīng)網(wǎng)絡(luò)的第二個(gè)黃金時(shí)代。
1969 年,異或問題凸顯了感知器(單層神經(jīng)網(wǎng)絡(luò))的局限性。研究人員意識到多層神經(jīng)網(wǎng)絡(luò)可以克服這些局限性,但他們?nèi)狈τ?xùn)練這些復(fù)雜網(wǎng)絡(luò)的實(shí)用算法。反向傳播算法歷時(shí) 17 年才得以開發(fā),使得神經(jīng)網(wǎng)絡(luò)能夠在理論上逼近任何函數(shù)。有趣的是,后來人們發(fā)現(xiàn),該算法實(shí)際上在其發(fā)表之前就已經(jīng)被發(fā)明出來了。如今,反向傳播是深度學(xué)習(xí)的一個(gè)基本組成部分,自 20 世紀(jì) 60 年代和 70 年代誕生以來,它經(jīng)歷了重大的進(jìn)步和完善。
Seppo Linnainmaa(1970):引入了自動微分的概念,這是反向傳播算法的關(guān)鍵組成部分。
Paul Werbos (1974):提出使用微積分的鏈?zhǔn)椒▌t來計(jì)算誤差函數(shù)關(guān)于網(wǎng)絡(luò)權(quán)重的梯度,從而實(shí)現(xiàn)多層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。
David Rumelhart、Geoffrey Hinton 和 Ronald Williams (1986):提出反向傳播是一種訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的實(shí)用且有效的方法,并展示了其在各種問題中的應(yīng)用。
梯度下降:反向傳播與梯度下降結(jié)合使用,以最小化誤差函數(shù)。該算法計(jì)算網(wǎng)絡(luò)中每個(gè)權(quán)重的誤差梯度,從而允許迭代更新權(quán)重以減少誤差。
鏈?zhǔn)椒▌t:反向傳播算法的核心是應(yīng)用微積分的鏈?zhǔn)椒▌t。該法則允許將誤差的梯度分解為一系列偏導(dǎo)數(shù),這些偏導(dǎo)數(shù)可以通過網(wǎng)絡(luò)的反向傳播有效地計(jì)算出來。
分層計(jì)算:反向傳播以逐層的方式進(jìn)行,從輸出層開始,反向傳播到輸入層。這種分層計(jì)算確保梯度在網(wǎng)絡(luò)中正確傳播,從而實(shí)現(xiàn)深度架構(gòu)的訓(xùn)練。
喬治?西本科(George Cybenko)于 1989 年提出的通用近似定理,為多層神經(jīng)網(wǎng)絡(luò)的功能奠定了數(shù)學(xué)基礎(chǔ)。該定理指出,在給定足夠多的神經(jīng)元并使用非線性激活函數(shù)的情況下,具有單個(gè)隱藏層的前饋神經(jīng)網(wǎng)絡(luò)可以以任意精度逼近任何連續(xù)函數(shù)。該定理凸顯了神經(jīng)網(wǎng)絡(luò)的強(qiáng)大功能和靈活性,使其適用于廣泛的應(yīng)用。
具有單個(gè)隱藏層的多層神經(jīng)網(wǎng)絡(luò)可以將任何連續(xù)函數(shù)近似到任何所需的精度,從而能夠解決各個(gè)領(lǐng)域的復(fù)雜問題。
反向傳播和通用逼近定理 (UAT) 的發(fā)展標(biāo)志著神經(jīng)網(wǎng)絡(luò)的第二個(gè)黃金時(shí)代的開始。反向傳播提供了一種訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)的有效方法,使研究人員能夠訓(xùn)練更深層、更復(fù)雜的模型。UAT 為多層神經(jīng)網(wǎng)絡(luò)的使用提供了理論依據(jù),并增強(qiáng)了人們對其解決復(fù)雜問題能力的信心。這一時(shí)期橫跨 20 世紀(jì) 80 年代末至 90 年代初,人們對該領(lǐng)域的興趣再次高漲,并取得了顯著的進(jìn)展。
然而,由于以下幾個(gè)因素,神經(jīng)網(wǎng)絡(luò)領(lǐng)域在 20 世紀(jì) 90 年代初至 21 世紀(jì)初經(jīng)歷了“第二個(gè)黑暗時(shí)代”:
支持向量機(jī)(SVM)的興起,為分類和回歸任務(wù)提供了一種數(shù)學(xué)上優(yōu)雅的方法。
計(jì)算限制,因?yàn)橛?xùn)練深度神經(jīng)網(wǎng)絡(luò)仍然耗時(shí)且需要大量硬件。
過度擬合和泛化問題,早期的神經(jīng)網(wǎng)絡(luò)在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,但在未知數(shù)據(jù)上表現(xiàn)不佳,這使得它們在實(shí)際應(yīng)用中不太可靠。
這些挑戰(zhàn)導(dǎo)致許多研究人員將注意力從神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)移,導(dǎo)致該領(lǐng)域陷入停滯。
神經(jīng)網(wǎng)絡(luò)領(lǐng)域在 21 世紀(jì)末和 2010 年代初經(jīng)歷了一次復(fù)興,這得益于以下領(lǐng)域的進(jìn)步:
深度學(xué)習(xí)架構(gòu)(CNN、RNN、Transformer、擴(kuò)散模型)
硬件(GPU、TPU、LPU)
大型數(shù)據(jù)集(ImageNet、COCO、OpenWebText、WikiText 等)
訓(xùn)練算法(SGD、Adam、dropout)
這些進(jìn)步促成了計(jì)算機(jī)視覺、自然語言處理、語音識別和強(qiáng)化學(xué)習(xí)領(lǐng)域的重大突破。通用近似定理與實(shí)踐進(jìn)步相結(jié)合,為深度學(xué)習(xí)技術(shù)的廣泛應(yīng)用和成功鋪平了道路。
卷積神經(jīng)網(wǎng)絡(luò) (CNN) 極大地改變了深度學(xué)習(xí)的格局,尤其是在計(jì)算機(jī)視覺和圖像處理領(lǐng)域。從 20 世紀(jì) 80 年代到 2010 年代,CNN 的發(fā)展反映了其在架構(gòu)、訓(xùn)練技術(shù)和應(yīng)用方面的顯著進(jìn)步。
CNN 的概念最早由福島健二 (Kenji Fukushima) 在 20 世紀(jì) 80 年代提出,他提出了Neocognitron,這是一種模仿人類視覺皮層結(jié)構(gòu)的分層神經(jīng)網(wǎng)絡(luò)。這項(xiàng)開創(chuàng)性的工作為 CNN 的發(fā)展奠定了基礎(chǔ)。20 世紀(jì) 80 年代末到 90 年代初,Yann LeCun 和他的團(tuán)隊(duì)進(jìn)一步開發(fā)了 CNN,推出了專為手寫數(shù)字識別而設(shè)計(jì)的LeNet-5架構(gòu)。
CNN 由三個(gè)關(guān)鍵組件構(gòu)成:
1. 卷積層:這些層通過應(yīng)用一組可學(xué)習(xí)的過濾器自動從輸入圖像中學(xué)習(xí)特征的空間層次結(jié)
構(gòu)。
2. 池化層:池化層減少了輸入的空間維度,增強(qiáng)了對變化的魯棒性并降低了計(jì)算負(fù)荷。
3. 全連接層:在卷積層和池化層之后,全連接層用于分類任務(wù),整合從先前層學(xué)習(xí)到的特
征。
局部感受野:CNN 使用局部感受野來捕獲輸入數(shù)據(jù)中的局部模式,使其對于圖像和視覺任務(wù)非常有效。
共享權(quán)重:在卷積層中使用共享權(quán)重可以減少網(wǎng)絡(luò)中的參數(shù)數(shù)量,從而提高效率并更易于訓(xùn)練。
平移不變性:池化層引入了平移不變性,使得網(wǎng)絡(luò)能夠識別模式,而不管其在輸入圖像中的位置如何。
2012年,CNN發(fā)展迎來了重要的里程碑,AlexNet在ImageNet大規(guī)模視覺識別挑戰(zhàn)賽(ILSVRC)中取得巨大勝利,取得了顯著的勝利優(yōu)勢,標(biāo)志著圖像分類領(lǐng)域取得了重大突破。 下面是AlexNet 的架構(gòu)(2012):
ILSVRC 是一項(xiàng)年度圖像識別基準(zhǔn)測試,其基于超過 1000 萬張帶注釋圖像的數(shù)據(jù)集評估算法,這些圖像被分為 1000 個(gè)類別。AlexNet 的創(chuàng)新包括:
1. ReLU 激活函數(shù):ReLU 的引入是為了克服傳統(tǒng)激活函數(shù)的問題,它可以加快訓(xùn)練速度
并提高性能。
2. 丟棄正則化:該技術(shù)通過在訓(xùn)練期間隨機(jī)丟棄單元來減少過度擬合。
3. 數(shù)據(jù)增強(qiáng):通過人為增加訓(xùn)練數(shù)據(jù)的多樣性,對訓(xùn)練數(shù)據(jù)集的增強(qiáng)提高了泛化能力。
AlexNet 的成功標(biāo)志著 CNN 發(fā)展的一個(gè)轉(zhuǎn)折點(diǎn),為圖像分類和物體檢測的進(jìn)一步發(fā)展鋪平了道路。
AlexNet 開啟神經(jīng)網(wǎng)絡(luò)的第三個(gè)黃金時(shí)代:
當(dāng)前的黃金時(shí)代(2010 年代至今)以深度學(xué)習(xí)、大數(shù)據(jù)和強(qiáng)大計(jì)算平臺的融合為標(biāo)志。這個(gè)時(shí)代見證了圖像識別、自然語言處理和機(jī)器人技術(shù)方面的顯著突破。持續(xù)進(jìn)行的研究不斷突破人工智能能力的界限。
繼 AlexNet 之后,出現(xiàn)了幾種有影響力的架構(gòu):
VGGNet(2014):VGGNet 由牛津大學(xué)視覺幾何小組開發(fā),強(qiáng)調(diào)更深的架構(gòu)和更小的卷積濾波器(3x3),實(shí)現(xiàn)了顯著的準(zhǔn)確性。
GoogLeNet/Inception(2014):引入了 Inception 模塊,使網(wǎng)絡(luò)能夠有效地捕獲多尺度特征。
ResNet(2015):殘差網(wǎng)絡(luò)引入了跳過連接,使得非常深的網(wǎng)絡(luò)訓(xùn)練成為可能,同時(shí)緩解了梯度消失問題。
CNN 的進(jìn)步徹底改變了各個(gè)領(lǐng)域:
計(jì)算機(jī)視覺:CNN 已成為現(xiàn)代計(jì)算機(jī)視覺的支柱,推動了圖像分類、對象檢測和語義分割方面的突破。
醫(yī)學(xué)成像:CNN 用于疾病診斷、腫瘤檢測和圖像引導(dǎo)手術(shù)等任務(wù),顯著提高診斷準(zhǔn)確性。
自動駕駛汽車:CNN 是自動駕駛汽車感知系統(tǒng)不可或缺的一部分,使它們能夠解釋和響應(yīng)周圍環(huán)境
下圖展示了CNN 的計(jì)算機(jī)視覺應(yīng)用。
CNN 從誕生到如今成為深度學(xué)習(xí)基石的歷程,展現(xiàn)了其對人工智能的深遠(yuǎn)影響。CNN 的成功也為深度學(xué)習(xí)的進(jìn)一步發(fā)展鋪平了道路,并啟發(fā)了其他專用神經(jīng)網(wǎng)絡(luò)架構(gòu)(例如 RNN 和 Transformer)的發(fā)展。CNN 的理論基礎(chǔ)和實(shí)踐創(chuàng)新,為深度學(xué)習(xí)技術(shù)在各個(gè)領(lǐng)域的廣泛應(yīng)用和成功做出了重要貢獻(xiàn)。
循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) 旨在處理序列數(shù)據(jù)。與傳統(tǒng)的前饋網(wǎng)絡(luò)(又稱多層感知器 (MLP))不同,RNN 會維護(hù)內(nèi)部隱藏狀態(tài)或“記憶”,從而能夠捕捉序列元素之間的時(shí)間依賴關(guān)系。這使得 RNN 在語言建模、時(shí)間序列預(yù)測和語音識別等任務(wù)中尤為有效。
RNN 的概念可以追溯到 20 世紀(jì) 80 年代,像 John Hopfield、Michael I. Jordan 和 Jeffrey L. Elman 這樣的先驅(qū)為這些網(wǎng)絡(luò)的發(fā)展做出了貢獻(xiàn)。John Hopfield 于 1982 年提出的 Hopfield 網(wǎng)絡(luò)為理解神經(jīng)網(wǎng)絡(luò)中的循環(huán)連接奠定了基礎(chǔ)。Jordan 網(wǎng)絡(luò)和 Elman 網(wǎng)絡(luò)分別于 20 世紀(jì) 80 年代和 90 年代提出,是捕捉序列數(shù)據(jù)中時(shí)間依賴關(guān)系的早期嘗試。
RNN 使用時(shí)間反向傳播 (BPTT) 進(jìn)行訓(xùn)練,這是用于前饋網(wǎng)絡(luò)的標(biāo)準(zhǔn)反向傳播算法的擴(kuò)展。BPTT 涉及隨時(shí)間展開網(wǎng)絡(luò),將每個(gè)時(shí)間步視為一個(gè)層。在前向傳播過程中,處理輸入序列,并在輸出層計(jì)算誤差。然后將得到的梯度從最后一個(gè)時(shí)間步反向傳播到第一個(gè)時(shí)間步,更新 RNN 的參數(shù)。然而,由于梯度消失問題,RNN 難以學(xué)習(xí)長時(shí)間依賴性,在這種情況下,梯度會變得非常小,導(dǎo)致無法學(xué)習(xí)。相反,梯度可能會變得過大,導(dǎo)致訓(xùn)練不穩(wěn)定,這被稱為梯度爆炸問題。
長短期記憶網(wǎng)絡(luò) (LSTM) (1997):Sepp Hochreiter 和 Jürgen Schmidhuber 提出了 LSTM 網(wǎng)絡(luò)來解決傳統(tǒng) RNN 中的梯度消失問題。LSTM 使用門控機(jī)制來控制信息流,使其能夠捕獲序列數(shù)據(jù)中的長期依賴關(guān)系。它由單元狀態(tài)(存儲長期信息)、隱藏狀態(tài)(承載當(dāng)前時(shí)間步的短期輸出)和三個(gè)門控(輸入門、遺忘門、輸出門)組成。在每一步中,LSTM 都會基于多個(gè)數(shù)學(xué)運(yùn)算和門控來決定需要遺忘多少信息、需要將多少信息添加到單元狀態(tài)以及需要將多少信息輸出到下一步。
門控循環(huán)單元 (GRU) (2014):Kyunghyun Cho 等人提出了 GRU,它是 LSTM 的精簡版本,也采用門控機(jī)制來調(diào)節(jié)信息流。與具有三個(gè)門和兩個(gè)狀態(tài)的 LSTM 不同,GRU 僅使用兩個(gè)門和一個(gè)狀態(tài)。LSTM 的遺忘門和輸入門合并為一個(gè)更新門,該更新門決定保留多少過去信息以及合并多少新信息。此外,LSTM 的輸出門在 GRU 中被重置門取代,重置門決定在整合新信息之前需要“重置”或遺忘多少過去信息。GRU 的參數(shù)比 LSTM 少,因此訓(xùn)練速度通常更快。
序列到序列模型(Seq2Seq) (2014):Ilya Sutskever 和他的團(tuán)隊(duì)提出了 Seq2Seq 模型,該模型使用編碼器-解碼器架構(gòu)將輸入序列映射到輸出序列。該模型已廣泛應(yīng)用于機(jī)器翻譯、語音識別和文本摘要等任務(wù)。
下面是使用 LSTM 的序列到序列模型的編碼器-解碼器架構(gòu):
RNN 對各個(gè)領(lǐng)域產(chǎn)生了重大影響,包括:
1. 自然語言處理:RNN 徹底改變了自然語言處理領(lǐng)域,使得語言建模、機(jī)器翻譯、情感分析和文本生成等任務(wù)取得了重大進(jìn)步。
2. 語音識別:RNN 廣泛應(yīng)用于語音識別系統(tǒng),它們對口語中的時(shí)間依賴性進(jìn)行建模,將語音信號轉(zhuǎn)換為文本。
3. 時(shí)間序列預(yù)測:RNN 對于時(shí)間序列預(yù)測非常有效,它們對序列數(shù)據(jù)中的時(shí)間依賴性進(jìn)行建模以預(yù)測未來值。
2016年,谷歌翻譯改用神經(jīng)機(jī)器翻譯系統(tǒng),大大提高了翻譯質(zhì)量。
盡管 RNN 取得了成功,但它仍面臨一些挑戰(zhàn):
梯度消失和梯度爆炸:盡管 LSTM 和 GRU 提供了一些解決方案,但傳統(tǒng)的 RNN 仍難以解決這些問題。
計(jì)算復(fù)雜性:訓(xùn)練 RNN 可能需要大量資源,尤其是在處理大型數(shù)據(jù)集時(shí)。
并行化:RNN 的順序特性使得并行訓(xùn)練和推理過程變得復(fù)雜。
RNN 的成功為深度學(xué)習(xí)的進(jìn)一步發(fā)展鋪平了道路,并激發(fā)了其他專用神經(jīng)網(wǎng)絡(luò)架構(gòu)(例如 Transformer)的發(fā)展,這些架構(gòu)在各種序列數(shù)據(jù)任務(wù)中都取得了卓越的性能。RNN 的理論基礎(chǔ)和實(shí)踐創(chuàng)新為深度學(xué)習(xí)技術(shù)在各個(gè)領(lǐng)域的廣泛應(yīng)用和成功做出了重要貢獻(xiàn)。
Transformer 憑借其出色的處理序列數(shù)據(jù)的能力改變了深度學(xué)習(xí)的格局,成為從自然語言處理 (NLP) 到計(jì)算機(jī)視覺等許多領(lǐng)域的關(guān)鍵。
Transformer 模型由Vaswani 等人(2017) 在開創(chuàng)性論文《Attention is All You Need 》中提出。該模型放棄了傳統(tǒng)的 RNN 順序處理,轉(zhuǎn)而采用自注意力機(jī)制,從而實(shí)現(xiàn)并行處理并更好地處理長距離依賴關(guān)系。下圖是自注意力機(jī)制:
自注意力機(jī)制:允許序列中的每個(gè)位置關(guān)注所有位置,比 RNN 或 LSTM 更靈活地捕捉上下文。
并行化:通過同時(shí)處理所有輸入數(shù)據(jù)來提高訓(xùn)練速度,這與 RNN 的順序性形成鮮明對比。
編碼器-解碼器結(jié)構(gòu):編碼器和解碼器堆棧都利用自注意力和前饋神經(jīng)網(wǎng)絡(luò)層,并使用位置編碼來維持序列順序。
下面是具有編碼器-解碼器結(jié)構(gòu)和多頭注意力機(jī)制的原始 Transformer 架構(gòu):
下面是基于 Transformer 的語言模型:
BERT(2018): Transformers 的雙向編碼器表示,一種僅編碼器的 Transformer,通過對掩碼語言建模(masked language modeling)和下一句預(yù)測進(jìn)行預(yù)訓(xùn)練,徹底改變了 NLP。
T5(2019):文本到文本傳輸轉(zhuǎn)換器,一種編碼器-解碼器轉(zhuǎn)換器,將 NLP 任務(wù)重新定義為文本到文本的格式,簡化了模型架構(gòu)和訓(xùn)練。
上圖是BERT 和GTP 與 T5的對比。
OpenAI 的生成式預(yù)訓(xùn)練 Transformer (GPT) 系列自 2018 年誕生以來,顯著推動了自然語言處理 (NLP) 領(lǐng)域的發(fā)展。每次迭代都建立在上一次迭代的基礎(chǔ)上,引入了更強(qiáng)大的模型和更強(qiáng)大的功能。以下是每個(gè)版本的詳細(xì)概述。
GPT 的自回歸語言模型架構(gòu)旨在根據(jù)輸入的前一個(gè)標(biāo)記來預(yù)測序列中的下一個(gè)標(biāo)記。
GPT(2018):最初的 GPT 模型于 2018 年推出,是一個(gè)自回歸解碼器專用 Transformer,擁有1.17 億個(gè)參數(shù)。它旨在預(yù)測序列中的下一個(gè)標(biāo)記(子詞),展現(xiàn)出強(qiáng)大的理解和生成類人文本的能力。這一基礎(chǔ)模型為生成式語言模型的后續(xù)發(fā)展奠定了基礎(chǔ),展現(xiàn)了在大型文本語料庫中進(jìn)行無監(jiān)督學(xué)習(xí)的潛力。
GPT-2 (2019): GPT-2 于 2019 年發(fā)布,標(biāo)志著模型規(guī)模和能力的顯著飛躍,可擴(kuò)展至15 億個(gè)參數(shù)。該版本展現(xiàn)出了一些新興能力,例如零樣本任務(wù)性能,即無需專門訓(xùn)練即可執(zhí)行任務(wù)。然而,它能夠生成連貫但有時(shí)具有誤導(dǎo)性的文本,這引發(fā)了人們對其潛在濫用的倫理擔(dān)憂,尤其是在生成虛假新聞或虛假信息方面。
GPT-3 (2020): GPT-3 于 2020 年發(fā)布,其模型規(guī)模進(jìn)一步擴(kuò)展至令人印象深刻的1750 億個(gè)參數(shù)。該模型在少樣本學(xué)習(xí)方面展現(xiàn)出卓越的能力,能夠基于提示期間提供的少量示例適應(yīng)各種任務(wù)。它能夠生成類似人類的文本,使其成為內(nèi)容創(chuàng)作、編碼輔助和對話代理等眾多應(yīng)用的多功能工具。GPT-3 的架構(gòu)使其無需進(jìn)行大量微調(diào)即可執(zhí)行各種 NLP 任務(wù),鞏固了其作為當(dāng)時(shí)最強(qiáng)大的語言模型之一的地位。
ChatGPT(2022):經(jīng)過微調(diào)的 GPT-3.5 模型,通過人類反饋強(qiáng)化學(xué)習(xí) (RLHF) 針對多輪對話進(jìn)行了優(yōu)化,擅長處理后續(xù)問題和維護(hù)上下文,通過指令調(diào)整和偏好數(shù)據(jù)使響應(yīng)與用戶意圖保持一致。
高級大型語言模型 (LLM) 訓(xùn)練流程涉及預(yù)訓(xùn)練、指令調(diào)整和偏好調(diào)整的組合,使用人類反饋強(qiáng)化學(xué)習(xí) (RLHF) 或直接偏好優(yōu)化 (DPO)。
GPT-4(2023):最新版本的 GPT-4 于 2023 年發(fā)布,延續(xù)了功能和參數(shù)擴(kuò)展的趨勢,盡管目前有關(guān)其架構(gòu)和參數(shù)數(shù)量的具體細(xì)節(jié)尚未完全公開披露。預(yù)計(jì)它將進(jìn)一步提升先前模型的性能,尤其是在推理和理解復(fù)雜情境等領(lǐng)域。
詳見https://klu.ai/glossary/large-language-model 。
大型語言模型 (LLM) 的領(lǐng)域因各種杰出模型而得到了顯著豐富,每種模型都提供了獨(dú)特的功能,并在人工智能領(lǐng)域取得了進(jìn)步。以下是一些知名 LLM 的最新概述:
Anthropic 的 Claude (2022):優(yōu)先考慮人工智能輸出的安全性和道德考慮,旨在與人類價(jià)值觀保持一致。
Meta 的 LLaMA(2023):為不同的計(jì)算需求提供不同大小的模型,在自然語言處理基準(zhǔn)測試中取得了令人印象深刻的成果。
Mistral.AI 的 Mistral (2023):平衡高性能和資源效率,非常適合實(shí)時(shí)應(yīng)用,專注于開源 AI 解決方案。
阿里巴巴的Qwen(2023年):為英語和中文創(chuàng)建高質(zhì)量的雙語人工智能模型,促進(jìn)跨語言應(yīng)用并鼓勵(lì)創(chuàng)新。
微軟的 Phi(2023 年):強(qiáng)調(diào)跨各種應(yīng)用程序的多功能性和集成性,并具有用于情境理解和用戶交互的高級培訓(xùn)技術(shù)。
Google 的 Gemma 系列(2024 年):輕量級、最先進(jìn)的開放模型,適用于各種應(yīng)用,包括文本生成、摘要和提取,重點(diǎn)關(guān)注性能和效率。
詳見https://www.analyticsvidhya.com/blog/2023/07/build-your-own-large-language-models/
詳見https://medium.com/towards-data-science/fine-tune-llama-3-1-ultra-efficiently-with-unsloth-7196c7165bab,此外,此文沒有包括后起之秀的中國大模型DeepSeak。關(guān)于更詳細(xì)的內(nèi)容請關(guān)注待發(fā)布的另一篇文章《大模型簡史》。
GPT-4V(2023)將多模態(tài)功能集成到本已強(qiáng)大的基于文本的模型中,標(biāo)志著人工智能發(fā)展邁出了重要一步。它不僅可以處理和生成文本內(nèi)容,還可以處理和生成圖像內(nèi)容,為更全面的人工智能交互奠定了基礎(chǔ)。
GPT-4o (2024)是 GPT-4V 的演進(jìn)版,它增強(qiáng)了多模態(tài)集成能力,并具備復(fù)雜的語境理解能力。相比前代產(chǎn)品,GPT-4o 的改進(jìn)之處在于:在不同媒體之間實(shí)現(xiàn)了更佳的連貫性,能夠根據(jù)文本提示生成高級圖像,并基于視覺輸入進(jìn)行精細(xì)推理。此外,GPT-4o 還包含先進(jìn)的倫理道德訓(xùn)練機(jī)制,確保其輸出不僅準(zhǔn)確,而且負(fù)責(zé)任,符合人類價(jià)值觀。
Gemini Pro (2023):谷歌 Gemini 推出了一系列專為多模態(tài)任務(wù)設(shè)計(jì)的模型,集成了文本、圖像、音頻和視頻處理功能。Gemini Pro 尤其以其可擴(kuò)展性和效率而著稱,使高級 AI 能夠應(yīng)用于各種應(yīng)用,從實(shí)時(shí)分析到跨不同媒體格式的復(fù)雜內(nèi)容生成。
Gemini 的多模態(tài)能力:Gemini 模型(包括適用于不同規(guī)模應(yīng)用的 Ultra 和 Nano 版本)旨在執(zhí)行需要理解多種數(shù)據(jù)類型的任務(wù)。它們在視頻摘要、多模態(tài)翻譯和交互式學(xué)習(xí)環(huán)境等任務(wù)中表現(xiàn)出色,彰顯了 Google 致力于提升 AI 在多媒體環(huán)境中地位的決心。
Claude 3.0(2023)由 Anthropic 推出,該模型專注于增強(qiáng)人工智能響應(yīng)的安全性和可靠性,并改進(jìn)了情境理解和倫理考量。它旨在提高對話性和實(shí)用性,同時(shí)嚴(yán)格避免產(chǎn)生有害或帶有偏見的輸出。
Claude 3.5(2024)進(jìn)一步完善了 Claude 3.0 的功能,使其在復(fù)雜任務(wù)中表現(xiàn)更佳,處理效率更高,用戶請求的處理也更加細(xì)致入微。此版本也強(qiáng)調(diào)了多模態(tài)交互,盡管它主要擅長文本和邏輯任務(wù),但其在處理視覺或其他感官輸入方面也逐漸增強(qiáng),從而帶來更加集成的用戶體驗(yàn)。
LLaVA(大型語言和視覺助手)代表了一種創(chuàng)新的多模態(tài)人工智能方法,它將語言理解與視覺處理相結(jié)合。LLaVA 于 2023 年開發(fā),能夠解讀圖像并將其與文本內(nèi)容關(guān)聯(lián)起來,從而能夠回答關(guān)于圖像的問題、描述視覺內(nèi)容,甚至根據(jù)視覺線索生成文本。其架構(gòu)充分利用了 Transformer 模型的優(yōu)勢,在需要視覺和語言理解的任務(wù)中實(shí)現(xiàn)了最佳性能。該模型因其開源特性而備受矚目,這將鼓勵(lì)人們在多模態(tài)人工智能應(yīng)用方面進(jìn)行進(jìn)一步的研究和開發(fā)。下圖描繪了LLaVA的架構(gòu)。
這些模型共同標(biāo)志著人工智能系統(tǒng)向著新的方向發(fā)展:它不僅能夠理解和生成文本,還能跨多種模態(tài)解釋和創(chuàng)作內(nèi)容,從而更貼近人類的認(rèn)知能力。人工智能模型的這種演進(jìn)將催生更具交互性、更直觀的應(yīng)用程序,并使其能夠通過融合不同的感官輸入來處理現(xiàn)實(shí)世界的場景,從而拓展人工智能在日常生活、研究和行業(yè)應(yīng)用中的潛力。
擴(kuò)散模型已成為一類頗具影響力的生成模型,它提供了一種從復(fù)雜數(shù)據(jù)分布中創(chuàng)建高保真樣本的全新方法。與 GAN 和 VAE 等傳統(tǒng)模型相比,擴(kuò)散模型采用了一種漸進(jìn)式去噪技術(shù),該技術(shù)在眾多應(yīng)用中均表現(xiàn)出色。
Sohl-Dickstein 等人(2015)在其論文中引入了擴(kuò)散模型,奠定了基礎(chǔ)。他們概念化了一個(gè)生成過程,通過逆轉(zhuǎn)逐漸添加的噪聲,可以將噪聲重新轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)。
去噪過程:這些模型逐步添加噪聲(前向過程)并學(xué)習(xí)逆轉(zhuǎn)這一過程(后向過程),從而有效地去噪以生成樣本。
馬爾可夫鏈:這兩個(gè)過程都以馬爾可夫鏈的形式構(gòu)建,每個(gè)前向步驟都會添加高斯噪聲,模型會反向?qū)W習(xí)消除這些噪聲。
訓(xùn)練目標(biāo):目標(biāo)是最小化每一步預(yù)測噪聲和實(shí)際噪聲之間的差異,優(yōu)化證據(jù)下限(ELBO)的形式。
穩(wěn)定性和魯棒性:它們比 GAN 具有更好的穩(wěn)定性,避免了模式崩潰等問題,從而持續(xù)生成多樣化、高質(zhì)量的輸出。
去噪擴(kuò)散概率模型 (DDPM) (2020):改進(jìn)了擴(kuò)散過程,為圖像合成設(shè)定了新的基準(zhǔn)。
去噪擴(kuò)散隱式模型 (DDIM) (2021):通過非馬爾可夫采樣提高效率,使生成過程更加靈活。
基于分?jǐn)?shù)的隨機(jī)微分方程生成模型(2021):利用隨機(jī)微分方程進(jìn)行有效的樣本生成。
潛在擴(kuò)散模型(2022):成為穩(wěn)定擴(kuò)散等流行的文本到圖像生成系統(tǒng)的基礎(chǔ),顯著推動了人工智能生成圖像領(lǐng)域的發(fā)展,并為更易于訪問和高效的生成人工智能工具鋪平了道路。
DALL-E 3 和 Stable Diffusion 3 等模型擅長根據(jù)文本描述生成高質(zhì)量圖像,其中 DALL-E 3 提供詳細(xì)而準(zhǔn)確的視覺效果,而 Stable Diffusion 則提供一種開源替代方案,使圖像生成技術(shù)的訪問更加民主化。
FLUX.1 (2024):黑森林實(shí)驗(yàn)室發(fā)布了 FLUX.1,這是一款用于 AI 圖像生成的先進(jìn)擴(kuò)散模型,提供卓越的速度、質(zhì)量和快速執(zhí)行。FLUX.1 提供三個(gè)版本——Schnell、Dev 和 Pro,并利用 Rectified Flow Transformers 等創(chuàng)新技術(shù)來生成高度逼真的圖像。FLUX.1 可以生成文本并處理手指和腳趾等細(xì)節(jié)——具備優(yōu)秀圖像生成器所需的一切。
上圖是一張由 FLUX.1 Shenell 模型生成的圖像,上面畫著一個(gè)簡單的“側(cè)面寫著 FLUX.1 的咖啡杯”。這張高質(zhì)量的咖啡杯圖像清晰可見“FLUX.1”字樣,展現(xiàn)了 FLUX.1 生成文本的能力。
DreamBooth(2022):能夠在特定主題的少量圖像上訓(xùn)練擴(kuò)散模型,從而實(shí)現(xiàn)個(gè)性化圖像生成。
LoRA(2022):低秩自適應(yīng) (Low-Rank Adaptation) 是一種允許使用最少的附加參數(shù)對擴(kuò)散模型進(jìn)行微調(diào)的技術(shù),從而使模型更容易適應(yīng)特定任務(wù)或數(shù)據(jù)集。
上圖是單概念生成的定性比較。左欄顯示每個(gè)概念的參考圖像。基于 LoRA 的方法在保真度方面優(yōu)于自定義擴(kuò)散。此外,正交自適應(yīng)和 SBoRA 表現(xiàn)出與混合展示相當(dāng)?shù)男阅?,同時(shí)還引入了正交約束,這在多概念場景中具有優(yōu)勢。
ControlNet(2023):根據(jù)草圖或深度圖等附加輸入對擴(kuò)散模型進(jìn)行條件化,從而對生成的圖像提供更多控制。利用帶有姿勢控制的 ControlNet 實(shí)現(xiàn)穩(wěn)定擴(kuò)散(見下圖)
Multi-SBoRA (2024):Multi-SBoRA 是一種針對多概念定制擴(kuò)散模型的新方法。它使用正交標(biāo)準(zhǔn)基向量構(gòu)建低秩矩陣進(jìn)行微調(diào),從而實(shí)現(xiàn)區(qū)域和非重疊權(quán)重更新,從而減少跨概念干擾。這種方法保留了預(yù)訓(xùn)練模型的知識,降低了計(jì)算開銷,并增強(qiáng)了模型靈活性。實(shí)驗(yàn)結(jié)果表明,Multi-SBoRA 在多概念定制方面取得了最優(yōu)性能,同時(shí)保持了獨(dú)立性并減輕了串?dāng)_效應(yīng)。
上圖展現(xiàn)了多概念生成的定性比較。結(jié)果分為三種情況:(1)角色生成,(2)物體生成,以及(3)角色和物體組合生成。每個(gè)概念的參考圖像顯示在上行。缺乏正交設(shè)計(jì)的方法(例如自定義擴(kuò)散和混合顯示)表現(xiàn)出概念身份的顯著損失,尤其是在面部特征復(fù)雜的角色中。正交自適應(yīng)方法展現(xiàn)出更好的身份保留效果,但可能會損害模型的整體知識,導(dǎo)致模型崩潰。相比之下,我們提出的方法取得了卓越的效果,有效地保留了每個(gè)概念的身份,同時(shí)確保了更穩(wěn)定的生成。
擴(kuò)散模型研究的軌跡預(yù)示著光明的未來,集成模型有可能結(jié)合各種人工智能架構(gòu)的優(yōu)勢,同時(shí)優(yōu)化速度和質(zhì)量。
OpenAI Sora 是一個(gè)全新的文本轉(zhuǎn)視頻生成模型,擴(kuò)展了 OpenAI 多模態(tài) AI 產(chǎn)品的功能。該模型允許用戶根據(jù)文本描述創(chuàng)建視頻,有效地彌合文本與動態(tài)視覺內(nèi)容之間的鴻溝。Sora 與多模態(tài)框架的集成增強(qiáng)了創(chuàng)意應(yīng)用的潛力,使用戶能夠以最少的輸入生成豐富的多媒體內(nèi)容。這一進(jìn)展標(biāo)志著我們朝著更直觀、更具交互性的 AI 系統(tǒng)邁出了重要一步,這些系統(tǒng)能夠理解和生成復(fù)雜的媒體形式。
人工智能和深度學(xué)習(xí)的發(fā)展史充滿了重大進(jìn)步和變革性創(chuàng)新。 從早期的神經(jīng)網(wǎng)絡(luò)到如今復(fù)雜的架構(gòu),例如卷積神經(jīng)網(wǎng)絡(luò) (CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN)、Transformer 和擴(kuò)散模型,該領(lǐng)域已經(jīng)徹底改變了各個(gè)領(lǐng)域。
近期的進(jìn)展推動了大型語言模型 (LLM) 和大型多模態(tài)模型 (LMM) 的發(fā)展,例如 OpenAI 的 GPT-4o、谷歌的 Gemini Pro、Antropic 的 Claude 3.5 Sonnet 和 Meta 的 LLaMA3.1,它們展現(xiàn)了卓越的自然語言和多模態(tài)能力。此外,生成式人工智能 (包括文本轉(zhuǎn)圖像和文本轉(zhuǎn)視頻生成模型,例如 Midjourney、DALL-E 3、Stable Diffusion、FLUX.1 和 Sora) 的突破,拓展了人工智能的創(chuàng)造潛力。
擴(kuò)散模型也已成為功能強(qiáng)大的生成模型,擁有廣泛的應(yīng)用前景。隨著研究持續(xù)聚焦于開發(fā)更高效、更易解釋、更強(qiáng)大的模型,人工智能和深度學(xué)習(xí)對社會和技術(shù)的影響將與日俱增。這些進(jìn)步正在推動傳統(tǒng)領(lǐng)域的創(chuàng)新,并為創(chuàng)造性表達(dá)、問題解決以及人機(jī)協(xié)作創(chuàng)造新的可能性。
然而,深度學(xué)習(xí)并非人工智能的唯一或最佳方法。符號人工智能、強(qiáng)化學(xué)習(xí)和神經(jīng)符號人工智能各有其獨(dú)特的優(yōu)勢,并彌補(bǔ)了深度學(xué)習(xí)的局限性,例如可解釋性和計(jì)算資源需求。對人工智能的全面審視應(yīng)該涵蓋這些不同的方法論。
人工智能的未來在于多種方法的協(xié)同作用。隨著研究的不斷進(jìn)步,構(gòu)建多元化的人工智能技術(shù)生態(tài)系統(tǒng)將確保其均衡有效的演進(jìn),造福社會和技術(shù)發(fā)展。
編后注: 本文既然是簡史,它只包含了人工智能和深度學(xué)習(xí)發(fā)展史上的重要里程碑。同時(shí)它也缺乏介紹中國人工智能科學(xué)家的一些貢獻(xiàn)。但該文仍不愧為一份珍貴的學(xué)習(xí)資料。 |
人工智能深度學(xué)習(xí)簡史(1956~2024)
1353 閱讀年?duì)I收643億,凈利88億,航空貨運(yùn)三巨頭業(yè)績出爐
1285 閱讀2025 LOG低碳供應(yīng)鏈物流 杰出貢獻(xiàn)獎(jiǎng)
1239 閱讀2025 LOG 低碳供應(yīng)鏈物流 數(shù)智化優(yōu)秀服務(wù)商
1173 閱讀2025高考試卷正在發(fā)往全國各地,中國郵政承擔(dān)押運(yùn)任務(wù)
1148 閱讀老牌跨境物流企業(yè)爆雷,資金鏈斷裂
1069 閱讀2025 LOG低碳供應(yīng)鏈物流 杰出貢獻(xiàn)獎(jiǎng)
987 閱讀買還是租,物流企業(yè)持有新能源車的最佳姿勢
932 閱讀2025 LOG低碳供應(yīng)鏈物流 最具影響力品牌商
926 閱讀2025 LOG低碳供應(yīng)鏈物流 杰出貢獻(xiàn)獎(jiǎng)
933 閱讀