亚洲精品少妇久久久久久海角社区,色婷婷亚洲一区二区综合,伊人蕉久中文字幕无码专区,日韩免费高清大片在线

羅戈網(wǎng)
搜  索
登陸成功

登陸成功

積分  

人工智能深度學(xué)習(xí)簡史(1956~2024)

[羅戈導(dǎo)讀]本文概述人工智能與深度學(xué)習(xí)發(fā)展史,從早期神經(jīng)網(wǎng)絡(luò)到現(xiàn)代大型語言模型和多模態(tài)系統(tǒng),探討關(guān)鍵里程碑及其對各領(lǐng)域的影響,強(qiáng)調(diào)未來多方法協(xié)同發(fā)展的潛力。

原文:A Brief History of AI with Deep Learning,Aug 31, 2024

原作者:LM Po,一位科技專欄作家

編譯者:唐隆基博士

編譯者注:本文編譯者在一場意外的左手創(chuàng)傷中走出來后,又繼續(xù)開始了他的新興技術(shù)發(fā)展趨勢及戰(zhàn)略和應(yīng)用的研究,研究中發(fā)現(xiàn)兩篇介紹人工智能簡史的文章,特編譯發(fā)布以供讀者學(xué)習(xí)參考,以幫助讀者提高對人工智能革命的認(rèn)識和促進(jìn)人工智能技術(shù)的釆用。本文是兩篇文章之一,另一篇待發(fā)布的是《大模型(LMMs)發(fā)展簡史(2017~2025)》。

過去幾十年來,人工智能 (AI) 和深度學(xué)習(xí)取得了顯著進(jìn)步,徹底改變了計(jì)算機(jī)視覺、自然語言處理和機(jī)器人等領(lǐng)域。本文概述了深度學(xué)習(xí)在人工智能發(fā)展史上的重要里程碑,從早期的神經(jīng)網(wǎng)絡(luò)模型到現(xiàn)代的大型語言模型和多模態(tài)人工智能系統(tǒng)。下圖描繪了一個(gè)人工智能深度學(xué)習(xí)的簡史。

1. 《人工智能的誕生》(1956年)

人工智能 (AI) 的概念已存在數(shù)百年,但我們今天所知的現(xiàn)代人工智能領(lǐng)域始于 20 世紀(jì)中葉?!叭斯ぶ悄堋币辉~最初由計(jì)算機(jī)科學(xué)家和認(rèn)知科學(xué)家約翰?麥卡錫于 1956 年在達(dá)特茅斯人工智能夏季研究項(xiàng)目中提出。

達(dá)特茅斯會議通常被認(rèn)為是人工智能研究領(lǐng)域的發(fā)源地。會議匯集了一群計(jì)算機(jī)科學(xué)家、數(shù)學(xué)家和認(rèn)知科學(xué)家,探討創(chuàng)造能夠模擬人類智能的機(jī)器的可能性。與會者包括馬文?明斯基、納撒尼爾?羅切斯特和克勞德?香農(nóng)等知名人士。下圖拍于馬文?明斯基、克勞德?香農(nóng)、雷?所羅門諾夫和其他科學(xué)家參加達(dá)特茅斯人工智能夏季研究項(xiàng)目。

1.1人工智能的演變:從基于規(guī)則的系統(tǒng)到深度學(xué)習(xí)

人工智能的演進(jìn)始于 20 世紀(jì) 50 年代,當(dāng)時(shí)出現(xiàn)了用于國際象棋和問題解決等任務(wù)的算法,第一個(gè)人工智能程序“邏輯理論家”于 1956 年誕生。20 世紀(jì) 60 年代和 70 年代出現(xiàn)了基于規(guī)則的專家系統(tǒng),例如 MYCIN,它可以協(xié)助復(fù)雜的決策過程。20 世紀(jì) 80 年代出現(xiàn)了機(jī)器學(xué)習(xí),它使人工智能系統(tǒng)能夠從數(shù)據(jù)中學(xué)習(xí)并不斷改進(jìn),為現(xiàn)代深度學(xué)習(xí)技術(shù)奠定了基礎(chǔ)。

 

如今,大多數(shù)尖端人工智能技術(shù)都由深度學(xué)習(xí)技術(shù)驅(qū)動,這些技術(shù)徹底改變了人工智能的格局。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支,它利用多層人工神經(jīng)網(wǎng)絡(luò)從原始輸入數(shù)據(jù)中提取復(fù)雜特征。本文將探討人工智能的歷史,并重點(diǎn)介紹深度學(xué)習(xí)在其發(fā)展過程中所扮演的角色。

2. 早期人工神經(jīng)網(wǎng)絡(luò)(20世紀(jì)40年代至60年代)

2.1 Muclloch-Pitts神經(jīng)元(1943年)

神經(jīng)網(wǎng)絡(luò)的概念可以追溯到 1943 年,當(dāng)時(shí) Warren McCulloch 和 Walter Pitts 提出了第一個(gè)人工神經(jīng)元模型。McCulloch-Pitts (MP) 神經(jīng)元模型是對生物神經(jīng)元的突破性簡化。該模型通過聚合二進(jìn)制輸入,并使用閾值激活函數(shù)基于該聚合結(jié)果進(jìn)行決策,最終得到二進(jìn)制輸出 {0, 1},從而奠定了人工神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)。

這個(gè)簡化的模型抓住了神經(jīng)元行為的本質(zhì)——接收多個(gè)輸入,對其進(jìn)行積分,并根據(jù)積分信號是否超過閾值產(chǎn)生二進(jìn)制輸出。盡管簡單,MP神經(jīng)元模型卻能夠?qū)崿F(xiàn)基本的邏輯運(yùn)算,展現(xiàn)了神經(jīng)計(jì)算的潛力。

2.2 Rosenblatt的感知器模型(1957)

1957 年,弗蘭克?羅森布拉特 (Frank Rosenblatt) 提出了感知器 (Perceptron),這是一種能夠?qū)W習(xí)和識別模式的單層神經(jīng)網(wǎng)絡(luò)。感知器模型是一種比 MP 神經(jīng)元更通用的計(jì)算模型,旨在處理實(shí)值輸入并調(diào)整權(quán)重以最小化分類誤差。

 

羅森布拉特還為感知器開發(fā)了一種監(jiān)督學(xué)習(xí)算法,使得網(wǎng)絡(luò)可以直接從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)。

羅森布拉特對感知器能力的雄心勃勃的宣稱,包括其識別個(gè)體和翻譯不同語言語音的潛力,在當(dāng)時(shí)引發(fā)了公眾對人工智能的濃厚興趣。感知器模型及其相關(guān)的學(xué)習(xí)算法標(biāo)志著神經(jīng)網(wǎng)絡(luò)演進(jìn)的重要里程碑。然而,一個(gè)關(guān)鍵的局限性很快顯現(xiàn)出來:感知器的學(xué)習(xí)規(guī)則在面對非線性可分離的訓(xùn)練數(shù)據(jù)時(shí)無法收斂。

2.3艾達(dá)琳 (1959)

1959年,Widrow 和 Hoff提出了ADALINE(自適應(yīng)線性神經(jīng)元,又稱 Delta 學(xué)習(xí)規(guī)則),這是對感知器學(xué)習(xí)規(guī)則的改進(jìn)。ADALINE 解決了二進(jìn)制輸出和噪聲敏感性等限制,并能夠?qū)W習(xí)和收斂非線性可分離數(shù)據(jù),這是神經(jīng)網(wǎng)絡(luò)發(fā)展的重大突破。 

ADALINE 的主要功能包括:

  • 線性激活函數(shù):與感知器的階躍函數(shù)不同,ADALINE 使用線性激活函數(shù),使其

  • 適用于回歸任務(wù)和連續(xù)輸出。

  • 最小均方 (LMS) 算法:ADALINE 采用LMS 算法,最大限度地減少預(yù)測輸出和實(shí)際輸出之間的均方誤差,從而提供更高效、更穩(wěn)定的學(xué)習(xí)過程。

  • 自適應(yīng)權(quán)重:LMS 算法根據(jù)輸出中的誤差自適應(yīng)地調(diào)整權(quán)重,使 ADALINE即使在存在噪聲的情況下也能有效地學(xué)習(xí)和收斂。

ADALINE 的推出標(biāo)志著神經(jīng)網(wǎng)絡(luò)第一個(gè)黃金時(shí)代的開啟,它克服了羅森布拉特感知器學(xué)習(xí)的局限性。這一突破實(shí)現(xiàn)了高效學(xué)習(xí)、連續(xù)輸出以及對噪聲數(shù)據(jù)的自適應(yīng),引發(fā)了該領(lǐng)域的創(chuàng)新浪潮和快速發(fā)展。 

然而,與感知器一樣,ADALINE 仍然局限于線性可分離問題,無法解決更復(fù)雜、更非線性的任務(wù)。這一局限性后來被 XOR 問題凸顯,從而催生了更高級的神經(jīng)網(wǎng)絡(luò)架構(gòu)。

2.4異或問題(1969)

1969年,馬文?明斯基(Marvin Minsky)和西摩?帕普特(Seymour Papert)在他們的著作《感知器》(Perceptrons)中強(qiáng)調(diào)了單層感知器的一個(gè)關(guān)鍵局限性。他們指出,由于感知器的決策邊界是線性的,它無法解決簡單的二分類任務(wù)——異或(XOR)問題。異或問題不是線性可分的,這意味著沒有任何一個(gè)線性邊界能夠正確地對所有輸入模式進(jìn)行分類。

這一發(fā)現(xiàn)凸顯了對能夠?qū)W習(xí)非線性決策邊界的更復(fù)雜神經(jīng)網(wǎng)絡(luò)架構(gòu)的需求。感知器局限性的暴露導(dǎo)致人們對神經(jīng)網(wǎng)絡(luò)失去信心,并轉(zhuǎn)向符號人工智能方法,標(biāo)志著從 20 世紀(jì) 70 年代初到 80 年代中期“神經(jīng)網(wǎng)絡(luò)的第一個(gè)黑暗時(shí)代”的開始。

然而,從解決異或問題中獲得的洞見使研究人員認(rèn)識到,需要更復(fù)雜的模型來捕捉非線性關(guān)系。這一認(rèn)識最終促成了多層感知器和其他先進(jìn)神經(jīng)網(wǎng)絡(luò)模型的發(fā)展,為未來幾十年神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的復(fù)興奠定了基礎(chǔ)。

3. 多層感知器(20世紀(jì)60年代)

多層感知器 (MLP) 于 20 世紀(jì) 60 年代問世,是對單層感知器的改進(jìn)。它由多層互連的神經(jīng)元組成,從而彌補(bǔ)了單層模型的局限性。蘇聯(lián)科學(xué)家AG Ivakhnenko 和 V. Lapa在感知器的基礎(chǔ)工作基礎(chǔ)上,為 MLP 的發(fā)展做出了重大貢獻(xiàn)。

3.1隱藏層

隱藏層的添加使 MLP 能夠捕獲并表示數(shù)據(jù)中復(fù)雜的非線性關(guān)系。這些隱藏層顯著增強(qiáng)了網(wǎng)絡(luò)的學(xué)習(xí)能力,使其能夠解決非線性可分的問題,例如異或問題。

3.2 MLP 的歷史背景和挑戰(zhàn)

MLP 標(biāo)志著神經(jīng)網(wǎng)絡(luò)研究的重大進(jìn)步,展現(xiàn)了深度學(xué)習(xí)架構(gòu)在解決復(fù)雜問題方面的潛力。然而,在 20 世紀(jì) 60 年代和 70 年代,MLP 的發(fā)展受到了以下幾個(gè)挑戰(zhàn)的阻礙:

  • 缺乏訓(xùn)練算法:早期的MLP模型缺乏有效的訓(xùn)練算法來調(diào)整網(wǎng)絡(luò)權(quán)重。缺乏反向傳播使得訓(xùn)練多層深度網(wǎng)絡(luò)變得困難。

  • 計(jì)算限制:當(dāng)時(shí)的計(jì)算能力不足以處理訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)所需的復(fù)雜計(jì)算。這一限制減緩了 MLP 研發(fā)的進(jìn)度。

神經(jīng)網(wǎng)絡(luò)的第一個(gè)黑暗時(shí)代于 1986 年隨著反向傳播算法的重新發(fā)現(xiàn)和發(fā)表而結(jié)束,從此開啟了神經(jīng)網(wǎng)絡(luò)的第二個(gè)黃金時(shí)代。

4. 反向傳播(1970年代-1980年代)

1969 年,異或問題凸顯了感知器(單層神經(jīng)網(wǎng)絡(luò))的局限性。研究人員意識到多層神經(jīng)網(wǎng)絡(luò)可以克服這些局限性,但他們?nèi)狈τ?xùn)練這些復(fù)雜網(wǎng)絡(luò)的實(shí)用算法。反向傳播算法歷時(shí) 17 年才得以開發(fā),使得神經(jīng)網(wǎng)絡(luò)能夠在理論上逼近任何函數(shù)。有趣的是,后來人們發(fā)現(xiàn),該算法實(shí)際上在其發(fā)表之前就已經(jīng)被發(fā)明出來了。如今,反向傳播是深度學(xué)習(xí)的一個(gè)基本組成部分,自 20 世紀(jì) 60 年代和 70 年代誕生以來,它經(jīng)歷了重大的進(jìn)步和完善。 

4.1早期發(fā)展(20 世紀(jì) 70 年代)

  • Seppo Linnainmaa(1970):引入了自動微分的概念,這是反向傳播算法的關(guān)鍵組成部分。

  • Paul Werbos (1974):提出使用微積分的鏈?zhǔn)椒▌t來計(jì)算誤差函數(shù)關(guān)于網(wǎng)絡(luò)權(quán)重的梯度,從而實(shí)現(xiàn)多層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。

4.2細(xì)化與普及(20世紀(jì)80年代)

  • David Rumelhart、Geoffrey Hinton 和 Ronald Williams (1986):提出反向傳播是一種訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的實(shí)用且有效的方法,并展示了其在各種問題中的應(yīng)用。 

4.3反向傳播的主要特點(diǎn):

  • 梯度下降:反向傳播與梯度下降結(jié)合使用,以最小化誤差函數(shù)。該算法計(jì)算網(wǎng)絡(luò)中每個(gè)權(quán)重的誤差梯度,從而允許迭代更新權(quán)重以減少誤差。

  • 鏈?zhǔn)椒▌t:反向傳播算法的核心是應(yīng)用微積分的鏈?zhǔn)椒▌t。該法則允許將誤差的梯度分解為一系列偏導(dǎo)數(shù),這些偏導(dǎo)數(shù)可以通過網(wǎng)絡(luò)的反向傳播有效地計(jì)算出來。

  • 分層計(jì)算:反向傳播以逐層的方式進(jìn)行,從輸出層開始,反向傳播到輸入層。這種分層計(jì)算確保梯度在網(wǎng)絡(luò)中正確傳播,從而實(shí)現(xiàn)深度架構(gòu)的訓(xùn)練。

4.4通用近似定理(1989)

喬治?西本科(George Cybenko)于 1989 年提出的通用近似定理,為多層神經(jīng)網(wǎng)絡(luò)的功能奠定了數(shù)學(xué)基礎(chǔ)。該定理指出,在給定足夠多的神經(jīng)元并使用非線性激活函數(shù)的情況下,具有單個(gè)隱藏層的前饋神經(jīng)網(wǎng)絡(luò)可以以任意精度逼近任何連續(xù)函數(shù)。該定理凸顯了神經(jīng)網(wǎng)絡(luò)的強(qiáng)大功能和靈活性,使其適用于廣泛的應(yīng)用。

具有單個(gè)隱藏層的多層神經(jīng)網(wǎng)絡(luò)可以將任何連續(xù)函數(shù)近似到任何所需的精度,從而能夠解決各個(gè)領(lǐng)域的復(fù)雜問題。

4.5第二個(gè)黃金時(shí)代(20 世紀(jì) 80 年代末 — 90 年代初)

反向傳播和通用逼近定理 (UAT) 的發(fā)展標(biāo)志著神經(jīng)網(wǎng)絡(luò)的第二個(gè)黃金時(shí)代的開始。反向傳播提供了一種訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)的有效方法,使研究人員能夠訓(xùn)練更深層、更復(fù)雜的模型。UAT 為多層神經(jīng)網(wǎng)絡(luò)的使用提供了理論依據(jù),并增強(qiáng)了人們對其解決復(fù)雜問題能力的信心。這一時(shí)期橫跨 20 世紀(jì) 80 年代末至 90 年代初,人們對該領(lǐng)域的興趣再次高漲,并取得了顯著的進(jìn)展。

4.6第二個(gè)黑暗時(shí)代(20 世紀(jì) 90 年代初 — 21 世紀(jì)初)

然而,由于以下幾個(gè)因素,神經(jīng)網(wǎng)絡(luò)領(lǐng)域在 20 世紀(jì) 90 年代初至 21 世紀(jì)初經(jīng)歷了“第二個(gè)黑暗時(shí)代”:

  • 支持向量機(jī)(SVM)的興起,為分類和回歸任務(wù)提供了一種數(shù)學(xué)上優(yōu)雅的方法。

  • 計(jì)算限制,因?yàn)橛?xùn)練深度神經(jīng)網(wǎng)絡(luò)仍然耗時(shí)且需要大量硬件。

  • 過度擬合和泛化問題,早期的神經(jīng)網(wǎng)絡(luò)在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,但在未知數(shù)據(jù)上表現(xiàn)不佳,這使得它們在實(shí)際應(yīng)用中不太可靠。

這些挑戰(zhàn)導(dǎo)致許多研究人員將注意力從神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)移,導(dǎo)致該領(lǐng)域陷入停滯。

 

4.7深度學(xué)習(xí)的復(fù)興(21 世紀(jì)初至今)

神經(jīng)網(wǎng)絡(luò)領(lǐng)域在 21 世紀(jì)末和 2010 年代初經(jīng)歷了一次復(fù)興,這得益于以下領(lǐng)域的進(jìn)步:

  • 深度學(xué)習(xí)架構(gòu)(CNN、RNN、Transformer、擴(kuò)散模型)

  • 硬件(GPU、TPU、LPU)

  • 大型數(shù)據(jù)集(ImageNet、COCO、OpenWebText、WikiText 等)

  • 訓(xùn)練算法(SGD、Adam、dropout)

這些進(jìn)步促成了計(jì)算機(jī)視覺、自然語言處理、語音識別和強(qiáng)化學(xué)習(xí)領(lǐng)域的重大突破。通用近似定理與實(shí)踐進(jìn)步相結(jié)合,為深度學(xué)習(xí)技術(shù)的廣泛應(yīng)用和成功鋪平了道路。

5. 卷積神經(jīng)網(wǎng)絡(luò)(1980 年代 - 2010 年代)

卷積神經(jīng)網(wǎng)絡(luò) (CNN) 極大地改變了深度學(xué)習(xí)的格局,尤其是在計(jì)算機(jī)視覺和圖像處理領(lǐng)域。從 20 世紀(jì) 80 年代到 2010 年代,CNN 的發(fā)展反映了其在架構(gòu)、訓(xùn)練技術(shù)和應(yīng)用方面的顯著進(jìn)步。

5.1早期發(fā)展(1989-1998)

CNN 的概念最早由福島健二 (Kenji Fukushima) 在 20 世紀(jì) 80 年代提出,他提出了Neocognitron,這是一種模仿人類視覺皮層結(jié)構(gòu)的分層神經(jīng)網(wǎng)絡(luò)。這項(xiàng)開創(chuàng)性的工作為 CNN 的發(fā)展奠定了基礎(chǔ)。20 世紀(jì) 80 年代末到 90 年代初,Yann LeCun 和他的團(tuán)隊(duì)進(jìn)一步開發(fā)了 CNN,推出了專為手寫數(shù)字識別而設(shè)計(jì)的LeNet-5架構(gòu)。

5.2 CNN 的關(guān)鍵組件

CNN 由三個(gè)關(guān)鍵組件構(gòu)成:

1.  卷積層:這些層通過應(yīng)用一組可學(xué)習(xí)的過濾器自動從輸入圖像中學(xué)習(xí)特征的空間層次結(jié)

構(gòu)。

2. 池化層:池化層減少了輸入的空間維度,增強(qiáng)了對變化的魯棒性并降低了計(jì)算負(fù)荷。

3. 全連接層:在卷積層和池化層之后,全連接層用于分類任務(wù),整合從先前層學(xué)習(xí)到的特

征。

5.3 CNN 的主要特點(diǎn)

  • 局部感受野:CNN 使用局部感受野來捕獲輸入數(shù)據(jù)中的局部模式,使其對于圖像和視覺任務(wù)非常有效。

  • 共享權(quán)重:在卷積層中使用共享權(quán)重可以減少網(wǎng)絡(luò)中的參數(shù)數(shù)量,從而提高效率并更易于訓(xùn)練。

  • 平移不變性:池化層引入了平移不變性,使得網(wǎng)絡(luò)能夠識別模式,而不管其在輸入圖像中的位置如何。

5.4 CNN 的興起:AlexNet 的影響(2012 年)

2012年,CNN發(fā)展迎來了重要的里程碑,AlexNet在ImageNet大規(guī)模視覺識別挑戰(zhàn)賽(ILSVRC)中取得巨大勝利,取得了顯著的勝利優(yōu)勢,標(biāo)志著圖像分類領(lǐng)域取得了重大突破。 下面是AlexNet 的架構(gòu)(2012): 

ILSVRC 是一項(xiàng)年度圖像識別基準(zhǔn)測試,其基于超過 1000 萬張帶注釋圖像的數(shù)據(jù)集評估算法,這些圖像被分為 1000 個(gè)類別。AlexNet 的創(chuàng)新包括:

1. ReLU 激活函數(shù):ReLU 的引入是為了克服傳統(tǒng)激活函數(shù)的問題,它可以加快訓(xùn)練速度

并提高性能。

2. 丟棄正則化:該技術(shù)通過在訓(xùn)練期間隨機(jī)丟棄單元來減少過度擬合。

3.   數(shù)據(jù)增強(qiáng):通過人為增加訓(xùn)練數(shù)據(jù)的多樣性,對訓(xùn)練數(shù)據(jù)集的增強(qiáng)提高了泛化能力。

AlexNet 的成功標(biāo)志著 CNN 發(fā)展的一個(gè)轉(zhuǎn)折點(diǎn),為圖像分類和物體檢測的進(jìn)一步發(fā)展鋪平了道路。

AlexNet 開啟神經(jīng)網(wǎng)絡(luò)的第三個(gè)黃金時(shí)代:

 

當(dāng)前的黃金時(shí)代(2010 年代至今)以深度學(xué)習(xí)、大數(shù)據(jù)和強(qiáng)大計(jì)算平臺的融合為標(biāo)志。這個(gè)時(shí)代見證了圖像識別、自然語言處理和機(jī)器人技術(shù)方面的顯著突破。持續(xù)進(jìn)行的研究不斷突破人工智能能力的界限。

5.5后續(xù)架構(gòu)

繼 AlexNet 之后,出現(xiàn)了幾種有影響力的架構(gòu):

  • VGGNet(2014):VGGNet 由牛津大學(xué)視覺幾何小組開發(fā),強(qiáng)調(diào)更深的架構(gòu)和更小的卷積濾波器(3x3),實(shí)現(xiàn)了顯著的準(zhǔn)確性。

  • GoogLeNet/Inception(2014):引入了 Inception 模塊,使網(wǎng)絡(luò)能夠有效地捕獲多尺度特征。

  • ResNet(2015):殘差網(wǎng)絡(luò)引入了跳過連接,使得非常深的網(wǎng)絡(luò)訓(xùn)練成為可能,同時(shí)緩解了梯度消失問題。

5.6 CNN 的應(yīng)用

CNN 的進(jìn)步徹底改變了各個(gè)領(lǐng)域:

  • 計(jì)算機(jī)視覺:CNN 已成為現(xiàn)代計(jì)算機(jī)視覺的支柱,推動了圖像分類、對象檢測和語義分割方面的突破。

  • 醫(yī)學(xué)成像:CNN 用于疾病診斷、腫瘤檢測和圖像引導(dǎo)手術(shù)等任務(wù),顯著提高診斷準(zhǔn)確性。

  • 自動駕駛汽車:CNN 是自動駕駛汽車感知系統(tǒng)不可或缺的一部分,使它們能夠解釋和響應(yīng)周圍環(huán)境

下圖展示了CNN 的計(jì)算機(jī)視覺應(yīng)用。 

CNN 從誕生到如今成為深度學(xué)習(xí)基石的歷程,展現(xiàn)了其對人工智能的深遠(yuǎn)影響。CNN 的成功也為深度學(xué)習(xí)的進(jìn)一步發(fā)展鋪平了道路,并啟發(fā)了其他專用神經(jīng)網(wǎng)絡(luò)架構(gòu)(例如 RNN 和 Transformer)的發(fā)展。CNN 的理論基礎(chǔ)和實(shí)踐創(chuàng)新,為深度學(xué)習(xí)技術(shù)在各個(gè)領(lǐng)域的廣泛應(yīng)用和成功做出了重要貢獻(xiàn)。

6. 循環(huán)神經(jīng)網(wǎng)絡(luò)(1986-2017)

循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) 旨在處理序列數(shù)據(jù)。與傳統(tǒng)的前饋網(wǎng)絡(luò)(又稱多層感知器 (MLP))不同,RNN 會維護(hù)內(nèi)部隱藏狀態(tài)或“記憶”,從而能夠捕捉序列元素之間的時(shí)間依賴關(guān)系。這使得 RNN 在語言建模、時(shí)間序列預(yù)測和語音識別等任務(wù)中尤為有效。

6.1早期發(fā)展(20 世紀(jì) 80 年代至 90 年代)

RNN 的概念可以追溯到 20 世紀(jì) 80 年代,像 John Hopfield、Michael I. Jordan 和 Jeffrey L. Elman 這樣的先驅(qū)為這些網(wǎng)絡(luò)的發(fā)展做出了貢獻(xiàn)。John Hopfield 于 1982 年提出的 Hopfield 網(wǎng)絡(luò)為理解神經(jīng)網(wǎng)絡(luò)中的循環(huán)連接奠定了基礎(chǔ)。Jordan 網(wǎng)絡(luò)和 Elman 網(wǎng)絡(luò)分別于 20 世紀(jì) 80 年代和 90 年代提出,是捕捉序列數(shù)據(jù)中時(shí)間依賴關(guān)系的早期嘗試。

RNN 使用時(shí)間反向傳播 (BPTT) 進(jìn)行訓(xùn)練,這是用于前饋網(wǎng)絡(luò)的標(biāo)準(zhǔn)反向傳播算法的擴(kuò)展。BPTT 涉及隨時(shí)間展開網(wǎng)絡(luò),將每個(gè)時(shí)間步視為一個(gè)層。在前向傳播過程中,處理輸入序列,并在輸出層計(jì)算誤差。然后將得到的梯度從最后一個(gè)時(shí)間步反向傳播到第一個(gè)時(shí)間步,更新 RNN 的參數(shù)。然而,由于梯度消失問題,RNN 難以學(xué)習(xí)長時(shí)間依賴性,在這種情況下,梯度會變得非常小,導(dǎo)致無法學(xué)習(xí)。相反,梯度可能會變得過大,導(dǎo)致訓(xùn)練不穩(wěn)定,這被稱為梯度爆炸問題。

6.2 LSTM、GRU 和 Seq2Seq 模型(1997 年至 2014 年)

  • 長短期記憶網(wǎng)絡(luò) (LSTM) (1997):Sepp Hochreiter 和 Jürgen Schmidhuber 提出了 LSTM 網(wǎng)絡(luò)來解決傳統(tǒng) RNN 中的梯度消失問題。LSTM 使用門控機(jī)制來控制信息流,使其能夠捕獲序列數(shù)據(jù)中的長期依賴關(guān)系。它由單元狀態(tài)(存儲長期信息)、隱藏狀態(tài)(承載當(dāng)前時(shí)間步的短期輸出)和三個(gè)門控(輸入門、遺忘門、輸出門)組成。在每一步中,LSTM 都會基于多個(gè)數(shù)學(xué)運(yùn)算和門控來決定需要遺忘多少信息、需要將多少信息添加到單元狀態(tài)以及需要將多少信息輸出到下一步。

 

  • 門控循環(huán)單元 (GRU) (2014):Kyunghyun Cho 等人提出了 GRU,它是 LSTM 的精簡版本,也采用門控機(jī)制來調(diào)節(jié)信息流。與具有三個(gè)門和兩個(gè)狀態(tài)的 LSTM 不同,GRU 僅使用兩個(gè)門和一個(gè)狀態(tài)。LSTM 的遺忘門和輸入門合并為一個(gè)更新門,該更新門決定保留多少過去信息以及合并多少新信息。此外,LSTM 的輸出門在 GRU 中被重置門取代,重置門決定在整合新信息之前需要“重置”或遺忘多少過去信息。GRU 的參數(shù)比 LSTM 少,因此訓(xùn)練速度通常更快。

  • 序列到序列模型(Seq2Seq) (2014):Ilya Sutskever 和他的團(tuán)隊(duì)提出了 Seq2Seq 模型,該模型使用編碼器-解碼器架構(gòu)將輸入序列映射到輸出序列。該模型已廣泛應(yīng)用于機(jī)器翻譯、語音識別和文本摘要等任務(wù)。

下面是使用 LSTM 的序列到序列模型的編碼器-解碼器架構(gòu): 

6.3 RNN應(yīng)用

RNN 對各個(gè)領(lǐng)域產(chǎn)生了重大影響,包括:

1. 自然語言處理:RNN 徹底改變了自然語言處理領(lǐng)域,使得語言建模、機(jī)器翻譯、情感分析和文本生成等任務(wù)取得了重大進(jìn)步。

2. 語音識別:RNN 廣泛應(yīng)用于語音識別系統(tǒng),它們對口語中的時(shí)間依賴性進(jìn)行建模,將語音信號轉(zhuǎn)換為文本。

3. 時(shí)間序列預(yù)測:RNN 對于時(shí)間序列預(yù)測非常有效,它們對序列數(shù)據(jù)中的時(shí)間依賴性進(jìn)行建模以預(yù)測未來值。

2016年,谷歌翻譯改用神經(jīng)機(jī)器翻譯系統(tǒng),大大提高了翻譯質(zhì)量。

6.4 RNN 的挑戰(zhàn)

盡管 RNN 取得了成功,但它仍面臨一些挑戰(zhàn):

  • 梯度消失和梯度爆炸:盡管 LSTM 和 GRU 提供了一些解決方案,但傳統(tǒng)的 RNN 仍難以解決這些問題。

  • 計(jì)算復(fù)雜性:訓(xùn)練 RNN 可能需要大量資源,尤其是在處理大型數(shù)據(jù)集時(shí)。

  • 并行化:RNN 的順序特性使得并行訓(xùn)練和推理過程變得復(fù)雜。

RNN 的成功為深度學(xué)習(xí)的進(jìn)一步發(fā)展鋪平了道路,并激發(fā)了其他專用神經(jīng)網(wǎng)絡(luò)架構(gòu)(例如 Transformer)的發(fā)展,這些架構(gòu)在各種序列數(shù)據(jù)任務(wù)中都取得了卓越的性能。RNN 的理論基礎(chǔ)和實(shí)踐創(chuàng)新為深度學(xué)習(xí)技術(shù)在各個(gè)領(lǐng)域的廣泛應(yīng)用和成功做出了重要貢獻(xiàn)。

7. 《變形金剛》(2017年至今)

Transformer 憑借其出色的處理序列數(shù)據(jù)的能力改變了深度學(xué)習(xí)的格局,成為從自然語言處理 (NLP) 到計(jì)算機(jī)視覺等許多領(lǐng)域的關(guān)鍵。

7.1 Transformer簡介(2017)

Transformer 模型由Vaswani 等人(2017) 在開創(chuàng)性論文《Attention is All You Need 》中提出。該模型放棄了傳統(tǒng)的 RNN 順序處理,轉(zhuǎn)而采用自注意力機(jī)制,從而實(shí)現(xiàn)并行處理并更好地處理長距離依賴關(guān)系。下圖是自注意力機(jī)制:

7.2 Transformer 的主要特性

  • 自注意力機(jī)制:允許序列中的每個(gè)位置關(guān)注所有位置,比 RNN 或 LSTM 更靈活地捕捉上下文。

  • 并行化:通過同時(shí)處理所有輸入數(shù)據(jù)來提高訓(xùn)練速度,這與 RNN 的順序性形成鮮明對比。

  • 編碼器-解碼器結(jié)構(gòu):編碼器和解碼器堆棧都利用自注意力和前饋神經(jīng)網(wǎng)絡(luò)層,并使用位置編碼來維持序列順序。

下面是具有編碼器-解碼器結(jié)構(gòu)和多頭注意力機(jī)制的原始 Transformer 架構(gòu): 

下面是基于 Transformer 的語言模型: 

7.3基于 Transformer 的語言模型(2017 年至今)

  • BERT(2018): Transformers 的雙向編碼器表示,一種僅編碼器的 Transformer,通過對掩碼語言建模(masked language modeling)和下一句預(yù)測進(jìn)行預(yù)訓(xùn)練,徹底改變了 NLP。

  • T5(2019):文本到文本傳輸轉(zhuǎn)換器,一種編碼器-解碼器轉(zhuǎn)換器,將 NLP 任務(wù)重新定義為文本到文本的格式,簡化了模型架構(gòu)和訓(xùn)練。

 

 

上圖是BERT 和GTP 與 T5的對比。

7.3.1 OpenAI GPT 系列概述

OpenAI 的生成式預(yù)訓(xùn)練 Transformer (GPT) 系列自 2018 年誕生以來,顯著推動了自然語言處理 (NLP) 領(lǐng)域的發(fā)展。每次迭代都建立在上一次迭代的基礎(chǔ)上,引入了更強(qiáng)大的模型和更強(qiáng)大的功能。以下是每個(gè)版本的詳細(xì)概述。

GPT 的自回歸語言模型架構(gòu)旨在根據(jù)輸入的前一個(gè)標(biāo)記來預(yù)測序列中的下一個(gè)標(biāo)記。

  • GPT(2018):最初的 GPT 模型于 2018 年推出,是一個(gè)自回歸解碼器專用 Transformer,擁有1.17 億個(gè)參數(shù)。它旨在預(yù)測序列中的下一個(gè)標(biāo)記(子詞),展現(xiàn)出強(qiáng)大的理解和生成類人文本的能力。這一基礎(chǔ)模型為生成式語言模型的后續(xù)發(fā)展奠定了基礎(chǔ),展現(xiàn)了在大型文本語料庫中進(jìn)行無監(jiān)督學(xué)習(xí)的潛力。

  • GPT-2 (2019): GPT-2 于 2019 年發(fā)布,標(biāo)志著模型規(guī)模和能力的顯著飛躍,可擴(kuò)展至15 億個(gè)參數(shù)。該版本展現(xiàn)出了一些新興能力,例如零樣本任務(wù)性能,即無需專門訓(xùn)練即可執(zhí)行任務(wù)。然而,它能夠生成連貫但有時(shí)具有誤導(dǎo)性的文本,這引發(fā)了人們對其潛在濫用的倫理擔(dān)憂,尤其是在生成虛假新聞或虛假信息方面。

  • GPT-3 (2020): GPT-3 于 2020 年發(fā)布,其模型規(guī)模進(jìn)一步擴(kuò)展至令人印象深刻的1750 億個(gè)參數(shù)。該模型在少樣本學(xué)習(xí)方面展現(xiàn)出卓越的能力,能夠基于提示期間提供的少量示例適應(yīng)各種任務(wù)。它能夠生成類似人類的文本,使其成為內(nèi)容創(chuàng)作、編碼輔助和對話代理等眾多應(yīng)用的多功能工具。GPT-3 的架構(gòu)使其無需進(jìn)行大量微調(diào)即可執(zhí)行各種 NLP 任務(wù),鞏固了其作為當(dāng)時(shí)最強(qiáng)大的語言模型之一的地位。

  • ChatGPT(2022):經(jīng)過微調(diào)的 GPT-3.5 模型,通過人類反饋強(qiáng)化學(xué)習(xí) (RLHF) 針對多輪對話進(jìn)行了優(yōu)化,擅長處理后續(xù)問題和維護(hù)上下文,通過指令調(diào)整和偏好數(shù)據(jù)使響應(yīng)與用戶意圖保持一致。

高級大型語言模型 (LLM) 訓(xùn)練流程涉及預(yù)訓(xùn)練、指令調(diào)整和偏好調(diào)整的組合,使用人類反饋強(qiáng)化學(xué)習(xí) (RLHF) 或直接偏好優(yōu)化 (DPO)。

  • GPT-4(2023):最新版本的 GPT-4 于 2023 年發(fā)布,延續(xù)了功能和參數(shù)擴(kuò)展的趨勢,盡管目前有關(guān)其架構(gòu)和參數(shù)數(shù)量的具體細(xì)節(jié)尚未完全公開披露。預(yù)計(jì)它將進(jìn)一步提升先前模型的性能,尤其是在推理和理解復(fù)雜情境等領(lǐng)域。 

詳見https://klu.ai/glossary/large-language-model 。

7.4其他著名的大型語言模型(LLM)

大型語言模型 (LLM) 的領(lǐng)域因各種杰出模型而得到了顯著豐富,每種模型都提供了獨(dú)特的功能,并在人工智能領(lǐng)域取得了進(jìn)步。以下是一些知名 LLM 的最新概述:

  • Anthropic 的 Claude (2022):優(yōu)先考慮人工智能輸出的安全性和道德考慮,旨在與人類價(jià)值觀保持一致。

  • Meta 的 LLaMA(2023):為不同的計(jì)算需求提供不同大小的模型,在自然語言處理基準(zhǔn)測試中取得了令人印象深刻的成果。

  • Mistral.AI 的 Mistral (2023):平衡高性能和資源效率,非常適合實(shí)時(shí)應(yīng)用,專注于開源 AI 解決方案。

  • 阿里巴巴的Qwen(2023年):為英語和中文創(chuàng)建高質(zhì)量的雙語人工智能模型,促進(jìn)跨語言應(yīng)用并鼓勵(lì)創(chuàng)新。

  • 微軟的 Phi(2023 年):強(qiáng)調(diào)跨各種應(yīng)用程序的多功能性和集成性,并具有用于情境理解和用戶交互的高級培訓(xùn)技術(shù)。

  • Google 的 Gemma 系列(2024 年):輕量級、最先進(jìn)的開放模型,適用于各種應(yīng)用,包括文本生成、摘要和提取,重點(diǎn)關(guān)注性能和效率。

詳見https://www.analyticsvidhya.com/blog/2023/07/build-your-own-large-language-models/

 

詳見https://medium.com/towards-data-science/fine-tune-llama-3-1-ultra-efficiently-with-unsloth-7196c7165bab,此外,此文沒有包括后起之秀的中國大模型DeepSeak。關(guān)于更詳細(xì)的內(nèi)容請關(guān)注待發(fā)布的另一篇文章《大模型簡史》。

8. 多模態(tài)模型(2023年至今)

8.1 GPT-4V (2023) 和 GPT-4o (2024)

  • GPT-4V(2023)將多模態(tài)功能集成到本已強(qiáng)大的基于文本的模型中,標(biāo)志著人工智能發(fā)展邁出了重要一步。它不僅可以處理和生成文本內(nèi)容,還可以處理和生成圖像內(nèi)容,為更全面的人工智能交互奠定了基礎(chǔ)。

 

  • GPT-4o (2024)是 GPT-4V 的演進(jìn)版,它增強(qiáng)了多模態(tài)集成能力,并具備復(fù)雜的語境理解能力。相比前代產(chǎn)品,GPT-4o 的改進(jìn)之處在于:在不同媒體之間實(shí)現(xiàn)了更佳的連貫性,能夠根據(jù)文本提示生成高級圖像,并基于視覺輸入進(jìn)行精細(xì)推理。此外,GPT-4o 還包含先進(jìn)的倫理道德訓(xùn)練機(jī)制,確保其輸出不僅準(zhǔn)確,而且負(fù)責(zé)任,符合人類價(jià)值觀。

8.2谷歌的 Gemini(2023 年至今)

  • Gemini Pro (2023):谷歌 Gemini 推出了一系列專為多模態(tài)任務(wù)設(shè)計(jì)的模型,集成了文本、圖像、音頻和視頻處理功能。Gemini Pro 尤其以其可擴(kuò)展性和效率而著稱,使高級 AI 能夠應(yīng)用于各種應(yīng)用,從實(shí)時(shí)分析到跨不同媒體格式的復(fù)雜內(nèi)容生成。

  • Gemini 的多模態(tài)能力:Gemini 模型(包括適用于不同規(guī)模應(yīng)用的 Ultra 和 Nano 版本)旨在執(zhí)行需要理解多種數(shù)據(jù)類型的任務(wù)。它們在視頻摘要、多模態(tài)翻譯和交互式學(xué)習(xí)環(huán)境等任務(wù)中表現(xiàn)出色,彰顯了 Google 致力于提升 AI 在多媒體環(huán)境中地位的決心。

8.2 Claude 3.0 和 Claude 3.5(2023 年至今)

  • Claude 3.0(2023)由 Anthropic 推出,該模型專注于增強(qiáng)人工智能響應(yīng)的安全性和可靠性,并改進(jìn)了情境理解和倫理考量。它旨在提高對話性和實(shí)用性,同時(shí)嚴(yán)格避免產(chǎn)生有害或帶有偏見的輸出。

  • Claude 3.5(2024)進(jìn)一步完善了 Claude 3.0 的功能,使其在復(fù)雜任務(wù)中表現(xiàn)更佳,處理效率更高,用戶請求的處理也更加細(xì)致入微。此版本也強(qiáng)調(diào)了多模態(tài)交互,盡管它主要擅長文本和邏輯任務(wù),但其在處理視覺或其他感官輸入方面也逐漸增強(qiáng),從而帶來更加集成的用戶體驗(yàn)。

8.3 LLaVA(2023年)

LLaVA(大型語言和視覺助手)代表了一種創(chuàng)新的多模態(tài)人工智能方法,它將語言理解與視覺處理相結(jié)合。LLaVA 于 2023 年開發(fā),能夠解讀圖像并將其與文本內(nèi)容關(guān)聯(lián)起來,從而能夠回答關(guān)于圖像的問題、描述視覺內(nèi)容,甚至根據(jù)視覺線索生成文本。其架構(gòu)充分利用了 Transformer 模型的優(yōu)勢,在需要視覺和語言理解的任務(wù)中實(shí)現(xiàn)了最佳性能。該模型因其開源特性而備受矚目,這將鼓勵(lì)人們在多模態(tài)人工智能應(yīng)用方面進(jìn)行進(jìn)一步的研究和開發(fā)。下圖描繪了LLaVA的架構(gòu)。

這些模型共同標(biāo)志著人工智能系統(tǒng)向著新的方向發(fā)展:它不僅能夠理解和生成文本,還能跨多種模態(tài)解釋和創(chuàng)作內(nèi)容,從而更貼近人類的認(rèn)知能力。人工智能模型的這種演進(jìn)將催生更具交互性、更直觀的應(yīng)用程序,并使其能夠通過融合不同的感官輸入來處理現(xiàn)實(shí)世界的場景,從而拓展人工智能在日常生活、研究和行業(yè)應(yīng)用中的潛力。

9. 擴(kuò)散模型(2015年至今)

擴(kuò)散模型已成為一類頗具影響力的生成模型,它提供了一種從復(fù)雜數(shù)據(jù)分布中創(chuàng)建高保真樣本的全新方法。與 GAN 和 VAE 等傳統(tǒng)模型相比,擴(kuò)散模型采用了一種漸進(jìn)式去噪技術(shù),該技術(shù)在眾多應(yīng)用中均表現(xiàn)出色。

9.1擴(kuò)散模型簡介(2015)

Sohl-Dickstein 等人(2015)在其論文中引入了擴(kuò)散模型,奠定了基礎(chǔ)。他們概念化了一個(gè)生成過程,通過逆轉(zhuǎn)逐漸添加的噪聲,可以將噪聲重新轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)。

 

9.2擴(kuò)散模型的主要特征

  • 去噪過程:這些模型逐步添加噪聲(前向過程)并學(xué)習(xí)逆轉(zhuǎn)這一過程(后向過程),從而有效地去噪以生成樣本。

  • 馬爾可夫鏈:這兩個(gè)過程都以馬爾可夫鏈的形式構(gòu)建,每個(gè)前向步驟都會添加高斯噪聲,模型會反向?qū)W習(xí)消除這些噪聲。

  • 訓(xùn)練目標(biāo):目標(biāo)是最小化每一步預(yù)測噪聲和實(shí)際噪聲之間的差異,優(yōu)化證據(jù)下限(ELBO)的形式。

  • 穩(wěn)定性和魯棒性:它們比 GAN 具有更好的穩(wěn)定性,避免了模式崩潰等問題,從而持續(xù)生成多樣化、高質(zhì)量的輸出。

9.3擴(kuò)散模型的進(jìn)展(2020 年至今)

  • 去噪擴(kuò)散概率模型 (DDPM) (2020):改進(jìn)了擴(kuò)散過程,為圖像合成設(shè)定了新的基準(zhǔn)。

  • 去噪擴(kuò)散隱式模型 (DDIM) (2021):通過非馬爾可夫采樣提高效率,使生成過程更加靈活。

  • 基于分?jǐn)?shù)的隨機(jī)微分方程生成模型(2021):利用隨機(jī)微分方程進(jìn)行有效的樣本生成。

  • 潛在擴(kuò)散模型(2022):成為穩(wěn)定擴(kuò)散等流行的文本到圖像生成系統(tǒng)的基礎(chǔ),顯著推動了人工智能生成圖像領(lǐng)域的發(fā)展,并為更易于訪問和高效的生成人工智能工具鋪平了道路。

9.3文本到圖像生成

  • DALL-E 3 和 Stable Diffusion 3 等模型擅長根據(jù)文本描述生成高質(zhì)量圖像,其中 DALL-E 3 提供詳細(xì)而準(zhǔn)確的視覺效果,而 Stable Diffusion 則提供一種開源替代方案,使圖像生成技術(shù)的訪問更加民主化。

 

來源:https://generativeai.pub/dall-e-3-vs-midjourney-5-2-vs-stable-xl-same-prompt-different-resultsa68ae19b223e 

  • FLUX.1 (2024):黑森林實(shí)驗(yàn)室發(fā)布了 FLUX.1,這是一款用于 AI 圖像生成的先進(jìn)擴(kuò)散模型,提供卓越的速度、質(zhì)量和快速執(zhí)行。FLUX.1 提供三個(gè)版本——Schnell、Dev 和 Pro,并利用 Rectified Flow Transformers 等創(chuàng)新技術(shù)來生成高度逼真的圖像。FLUX.1 可以生成文本并處理手指和腳趾等細(xì)節(jié)——具備優(yōu)秀圖像生成器所需的一切。

上圖是一張由 FLUX.1 Shenell 模型生成的圖像,上面畫著一個(gè)簡單的“側(cè)面寫著 FLUX.1 的咖啡杯”。這張高質(zhì)量的咖啡杯圖像清晰可見“FLUX.1”字樣,展現(xiàn)了 FLUX.1 生成文本的能力。

  • DreamBooth(2022):能夠在特定主題的少量圖像上訓(xùn)練擴(kuò)散模型,從而實(shí)現(xiàn)個(gè)性化圖像生成。

  • LoRA(2022):低秩自適應(yīng) (Low-Rank Adaptation) 是一種允許使用最少的附加參數(shù)對擴(kuò)散模型進(jìn)行微調(diào)的技術(shù),從而使模型更容易適應(yīng)特定任務(wù)或數(shù)據(jù)集。

 

上圖是單概念生成的定性比較。左欄顯示每個(gè)概念的參考圖像。基于 LoRA 的方法在保真度方面優(yōu)于自定義擴(kuò)散。此外,正交自適應(yīng)和 SBoRA 表現(xiàn)出與混合展示相當(dāng)?shù)男阅?,同時(shí)還引入了正交約束,這在多概念場景中具有優(yōu)勢。

  • ControlNet(2023):根據(jù)草圖或深度圖等附加輸入對擴(kuò)散模型進(jìn)行條件化,從而對生成的圖像提供更多控制。利用帶有姿勢控制的 ControlNet 實(shí)現(xiàn)穩(wěn)定擴(kuò)散(見下圖)

  • Multi-SBoRA (2024):Multi-SBoRA 是一種針對多概念定制擴(kuò)散模型的新方法。它使用正交標(biāo)準(zhǔn)基向量構(gòu)建低秩矩陣進(jìn)行微調(diào),從而實(shí)現(xiàn)區(qū)域和非重疊權(quán)重更新,從而減少跨概念干擾。這種方法保留了預(yù)訓(xùn)練模型的知識,降低了計(jì)算開銷,并增強(qiáng)了模型靈活性。實(shí)驗(yàn)結(jié)果表明,Multi-SBoRA 在多概念定制方面取得了最優(yōu)性能,同時(shí)保持了獨(dú)立性并減輕了串?dāng)_效應(yīng)。

上圖展現(xiàn)了多概念生成的定性比較。結(jié)果分為三種情況:(1)角色生成,(2)物體生成,以及(3)角色和物體組合生成。每個(gè)概念的參考圖像顯示在上行。缺乏正交設(shè)計(jì)的方法(例如自定義擴(kuò)散和混合顯示)表現(xiàn)出概念身份的顯著損失,尤其是在面部特征復(fù)雜的角色中。正交自適應(yīng)方法展現(xiàn)出更好的身份保留效果,但可能會損害模型的整體知識,導(dǎo)致模型崩潰。相比之下,我們提出的方法取得了卓越的效果,有效地保留了每個(gè)概念的身份,同時(shí)確保了更穩(wěn)定的生成。

擴(kuò)散模型研究的軌跡預(yù)示著光明的未來,集成模型有可能結(jié)合各種人工智能架構(gòu)的優(yōu)勢,同時(shí)優(yōu)化速度和質(zhì)量。

9.4文本轉(zhuǎn)視頻:OpenAI Sora(2024年)

OpenAI Sora 是一個(gè)全新的文本轉(zhuǎn)視頻生成模型,擴(kuò)展了 OpenAI 多模態(tài) AI 產(chǎn)品的功能。該模型允許用戶根據(jù)文本描述創(chuàng)建視頻,有效地彌合文本與動態(tài)視覺內(nèi)容之間的鴻溝。Sora 與多模態(tài)框架的集成增強(qiáng)了創(chuàng)意應(yīng)用的潛力,使用戶能夠以最少的輸入生成豐富的多媒體內(nèi)容。這一進(jìn)展標(biāo)志著我們朝著更直觀、更具交互性的 AI 系統(tǒng)邁出了重要一步,這些系統(tǒng)能夠理解和生成復(fù)雜的媒體形式。

10.  結(jié)論

人工智能和深度學(xué)習(xí)的發(fā)展史充滿了重大進(jìn)步和變革性創(chuàng)新。 從早期的神經(jīng)網(wǎng)絡(luò)到如今復(fù)雜的架構(gòu),例如卷積神經(jīng)網(wǎng)絡(luò) (CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN)、Transformer 和擴(kuò)散模型,該領(lǐng)域已經(jīng)徹底改變了各個(gè)領(lǐng)域。

近期的進(jìn)展推動了大型語言模型 (LLM) 和大型多模態(tài)模型 (LMM) 的發(fā)展,例如 OpenAI 的 GPT-4o、谷歌的 Gemini Pro、Antropic 的 Claude 3.5 Sonnet 和 Meta 的 LLaMA3.1,它們展現(xiàn)了卓越的自然語言和多模態(tài)能力。此外,生成式人工智能 (包括文本轉(zhuǎn)圖像和文本轉(zhuǎn)視頻生成模型,例如 Midjourney、DALL-E 3、Stable Diffusion、FLUX.1 和 Sora) 的突破,拓展了人工智能的創(chuàng)造潛力。

擴(kuò)散模型也已成為功能強(qiáng)大的生成模型,擁有廣泛的應(yīng)用前景。隨著研究持續(xù)聚焦于開發(fā)更高效、更易解釋、更強(qiáng)大的模型,人工智能和深度學(xué)習(xí)對社會和技術(shù)的影響將與日俱增。這些進(jìn)步正在推動傳統(tǒng)領(lǐng)域的創(chuàng)新,并為創(chuàng)造性表達(dá)、問題解決以及人機(jī)協(xié)作創(chuàng)造新的可能性。

然而,深度學(xué)習(xí)并非人工智能的唯一或最佳方法。符號人工智能、強(qiáng)化學(xué)習(xí)和神經(jīng)符號人工智能各有其獨(dú)特的優(yōu)勢,并彌補(bǔ)了深度學(xué)習(xí)的局限性,例如可解釋性和計(jì)算資源需求。對人工智能的全面審視應(yīng)該涵蓋這些不同的方法論。

人工智能的未來在于多種方法的協(xié)同作用。隨著研究的不斷進(jìn)步,構(gòu)建多元化的人工智能技術(shù)生態(tài)系統(tǒng)將確保其均衡有效的演進(jìn),造福社會和技術(shù)發(fā)展。

編后注: 本文既然是簡史,它只包含了人工智能和深度學(xué)習(xí)發(fā)展史上的重要里程碑。同時(shí)它也缺乏介紹中國人工智能科學(xué)家的一些貢獻(xiàn)。但該文仍不愧為一份珍貴的學(xué)習(xí)資料。


免責(zé)聲明:羅戈網(wǎng)對轉(zhuǎn)載、分享、陳述、觀點(diǎn)、圖片、視頻保持中立,目的僅在于傳遞更多信息,版權(quán)歸原作者。如無意中侵犯了您的版權(quán),請第一時(shí)間聯(lián)系,核實(shí)后,我們將立即更正或刪除有關(guān)內(nèi)容,謝謝!
上一篇:怡亞通與蘇州相城區(qū)攜手共建產(chǎn)業(yè)供應(yīng)鏈綜合服務(wù)平臺
下一篇:京東工業(yè)與音飛儲存達(dá)成戰(zhàn)略合作
羅戈訂閱
周報(bào)
1元 2元 5元 10元

感謝您的打賞

登錄后才能發(fā)表評論

登錄
活動/直播 更多

2025第四屆低碳供應(yīng)鏈&物流創(chuàng)新發(fā)展高峰論壇

  • 時(shí)間:2025-05-21 ~ 2025-06-20
  • 主辦方:羅戈網(wǎng)、物流沙龍、羅戈研究
  • 協(xié)辦方:億通國際、亞太碳中和創(chuàng)新示范社區(qū)
報(bào)告 更多

2025年5月物流行業(yè)月報(bào)-個(gè)人版

  • 作者:羅戈研究

¥:9.9元