神經網路是人工智慧 (AI) 模型的重要組成部分。它們的工作基於一種模仿人類大腦神經元的結構。
閱讀本文後,您將能夠:
複製文章連結
神經網路或人工神經網路是一種基於人腦功能模型的運算架構,因此得名為「神經網路」。神經網路由稱為「節點」的處理單元的集合組成。這些節點相互傳遞資料,就像大腦中神經元相互傳遞電脈衝一樣。
神經網路用於機器學習,機器學習是指無需明確指令即可學習的一類電腦程式。具體來說,神經網路用於深度學習,這是一種進階的機器學習類型,可以在無需人工幹預的情況下從未標記資料中得出結論。例如,基於神經網路建構並獲得了足夠訓練資料的深度學習模型,可以識別相片中以前從未見過的物品。
神經網路使多種類型的人工智慧 (AI) 成為可能。ChatGPT 等大型語言模型 (LLM)、DALL-E 等 AI 影像產生器以及預測性 AI 模型都在某種程度上依賴神經網路。
神經網路由節點的集合組成。節點分佈在至少三層上。這三層是:
這三層是最低限度。除了輸入層和輸出層之外,神經網路還可以具有多個隱藏層。
無論屬於哪一層,每個節點都會對從前一個節點(或從輸入層)接收到的任何輸入執行某種處理任務或功能。本質上,每個節點都包含一個數學公式,公式中每個變數的權重不同。如果將此數學公式套用至輸入後,輸出超過特定閾值,則該節點會將資料傳遞到神經網路中的下一層。如果輸出低於閾值,則不會傳遞資料到下一層。
想像一下,Acme Corporation 有一個階層嚴格的會計部門。Acme 會計部門經理級別的員工核准低於 1,000 美元的費用,董事核准低於 10,000 美元的費用,財務長核准任何超過 10,000 美元的費用。當 Acme Corp. 其他部門的員工提交費用時,他們首先去找會計經理。任何超過 1,000 美元的費用都會傳遞給董事,而低於 1,000 美元的費用則留在經理層,以此類推。
Acme Corp. 會計部門的運作有點像神經網路。當員工提交費用報告時,這就像神經網路的輸入層。每個經理和總監就像神經網路中的一個節點。
而且,就像一位會計經理在將費用報告傳遞給會計主管之前,可能會要求另一位經理協助解釋費用報告一樣,神經網路能夠以多種方式構建。節點可以在多個方向上進行通訊。
神經網路可以擁有的節點數和層數沒有限制,而這些節點幾乎能夠以任何方式互動。正因如此,神經網路的類型清單不斷擴大。但是,它們大致可以分為以下幾類:
淺層神經網路速度快,需要的處理能力比深度神經網路少,但它們無法執行與深度神經網路一樣多的複雜任務。
以下是當今可能使用的神經網路類型的不完整清單:
感知器神經網路是簡單的淺層網路,具有一個輸入層和一個輸出層。
多層感知器神經網路比感知器網路更複雜,並且包含一個隱藏層。
前饋神經網路只允許其節點將資訊傳遞給前向節點。
循環神經網路可以向後傳遞資訊,允許某些節點的輸出影響前面節點的輸入。
模組化神經網路結合兩個或多個神經網路以獲得輸出。
徑向基底函數神經網路節點使用一種稱為徑向基底函數的特定數學函數。
液態狀態機神經網路的特徵是節點彼此隨機連接。
殘差神經網路允許資料透過稱為恆等對應的過程向前跳過,將早期層的輸出與後期層的輸出結合。
Transformer 神經網路值得特別注意,因為它們在當今廣泛使用的 AI 模型中佔據了極其重要的地位。
Transformer 模型於 2017 年首次提出,它是一種神經網路,使用一種稱為「自註意力」的技術來考慮序列中元素的上下文,而不僅僅是元素本身。透過自註意力機制,它們甚至可以偵測資料集各部分之間相互關聯的微妙方式。
這種能力使它們非常適合分析(例如)文字的句子和段落,而不僅僅是單字和片語。在 Transformer 模型被開發出來之前,處理文字的 AI 模型常常會在到達句子結尾時「忘記」句子的開頭,結果是它們會以人類讀者無法理解的方式組合片語和想法。而 Transformer 模型能夠以更自然的方式處理和產生人類語言。
Transformer 模型是產生式 AI 的一個組成部分,特別是可以根據任意人類提示產生文字的 LLM。
神經網路其實已經很古老了。神經網路的概念可以追溯到 1943 年的一篇數學論文,該論文對大腦的工作方式建立了模型。電腦科學家在二十世紀五六十年代開始嘗試建立簡單的神經網路,但最終這個概念失去了熱度。在 20 世紀 80 年代,這個概念被復興,到 90 年代,神經網路在人工智慧研究中已被廣泛應用。
然而,只有隨著超快速處理、大量資料儲存能力和對運算資源的存取出現,神經網路才能夠發展到今天所達到的水平,能夠模仿甚至超越人類的認知能力。該領域仍在不斷發展;Transformer 是當今使用的最重要的神經網路類型之一,其歷史可以追溯到 2017 年。
Cloudflare 在全球超過 330 個城市設有分支機構,處於獨特的地位,能夠以最小的延遲為任何地方的 AI 開發人員提供運算能力。Cloudflare for AI 讓開發人員無需額外設定即可在全球圖形處理單元 (GPU) 網路上執行 AI 任務。Cloudflare 也為訓練神經網路所需的大量資料提供經濟高效的雲端儲存選項。深入瞭解 Cloudflare for AI。