什麼是大型語言模型 (LLM)?

大型語言模型 (LLM) 是可以理解和產生人類語言文字的機器學習模型。它們透過分析大量語言資料集來工作。

學習目標

閱讀本文後,您將能夠:

  • 定義大型語言模型 (LLM)
  • 瞭解 LLM 的應用
  • 解釋 LLM 如何運作

相關內容


想要繼續瞭解嗎?

訂閱 TheNET,這是 Cloudflare 每月對網際網路上最流行見解的總結!

請參閱 Cloudflare 的隱私權政策,了解我們如何收集和處理您的個人資料。

複製文章連結

什麼是大型語言模型 (LLM)?

大型語言模型 (LLM) 是一種人工智慧 (AI) 程式,可以辨識和產生文字以及完成其他任務。LLM 接受大量資料的訓練——因此得名「大型」。LLM 建立在機器學習的基礎上:具體來說,是一種稱為 Transformer 模型的神經網路

簡而言之,LLM 是一種電腦程式,已經獲得了足夠的範例,能夠辨識和解釋人類語言或其他類型的複雜資料。許多 LLM 都使用從網際網路收集的資料(數千或數百萬 GB 的文字)進行訓練。但樣本的品質會影響 LLM 學習自然語言的效果,因此 LLM 的程式設計師可能會使用更精心策劃的資料集。

LLM 使用一種稱為深度學習的機器學習來理解字元、單字和句子如何協同工作。深度學習涉及非結構化資料的機率分析,最終使深度學習模型能夠在無需人工幹預的情況下識別內容片段之間的差異。

然後,LLM 透過調整進行進一步培訓:它們根據程式設計師希望它們執行的特定任務進行微調或快速調整,例如解釋問題並產生回應,或將文字從一種語言翻譯成另一種語言。

LLM 有何用途?

LLM 可以接受訓練來完成許多任務。最知名的用途之一是作為產生式 AI:當給出提示或提出問題時,它們可以產生文字回應。例如,公開可用的 LLM ChatGPT 可以根據使用者輸入來產生論文、詩歌和其他文字形式。

任何大型、複雜的資料集都可以用來訓練 LLM,包括程式設計語言。一些 LLM 可以幫助程式設計師編寫程式碼。它們可以根據請求編寫函數,或者,它們能夠以一些程式碼作為起點,完成程式的編寫。LLM 還可用於:

現實世界的 LLM 範例包括 ChatGPT(來自 OpenAI)、Bard (Google)、Llama (Meta) 和 Bing Chat (Microsoft)。GitHub 的 Copilot 是另一個範例,但用於編碼而不是自然的人類語言。

LLM 有哪些優點和限制?

LLM 的一個關鍵特徵是它們能夠回應不可預測的查詢。傳統的電腦程式以其可接受的語法接收命令,或從使用者的一組特定輸入接收命令。電玩遊戲有一組有限的按鈕,應用程式限定了使用者可以點擊或鍵入的內容,程式設計語言由精確的 if/then 語句組成。

相較之下,LLM 可以回應自然的人類語言,並使用資料分析以有意義的方式回答非結構化問題或提示。典型的電腦程式不會識別諸如「歷史上最偉大的四個放克樂隊是哪些?」之類的問題,但 LLM 可能會回復一個包含四個放克樂隊的清單,並合理地證明為什麼它們是最好的。

然而,就它們提供的資訊而言,LLM 的可靠性取決於它們所攝入的資料。如果饋入虛假資訊,它們將在回應使用者查詢時提供虛假資訊。LLM 有時也會「產生幻覺」:當它們無法給出準確答案時,他們會創造虛假資訊。例如,2022 年新聞媒體 Fast Company 向 ChatGPT 詢問了 Tesla 上一季的財務狀況;雖然 ChatGPT 提供了一篇連貫的新聞文章作為回應,但其中的大部分資訊都是虛構的。

在安全性方面,面向使用者的 LLM 型應用程式與任何其他應用程式一樣容易出現錯誤。LLM 還可以透過惡意輸入進行操縱,以提供某些類型的回應(包括危險或不道德的回應)。最後,LLM 的安全問題之一是使用者可能會將安全的機密資料上傳到其中,以提高自己的工作效率。但 LLM 使用它們收到的內容來進一步訓練它們的模型,而且它們並沒有被設計為安全的保存庫;它們可能會公開機密資料以回應其他使用者的查詢。

LLM 如何運作?

機器學習和深度學習

在基礎層面上,LLM 是建立在機器學習的基礎上的。機器學習是人工智慧的一部分,它是指向程式提供大量資料以訓練程式在無需人工幹預的情況下識別資料特徵的做法。

LLM 使用一種稱為深度學習的機器學習。深度學習模型基本上可以在無需人工干預的情況下訓練自己識別差異,不過通常需要進行一些人工微調。

深度學習使用概率來「學習」。例如,在句子「The quick brown fox jumped over the lazy dog」中,字母「e」和「o」是最常見的,各出現四次。由此,深度學習模型可以(正確地)得出結論:這些字元最有可能出現在英文文字中。

實際上,深度學習模型無法真正從單一句子中得出任何結論。但在分析數萬億個句子後,它可以學到足夠的知識來預測如何有邏輯地完成一個不完整的句子,甚至產生自己的句子。

神經網路

為了實現這種類型的深度學習,LLM 建立在神經網路的基礎上。正如人腦是由相互連接並向彼此傳送訊號的神經元構成的一樣,人工神經網路(通常簡稱為「神經網路」)也是由相互連接的網路節點構成的。它們由多個「層」組成:輸入層、輸出層以及中間的一層或多層。只有當各層自己的輸出超過特定閾值時,各層才會相互傳遞資訊。

Transformer 模型

用於 LLM 的特定神經網路類型稱為 Transformer 模型。Transformer 模型能夠學習上下文,這對於高度依賴上下文的人類語言尤其重要。Transformer 模型使用一種稱為「自註意力」的數學技術來偵測序列中元素相互關聯的微妙方式。這使得它們比其他類型的機器學習更能理解上下文。例如,這讓它們能夠理解句子的開頭和結尾是如何聯繫起來的,以及段落中的句子如何相互關聯。

這使得 LLM 能夠解釋人類語言,即使語言含糊或定義不明確、以它們以前從未遇到過的組合排列,或者放在新的語境中。在某種程度上,它們「理解」語義,它們可以透過含義將單詞和概念聯繫起來,因為它們已經無數次地看到這些單詞和概念以這種方式組合在一起。

開發人員如何快速開始建立自己的 LLM

要建立 LLM 應用程式,開發人員需要輕鬆存取多個資料集,並且他們需要存放這些資料集的地方。用於這些目的的雲端儲存和內部部署儲存可能涉及超出開發人員預算的基礎架構投資。此外,訓練資料集通常儲存在多個位置,但將該資料移動到中央位置可能會導致大量的輸出費用

幸運的是,Cloudflare 提供了多種服務,讓開發人員快速開始開發 LLM 應用程式和其他類型的 AI。Vectorize 是一個全球分散式向量資料庫,用於查詢儲存在無輸出費用的物件儲存體 (R2) 中的資料或儲存在 Workers Key Value 中的文件。結合開發平台 Cloudflare Workers AI,開發人員可以使用 Cloudflare 快速開始試驗自己的 LLM。