人工智慧 (AI) 影像產生器可以根據大型訓練資料集產生各種樣式的詳細影像。
閱讀本文後,您將能夠:
複製文章連結
人工智慧 (AI) 影像產生是一種用於產生視覺內容的生成式 AI。它使用數學分析來識別和複製相片和示意圖中的模式。簡單來說,AI 影像產生器會根據一組範例建立影像。
AI 影像產生器建立在一種稱為神經網路的特殊機器學習模型之上。透過使用進階統計分析以及開發人員進行一些微調,影像產生器可以產生各種樣式的相關詳細影像。
AI 影像產生器不是拿著畫筆的藝術家,而更像是對可能的體育結果下注的賭徒。從統計上看,它產生的內容可能會滿足它收到的要求。而且,其建立的內容是基於預先存在的內容,就像賭徒在下注之前可能會查看運動員過去的表現一樣。
AI 影像產生器可以建立看起來逼真的照片。它們還可以編輯預先存在的影像。與其他類型的生成式 AI 一樣,AI 影像產生模型可以解讀自然語言提示並建立影像作為回應。「製作大象的影像」是一個有效的提示——儘管這樣的提示可能需要改進才能產生提示者想要的影像。
生成式 AI 是深度學習模型的一個類別,可產生文字、影像、電腦程式碼、音訊或視覺內容。作為機器學習的一種類型,它依賴於對樣本資料集的數學和統計分析,以便產生在統計上可能與提示相關的內容。換句話說,生成式 AI 會根據過去看到的範例快速製作內容。
如上所述,AI 影像產生是使用機器學習構建的,機器學習是一類無需明確指令即可學習的進階電腦程式。具體來說,AI 影像產生是建立在神經網路的基礎上的。
神經網路是一種深度學習運算架構。從本質上講,神經網路旨在模仿人腦的結構。它們是稱為「節點」的處理單元的集合。這些節點相互傳遞資料,類似於人腦的工作方式,即神經元相互傳送電脈衝。
AI 領域有許多不同類別的神經網路。大多數影像生成 AI 模型所使用的特定類型的神經網路稱為生成對抗網路 (GAN)。GAN 有兩個工作流程:一個生成影像,另一個將這些影像與現實生活中的範例進行比較並識別錯誤。因此,基於 GAN 的模型能夠自我訓練並不斷改進。可以將其想象為透過模仿過去的名畫並將自己的作品與真實作品進行比較來學習的畫家。
雖然相同或類似的演算法可以用於各種生成式 AI,但影像產生模型是使用視覺影像集進行訓練的,而不是像 ChatGPT 和其他大型語言模型 (LLM) 那樣需要大量文字進行訓練。
任何類型的生成式 AI 模型都可能發生 AI 幻覺,影像產生 AI 也不例外。這些會在影像中顯示為不准確之處:例如,當要求產生人的肖像時,主體的手上會出現額外的手指。透過充分的提示和提煉,通常可以消除這些幻覺。
人類創作的任何創意作品均受著作權保護,除非創作者放棄著作權或著作權已過期。作品的權利可以透過授權轉讓或出售給其他方。
影像授權分為幾個層級:
AI 產生的影像不受著作權法保護,因為它們並非由人類創作而成。因此,此類影像通常會進入公有領域。
然而,問題在於模型所依據的訓練資料集可能包含具有一系列授權的影像,並且還可能包含受保護的智慧財產權。如果 AI 影像產生器產生的影像與人類創作者創作的現有影像或另一家公司擁有的品牌非常相似,則這些各方可能會起訴使用該影像的人。(例如,AI 產生的超人影像仍可能受到適用於該角色官方影像的相同法律保護。)
使問題更加複雜的是,一些 AI 影像產生模型是建立在 AI 剽竊機器人獲取的資料集之上的,這些機器人未經授權就會爬行網站上的文字和影像。事實上,對於無法阻止這些 AI 剽竊機器人獲取資料的公司來說,這正在成為一個日益嚴重的問題。這就是 Cloudflare 建立 AI 稽核工具來幫助公司控制爬行其媒體和網站的 AI 剽竊機器人的原因。
對於 AI 產生的影像,這取決於授權和所使用的影像產生服務。一些 AI 產生服務是在他們擁有權利的精選影像集合上訓練他們的模型。此類服務可能允許在創作共用授權下將其服務產生的影像用於商業用途——這意味著其他任何人也可以使用這些影像。這使得商業使用變得複雜,因為無法像原創影像、品牌或商標那樣保護影像不被競爭對手使用。
Cloudflare Workers AI 提供完整堆疊 AI 構建區塊,允許開發人員將多種流行的生成式 AI 模型(包括影像產生器)整合到其應用程式中,並在全球 GPU 網路上執行。檢視本教程以瞭解如何開始構建 AI 影像產生器。