生成的人工知能(AI)とは、人間が入力した内容を基にコンテンツを生成することができるコンピュータプログラムの一種です。
この記事を読み終えると、以下のことができるようになります。
関連コンテンツ
是非、Cloudflareが毎月お届けする「theNET」を購読して、インターネットで最も人気のある洞察をまとめた情報を入手してください!
記事のリンクをコピーする
生成的人工知能(AI)は、テキスト、画像、コンピュータコード、オーディオビジュアルコンテンツをユーザー入力に応じて生成できるディープラーニングモデルの一種です。
生成系AIモデルは、膨大な量の生データ(一般的には、生成する対象と同じ種類のデータ)を学習データとして使用します。任意の入力が与えられたときにその入力に統計的に関連する可能性が高い応答をそのデータから形成することを学習します。例えば、生成系AIのモデルの中には大量のテキストで訓練され、ユーザー入力に対して一見自然かつ独創的な文章で応答できるようにされているものもあります。
もっと簡単に言うと、生成系AIは要望に対して人間のアーティストや作家のように反応することができますが、より素早く反応することができます。これらのモデルが生成するコンテンツが、「新しい」または「オリジナル」と言えるかどうかは議論の余地がありますが、多くの場合、人間のある種の創造的能力に匹敵するか、それを超えることが可能です。
良く知られた生成系AIモデルには、テキスト生成のChatGPTや画像生成のDALL-Eなどがあります。多くの組織が独自のモデルを構築しています。
生成系AIは機械学習の一種で、数学的分析に依存して関連する概念、画像、パターンを見つけます。そして、この分析を利用して、受け取ったユーザー入力と統計的に類似または関連する可能性の高いコンテンツを作成します。
具体的には、生成系AIはディープラーニングと呼ばれる機械学習の一種に依存しています。ディープラーニングモデルは、ラベル付けされていないデータから学習するのに十分強力です。これらはニューラルネットワークと呼ばれるコンピューティングアーキテクチャの一種を使用しています。このようなアーキテクチャは、人間の脳がニューロンを介して情報の受け渡しを行うのと同じように、互いにデータの受け渡しを行う複数のノードで構成されています。ニューラルネットワークを使用することで、高度に洗練されたタスクを実行することが可能になります。
言語を解釈する生成系AIモデルは、個々の単語を超えた理解能力が必要です。文章、段落、文書全体を解釈できる必要があります。初期の機械学習モデルは、文書全体の理解が難しく、文末に到達するまでに文頭部分を「失念」することから、結果として誤解を引き起こしていました。
現代の生成系AIモデルは、トランスフォーマー(Transformers)と呼ばれる特殊なニューラルネットワークを使用しています。これらは、自己注意機構(Self-Attention)と呼ばれる機能を使って、シーケンス内の要素がどのようにつながっているかを検出します。トランスフォーマー(Transformers)により、生成系AIモデルは個々の単語やフレーズだけでなく、より大きな文章のかたまりを処理したり文脈化したりすることが可能になります。
うまく機能させるためには、生成系AIモデルに大量の情報を与える必要があります。ほとんどの場合その情報量は、人間が一生かけて処理できるデータ量を凌ぎます。例えば、大規模な言語モデルであるChatGPTはその学習に、数百万もの文書が使用されています。画像ジェネレーターはその学習に何百万枚もの画像が使用され、コードジェネレーターは何十億行ものコードが使用されます。
この学習データはベクトルデータベースに保存されます。このようなデータベースには、データのポイントはベクトル、つまり多次元フィールド内の座標セットとして保存されます。地図上で緯度と経度から近くの場所を見つけることができるように、データをベクトルとして保存することで、機械学習モデルが「近くの」ポイントのデータを見つけることができるようになります。これによりモデルは、単語、画像、音声、その他あらゆるタイプのコンテンツから連想し、その文脈を理解することができるようになります。
生成系AIモデルが一定の微調整レベルにまで達すると、結果を生成するためにそれほど多くのデータを必要としなくなります。例えば、音声を生成するAIモデルは、何千時間もの発声録音を使用して訓練されるかもしれません。しかし、モデルによっては一度微調整することで数秒のサンプル録音でその人の声をリアルに模倣することができるものもあります。
生成系AIモデルは、多くの潜在的な利点を提供するため、人気が高まっています。これらの利点の一例を以下に示します:
一方で、生成系AIには次のような欠点があります:
「大規模言語モデル」(LLM)とは、人間が話す自然な文章とプログラミング言語の両方を含む、言語を処理しテキストを生成できる生成系AIモデルの技術用語です。人気のあるLLMには、ChatGPT(OpenAI製)、Llama(Meta製)、Bard(Google製)、Copilot(GitHub製)、Bing Chat(Microsoft製)などがあります。
AI画像ジェネレーターはLLMと似たような働きをしますが、テキストではなく画像を対象としています。DALL-EとMidjourneyは、高い人気を誇るAIベースの2大生成画像ジェネレーターです。
開発者や企業は、Cloudflareで独自の生成系AIモデルを構築することが可能です。Cloudflareは、開発者が自身のデータからCloudflareグローバルネットワーク上にEmbedding(エンベディング)を生成・保存できるVectorizeと、GPUのグローバルネットワーク上で生成系AIタスクを実行するCloudflare Workers AIを提供しています。Cloudflareが次世代の生成系AIをどのように実現するか、詳細をご覧ください。