AIエージェントは、人工知能を活用したコンピュータプログラムで、人間のユーザーに代わって複雑なタスクを自律的に実行することができます。
この記事を読み終えると、以下のことができるようになります。
記事のリンクをコピーする
AIエージェントは、人工知能(AI)を活用したコンピュータプログラムで、明示的な指示がなくても自律的にタスクを実行して人間のユーザーを支援することができます。チャットボットなどの他のAI搭載ソフトウェアとは異なり、AIエージェントは特定のプロンプトベースのコンテキスト外で動作できます。言い換えれば、学習データの外側に出て、世界を見回して情報を探し出し、その情報に基づいて自ら行動を起こし、より大きな目標の達成を目指すことができます。
AIエージェントは意思決定を行い、過去の経験から学習し、それに応じて行動を適応させることができます。また、他のAIエージェントと相談して関連情報を取得することもできます。人間はAIエージェントに目標を設定しますが、その目標をどのように達成するかを考えるのはエージェント自身です。AIエージェントは独立して、あるいはごくわずかな人間の介入だけで動作することができます。
AIエージェントは、(ロボティクスのように)ハードウェアを強化することもできますし、ソフトウェアでのみ動作することもあります。
AIエージェントは前述のソフトウェアプログラムで、自ら意思決定を行いタスクを処理します。一方、エージェンティックAIは、AIエージェントの構築を可能にするAI開発の分野のことを指します(たとえば、生成AIと個々の大規模言語モデル(Microsoft Copilotなど)の違いや、「料理」という行為と具体的な一皿の料理の違いを考えるとわかりやすいでしょう)。
生成AI(GenAI)は、プロンプトに応じてコンテンツを生成できるディープラーニングモデルの一種を指します。ChatGPTのようなLLMはこのカテゴリーに属します。エージェンティックAIは、生成AI上に構築されます。しかし、LLMが特定のユーザーインターフェースやAPIを介したプロンプトにのみ応答できるのに対し、AIエージェントは定義されたコンテキストの外に出て、プロンプトがなくてもアクションを実行できます。
例えば、大企業の営業担当幹部が大規模言語モデル(LLM)に「当社の主要顧客10社に送るディナー招待メールを書いてください」というプロンプトを作成することがあります。一方、エージェンティックAIの場合、幹部はAIエージェントに「当社の主要顧客10社をディナーに招待してください」というプロンプトを作成するかもしれません。つまり、LLMはテキストを生成することができますが、AIエージェントはメールのテキストを生成するだけでなく、CRM内で主要顧客10社を見つけ出し、それぞれにパーソナライズされたメール招待を送信することまで(十分な権限が与えられていれば)行えるというわけです。
AIエージェントはLLM上に構築されます。LLMとは、大量のサンプルデータで訓練されたAIモデルの一種で、人間が作成したコンテンツを理解し、自らコンテンツを生成する能力を持っています。LLMは、人間によるプロンプトや要求が不正確なものであっても理解します。
AIエージェントはLLM上に構築されているため、ユーザーからの会話型リクエストからWebホスト型の動画コンテンツまで、幅広いデータやコンテンツを処理し、解釈することができます。AIエージェントは、コード、テキスト、音声、動画など複数のメディアタイプからコンテンツを解釈することができます。そして、そのコンテンツから学んだことを利用して、行動を改善することができるのです。
さらに、AIエージェントは世界と対話する方法を持っています。ロボット工学では、物理的なセンサーやカメラがこれに含まれることもあります。ソフトウェアのみのAIエージェントの場合、以下のようにいくつかの形式があります。
このようにAIエージェントの環境外の世界と対話することで、AIエージェントは実際に行動を起こせるようになります。IT環境内で人間のユーザーが限定的な権限を持つことがあるのと同様に、企業はAIエージェントが取る行動が正しいことを保証するためにAIエージェント用のガードレールを設置することができます。AIエージェントにポリシーをプログラムすることに加えて、組織はAIエージェントの応答の正確性を人間が検証したり、エージェントの行動を承認したりする「ヒューマンインザループ(Human-in-the-Loop)」アプローチを採用することもできます。
AIエージェントも同様に学習することができ、過去の行動の結果や人間のユーザーからのインプットを基に将来の行動を改善することができます。AIエージェントは、RAMの計算的な意味だけでなく、過去の相互作用や結果を記憶しているという意味で、「メモリ」を持っています。この学習は、「データフライホール」と呼ばれるフィードバックループを介して行われます。エージェントのやり取りの記録は、将来のパフォーマンスを向上させるために基盤となるモデルによって使用されます。
AIエージェントには大きく分けて2つの種類があります。
また、シングルエージェントシステムとマルチエージェントシステムという区分もあります。シングルエージェントAIシステムは、1つのモデルに基づいて構築されています。マルチエージェントAIシステムは、問題を解決するために互いに相談する複数のエージェントの能力を組み合わせたものです。
エージェンティックAIチャットボットは、従来のチャットボットと同様に、人間と会話を介して対話することができます。エージェンティックAIチャットボットは、チャットボットのコンテキストから外れること(チャットから離れること)ができ、対話する相手に代わってアクションを実行できます。例えば、従来のチャットボットはサポートチケットの提出方法を案内することはできますが、エージェンティックAIチャットボットはそのチケットを自ら提出することができるのです。
非エージェンティックAIチャットボットは反応型であり、学習データに応じてユーザーのプロンプトに応答します。LLMによって稼働していることもありますが、ユーザーに代わってアクションを実行することよりも、ユーザーに有用なコンテンツや指示を提供する方が得意です。エージェンティックAIチャットボットは、ユーザーとの対話のコンテキスト外でアクションを実行することができます。また、エージェンティックAIチャットボットは、学習データ以外のさまざまなソースから学習することもできます。
Cloudflareの開発者向けプラットフォームは、以下のようなAI搭載エージェントを構築・展開するために必要なツールをすべて提供しています。
さらに、Cloudflareのグローバルネットワークにより、開発者は世界中のどこでも、可能な限りエンドユーザーに近い場所でコードを実行するAIエージェントを構築することができます。CloudflareでAIエージェントの構築を始める方法をご覧ください。
利用開始
人工知能
機械学習
ビッグデータ
用語集
ラーニングセンター