AIエージェントとは?

AIエージェントは、人工知能を活用したコンピュータプログラムで、人間のユーザーに代わって複雑なタスクを自律的に実行することができます。

学習目的

この記事を読み終えると、以下のことができるようになります。

  • エージェンティックAIの定義
  • AIエージェントの機能を説明する
  • AIエージェントが行動を起こす方法を理解する

記事のリンクをコピーする

AIエージェントとは?

AIエージェントは、人工知能(AI)を活用したコンピュータプログラムで、明示的な指示がなくても自律的にタスクを実行して人間のユーザーを支援することができます。チャットボットなどの他のAI搭載ソフトウェアとは異なり、AIエージェントは特定のプロンプトベースのコンテキスト外で動作できます。言い換えれば、学習データの外側に出て、世界を見回して情報を探し出し、その情報に基づいて自ら行動を起こし、より大きな目標の達成を目指すことができます。

AIエージェントは意思決定を行い、過去の経験から学習し、それに応じて行動を適応させることができます。また、他のAIエージェントと相談して関連情報を取得することもできます。人間はAIエージェントに目標を設定しますが、その目標をどのように達成するかを考えるのはエージェント自身です。AIエージェントは独立して、あるいはごくわずかな人間の介入だけで動作することができます。

AIエージェントは、(ロボティクスのように)ハードウェアを強化することもできますし、ソフトウェアでのみ動作することもあります。

エージェンティックAIとAIエージェントの違い

AIエージェントは前述のソフトウェアプログラムで、自ら意思決定を行いタスクを処理します。一方、エージェンティックAIは、AIエージェントの構築を可能にするAI開発の分野のことを指します(たとえば、生成AIと個々の大規模言語モデル(Microsoft Copilotなど)の違いや、「料理」という行為と具体的な一皿の料理の違いを考えるとわかりやすいでしょう)。

エージェンティックAIと生成AIの違い

生成AI(GenAI)は、プロンプトに応じてコンテンツを生成できるディープラーニングモデルの一種を指します。ChatGPTのようなLLMはこのカテゴリーに属します。エージェンティックAIは、生成AI上に構築されます。しかし、LLMが特定のユーザーインターフェースやAPIを介したプロンプトにのみ応答できるのに対し、AIエージェントは定義されたコンテキストの外に出て、プロンプトがなくてもアクションを実行できます。

例えば、大企業の営業担当幹部が大規模言語モデル(LLM)に「当社の主要顧客10社に送るディナー招待メールを書いてください」というプロンプトを作成することがあります。一方、エージェンティックAIの場合、幹部はAIエージェントに「当社の主要顧客10社をディナーに招待してください」というプロンプトを作成するかもしれません。つまり、LLMはテキストを生成することができますが、AIエージェントはメールのテキストを生成するだけでなく、CRM内で主要顧客10社を見つけ出し、それぞれにパーソナライズされたメール招待を送信することまで(十分な権限が与えられていれば)行えるというわけです。

AIエージェントの仕組み

大規模言語モデル(LLM)

AIエージェントはLLM上に構築されます。LLMとは、大量のサンプルデータで訓練されたAIモデルの一種で、人間が作成したコンテンツを理解し、自らコンテンツを生成する能力を持っています。LLMは、人間によるプロンプトや要求が不正確なものであっても理解します。

AIエージェントはLLM上に構築されているため、ユーザーからの会話型リクエストからWebホスト型の動画コンテンツまで、幅広いデータやコンテンツを処理し、解釈することができます。AIエージェントは、コード、テキスト、音声、動画など複数のメディアタイプからコンテンツを解釈することができます。そして、そのコンテンツから学んだことを利用して、行動を改善することができるのです。

外部との統合および対話

さらに、AIエージェントは世界と対話する方法を持っています。ロボット工学では、物理的なセンサーやカメラがこれに含まれることもあります。ソフトウェアのみのAIエージェントの場合、以下のようにいくつかの形式があります。

  • エージェントはAPI経由で外部アプリケーションに直接接続可能
  • 一部のAIエージェントは、人間のユーザーと同じようにWebアプリと対話し、フォームに入力したり、Webページを閲覧したりすることが可能(この目的のためにヘッドレスブラウザを使用することもあります)
  • モデルコンテキストプロトコル(MCP)と呼ばれる新規格は、AIエージェントをさまざまなツール(メールクライアント、CRM、請求システムなど)に接続し、エージェントに適切な認証・許可を適用します

このようにAIエージェントの環境外の世界と対話することで、AIエージェントは実際に行動を起こせるようになります。IT環境内で人間のユーザーが限定的な権限を持つことがあるのと同様に、企業はAIエージェントが取る行動が正しいことを保証するためにAIエージェント用のガードレールを設置することができます。AIエージェントにポリシーをプログラムすることに加えて、組織はAIエージェントの応答の正確性を人間が検証したり、エージェントの行動を承認したりする「ヒューマンインザループ(Human-in-the-Loop)」アプローチを採用することもできます。

データフライホイールによる学習

AIエージェントも同様に学習することができ、過去の行動の結果や人間のユーザーからのインプットを基に将来の行動を改善することができます。AIエージェントは、RAMの計算的な意味だけでなく、過去の相互作用や結果を記憶しているという意味で、「メモリ」を持っています。この学習は、「データフライホール」と呼ばれるフィードバックループを介して行われます。エージェントのやり取りの記録は、将来のパフォーマンスを向上させるために基盤となるモデルによって使用されます。

AIエージェントの種類

AIエージェントには大きく分けて2つの種類があります。

  • バックグラウンドエージェント:タスク、特にルーチンタスクをバックグラウンドで実行し、ユーザーとの対話はほとんどありません。バックグラウンドエージェントは、オフィスを清潔に保ち、電気をつけておく用務員やメンテナンス作業員のような存在です。
  • サーフェスエージェント:人間のユーザーとより直接的に対話します。チャットボット、カスタマーサービス、アシスタントAIエージェントなどがこのカテゴリーに該当します。サーフェスエージェントは、オフィスビルのフロントデスクワーカーのようなもので、入ってくるユーザーとやり取りし、必要に応じて特定のタスクを実行します。

また、シングルエージェントシステムとマルチエージェントシステムという区分もあります。シングルエージェントAIシステムは、1つのモデルに基づいて構築されています。マルチエージェントAIシステムは、問題を解決するために互いに相談する複数のエージェントの能力を組み合わせたものです。

エージェンティックAIチャットボットとは?

エージェンティックAIチャットボットは、従来のチャットボットと同様に、人間と会話を介して対話することができます。エージェンティックAIチャットボットは、チャットボットのコンテキストから外れること(チャットから離れること)ができ、対話する相手に代わってアクションを実行できます。例えば、従来のチャットボットはサポートチケットの提出方法を案内することはできますが、エージェンティックAIチャットボットはそのチケットを自ら提出することができるのです。

エージェンティックAIチャットボットと非エージェンティックAIチャットボットの違い

非エージェンティックAIチャットボットは反応型であり、学習データに応じてユーザーのプロンプトに応答します。LLMによって稼働していることもありますが、ユーザーに代わってアクションを実行することよりも、ユーザーに有用なコンテンツや指示を提供する方が得意です。エージェンティックAIチャットボットは、ユーザーとの対話のコンテキスト外でアクションを実行することができます。また、エージェンティックAIチャットボットは、学習データ以外のさまざまなソースから学習することもできます。

CloudflareはどのようにしてエージェンティックAIをサポートするか?

Cloudflareの開発者向けプラットフォームは、以下のようなAI搭載エージェントを構築・展開するために必要なツールをすべて提供しています。

  • 自律的にタスクを実行する
  • クライアントとリアルタイムで通信する
  • AIモデルを呼び出す
  • Webを閲覧する
  • データベースにクエリを実行する
  • ヒューマンインザループ(Human-in-the-Loop)対話をサポートする

さらに、Cloudflareのグローバルネットワークにより、開発者は世界中のどこでも、可能な限りエンドユーザーに近い場所でコードを実行するAIエージェントを構築することができます。CloudflareでAIエージェントの構築を始める方法をご覧ください