AIエージェントに興味がある社会人、AIエージェントの今後の流れに興味がある経営者、AIエージェントの技術に興味があるエンジニアの皆さん、必見です!
「AI Engineer Summit 2025」の動画は、皆様のビジネス、キャリア、そして未来を劇的に変える可能性を秘めた、「今そこにある未来」を垣間見ることができる、非常に貴重な情報源です。特にDay 2はAIのトップ企業がこれでもかというほど「 AIエージェント 」について語ってくれています。これが無料で視聴できるなんて。。。
なぜ、この動画がそれほど重要なのか?
- 「今」何が起きているのか、生の声が聞ける:
- AIエージェントは、もはや研究室の中だけの存在ではありません。Google、Meta、OpenAI、Bloomberg…名だたる企業が、すでにAIエージェントを実用化し、ビジネスの現場で活用しています。
- この動画では、それらの企業で実際にAIエージェントの開発・運用に携わっているトップエンジニアたちの生の声を聞くことができます。彼らが直面している課題、試行錯誤の過程、そして、そこから得られた知見は、机上の空論ではなく、血の通った実践知です。
- 「未来」がどうなるのか、具体的なビジョンが見える:
- AIエージェントは、今後、私たちの働き方、生活、そして社会全体を大きく変革する可能性を秘めています。
- この動画では、各社のスピーカーが、AIエージェントの進化の方向性、そして、それが私たちの未来にどのような影響を与えるのか、具体的なビジョンを提示しています。
- それは、単なる楽観的な予測ではなく、技術的な裏付けと、現実的な課題認識に基づいた、説得力のある未来図です。
- 「自分」はどうすればいいのか、具体的なヒントが得られる:
- AIエージェントの技術は、急速に進化しています。この変化の波に乗り遅れないためには、常に最新の情報をキャッチアップし、学び続ける必要があります。
- この動画では、AIエージェントの開発に必要な技術、ツール、フレームワーク、設計思想など、実践的な情報が満載です。
- これらの情報を参考に、あなた自身のビジネスやキャリアに、AIエージェントをどのように活用できるのか、具体的な戦略を立てることができます。
「AI Engineer Summit: Agent Engineering Day」は、単なる技術カンファレンスではありません。
- ビジネスマンにとっては、競合他社に先んじるための戦略的インサイトを得る場。
- 経営者にとっては、未来のビジネスチャンスを見極め、投資判断を行うための羅針盤となる場。
- エンジニアにとっては、最先端の技術を学び、自身のスキルを向上させるための最高の教材となる場。
え、でもちょっと待って。。。8時間の動画?英語?
心配ありません!いい感じにまとめてみましたので、本記事で要点をつかめると思います!
swyx: Why Agent Engineering (なぜエージェントエンジニアリングなのか)
AIエージェント元年:2025年の幕開け、そしてAIエンジニアリングの台頭
AI Engineer Summitの主催者であるswyx氏は、AIエンジニアリングが独立した分野として確立されつつある現状を概説しました。特に2025年は「エージェントの年」と位置づけ、AIエージェントが様々な分野で実用化される転換点になると予測しました。swyx氏は、AIエンジニアリングを、従来のソフトウェアエンジニアリングと機械学習エンジニアリングの境界領域に位置づけられる、新しい専門分野であると定義しました。
swyx氏は、AIエンジニアリングの現状について、以下のように分析しています。
- AIエンジニアリングの成熟: ソフトウェアエンジニアリングの知識・スキルと、AI(特にLLM)に関する知識・スキルを組み合わせた「AIエンジニアリング」という職種・分野が確立しつつある。これは、従来のソフトウェアエンジニアや機械学習エンジニアとは異なる、新しい専門性である。具体的には、LLMの特性を理解し、それを最大限に活用するためのプロンプトエンジニアリング、ファインチューニング、評価、デプロイなどのスキルが求められる。
- 多様なエージェントの定義: AIエージェントは、まだ明確な定義が定まっていないが、共通する要素として、目標設定能力、ツール利用能力、長期的な計画能力、そして、ある程度の自律性を持つことが挙げられる。これらの要素は、従来のルールベースシステムや単純なチャットボットとは一線を画す、AIエージェントの重要な特徴である。
- 進化を加速させる3つの要因:
- モデルの多様性: OpenAIのGPTシリーズだけでなく、AnthropicのClaude、MetaのLLaMA、Mistral AI、そして数多くのオープンソースモデルが登場し、競争が激化している。これにより、開発者は、特定のタスクやユースケースに最適なモデルを選択できるようになった。
- インテリジェンスのコスト低下: GPT-4レベルの推論能力を持つモデルの利用コストが、過去18ヶ月で1000分の1にまで低下した。これにより、AIエージェントの開発・運用コストが大幅に削減され、より多くの企業や開発者がAIエージェントを導入できるようになった。
- RLファインチューニングの選択肢の増加: 強化学習によるファインチューニング(RLHF)が、モデルの性能を向上させるための重要な技術として確立され、様々なツールやサービスが利用可能になった。RLHFは、人間のフィードバックに基づいてモデルを調整することで、より人間が望む出力を生成できるようにする技術である。
swyx氏は、これらの要因が組み合わさることで、AIエージェントが実用レベルに到達し、様々な分野で活用されるようになると予測しています。特に、コーディング支援、顧客サポート、研究開発などの分野で、AIエージェントの導入が進むと見ています。また、2025年には、ChatGPTのユーザー数が10億人に達する可能性があると予測し、AIエージェントの普及が加速することを強調しました。
※swyx氏はAI Engineer Summitの主催者の一人であり、Latent Spaceの創設者でもあります。
次の章に行く前に、AIエージェントの概要についてまとめた記事がいくつかありますので、ぜひご覧ください!「AIエージェントってそもそも何?」という疑問にお答えできるはずです。


関連記事:最近話題の AIエージェント ってなに? AIエージェント 完全ガイド


関連記事:AIエージェント トレンド解析2025:成長要因と未来予測
AI Snake Oil: Building and evaluating AI Agents (AIスネークオイル:AIエージェントの構築と評価)
AIエージェント評価の難しさと信頼性の重要性:過度な期待と現実のギャップ
AI Snake Oilの講演では、AIエージェントの評価の難しさと、静的ベンチマークの限界、そして信頼性の重要性について、具体的な事例を交えながら深く掘り下げられました。「AI Snake Oil」というタイトルは、AIエージェントに対する過度な期待や誇大広告に対する警鐘を鳴らす意味が込められています。AIエージェントは、従来のソフトウェアとは異なり、動的な環境で動作し、多様なタスクを実行するため、その評価は本質的に困難です。
講演では、AIエージェントの評価が難しい理由として、以下の点が指摘されました。
- 環境との相互作用: AIエージェントは、静的なデータセットではなく、動的な環境と相互作用しながら動作する。そのため、従来のソフトウェアのように、入力と出力の組み合わせだけで評価することができない。エージェントの行動が環境に与える影響や、環境からのフィードバックを考慮する必要がある。
- コストと精度のトレードオフ: AIエージェントの性能(特に精度)を向上させるためには、より多くの計算資源(時間、費用)が必要になる場合がある。しかし、現実のビジネスでは、コストは常に制約となる。限られたコストの中で、いかに高い精度を達成するかが課題となる。
- 多次元的な評価指標: AIエージェントの評価は、精度だけでなく、コスト、時間、ユーザー満足度、安全性など、複数の指標を総合的に考慮する必要がある。例えば、自動運転エージェントの場合、事故率だけでなく、乗客の快適性や、交通の流れへの影響なども評価する必要がある。
- 静的ベンチマークの限界**: 多くのAIエージェントのベンチマークは静的なデータセットに基づいており、現実世界の複雑さや多様性を十分に反映していない。そのため、ベンチマークで高いスコアを獲得したエージェントが、実際の環境でうまく機能するとは限らない。例えば、画像認識のベンチマークで高い精度を達成したモデルが、実際の監視カメラの映像ではうまく機能しない場合がある。
これらの課題に対処するため、講演では以下のようなアプローチが提案されました。
- 動的な評価環境の構築: シミュレーション技術などを活用して、現実世界の環境を模倣した動的な評価環境を構築する。例えば、自動運転エージェントの評価のために、交通状況や天候の変化をシミュレートする環境を構築することができる。
- 多次元的な評価指標の導入: 精度だけでなく、コスト、時間、ユーザー満足度、安全性など、複数の指標を組み合わせて評価する。これにより、AIエージェントの性能をより包括的に把握することができる。例えば、Holistic Agent Leaderboard (HAL)は、コストと精度の両方を考慮してエージェントを評価する。(5:39:46)
- 人間参加型評価: 専門家やユーザーにAIエージェントの行動を評価してもらうことで、より現実的な評価を行う。例えば、AIエージェントが生成した文章を人間が評価したり、AIエージェントと対話したユーザーが満足度を評価したりする。
- 信頼性向上のための技術開発: 説明可能なAI(XAI)や検証可能なAIなどの技術を活用して、AIエージェントの行動の理由を理解し、安全性を確認できるようにする。例えば、AIエージェントが下した判断の根拠を人間が理解できるように可視化したり、AIエージェントの行動が特定の安全基準を満たしていることを検証したりする。
AI Snake Oilは、AIエージェント開発において、機能性(Capability)だけでなく、信頼性(Reliability)が極めて重要であると強調しました。特に、AIエージェントが重要な意思決定に関わる場合や、人命に関わる場合には、信頼性が最優先事項となります。AIエンジニアは、単に高性能なエージェントを開発するだけでなく、信頼性の高いエージェントを構築するための「信頼性エンジニアリング」の視点を持つ必要があると指摘しています。
具体的な事例として、DoNotPay(AI弁護士サービス)の失敗、Lexus NexusとWestlaw(法律情報サービス)のハルシネーション、Sakana.ai(AI科学者)の誇大広告などが挙げられ、AIエージェントの評価の難しさと、信頼性の重要性が浮き彫りになりました。
Gemini: Going deep on Gemini Deep Research (Gemini:Gemini Deep Researchを深く掘り下げる)
Googleの挑戦:Gemini Deep Research、研究アシスタントAIの構築と課題
GoogleのGemini Deep Researchは、ユーザーに代わってウェブを検索し、情報を収集・分析し、レポートを作成する「個人研究アシスタント」とも呼べるAIエージェントです。この講演では、Gemini Deep Researchの開発背景、プロダクトとしての課題、技術的な課題、そして今後の展望について、具体的な事例を交えながら解説されました。
Gemini Deep Researchの開発チームは、「人々が情報を素早く理解するのを助ける」ことを目標に、このプロジェクトを開始しました。従来のチャットボットは、質問に対して「回答の概要」を提示することはできても、詳細なレポートを作成することはできませんでした。そこで、Gemini Deep Researchは、計算資源と待ち時間の制約を取り払い、より包括的な回答を生成することを目指しました。具体的には、ユーザーが「小型原子炉の最新技術動向とサプライチェーンにおける興味深い企業について調べてほしい」といった複雑な質問を投げかけた場合、Gemini Deep Researchは、複数のウェブサイトを検索し、情報を収集・分析し、数千語にも及ぶ詳細なレポートを作成します。
Gemini Deep Researchの開発チームは、以下の様なプロダクトとしての課題に直面しました。
- 非同期体験の構築: 従来のチャットボットは、即座に応答することを前提として設計されています。しかし、Gemini Deep Researchは、タスクの完了までに数分から数十分かかる場合があります。このような非同期的な体験を、どのようにユーザーに提供するかが課題となりました。
- ユーザーの期待値設定: 長時間かかるタスクに対して、ユーザーの期待値をどのように管理するか。ユーザーに、エージェントが何をしているのか、いつ結果が得られるのかを明確に伝える必要があります。
- 長い出力への対応: Gemini Deep Researchが生成するレポートは、数千語にも及ぶ場合があります。このような長い出力を、どのようにユーザーにわかりやすく提示するかが課題となりました。
これらの課題に対して、Gemini Deep Researchでは、以下のような工夫が施されています。
- 研究計画の提示: ユーザーに、エージェントがどのようなステップでタスクを実行するのかを事前に提示する(5:50:24)。これにより、ユーザーは、エージェントの行動を予測し、安心して待つことができます。
- 進捗状況の可視化: エージェントが閲覧しているウェブサイトをリアルタイムで表示する(5:50:57)。これにより、ユーザーは、エージェントが何をしているのかを把握することができます。
- アーティファクトのピン留め: レポートとチャットインターフェースを分離し、ユーザーがレポートを参照しながら質問できるようにする(5:51:36)。これにより、ユーザーは、レポートの内容をより深く理解することができます。
また、技術的な課題としては、以下のような点が挙げられました。
- 長期タスクの管理: 数分から数十分かかるタスクを、途中で失敗することなく、確実に完了させるための仕組みが必要。具体的には、状態管理、エラーからの回復、リソース管理などの技術が重要になります。
- 反復的な計画: エージェントは、最初に立てた計画を、途中で得られた情報に基づいて修正しながら、タスクを実行する必要があります。例えば、ウェブ検索の結果、当初の想定とは異なる情報が見つかった場合、エージェントは、計画を修正し、より適切な情報源を探す必要があります。(5:54:47)
- ノイズの多い環境への対応: ウェブ上には、不正確な情報や、誤解を招く情報が多数存在します。エージェントは、これらの情報に惑わされずに、信頼できる情報源から情報を収集する必要があります。
- コンテキスト管理: エージェントは、大量の情報を処理し、その中から、タスクに関連する情報を抽出する必要があります。また、過去の会話履歴やユーザーの嗜好など、長期的なコンテキストを保持し、それに基づいて行動する必要があります。(5:57:49)
Gemini Deep Researchは、これらの課題を克服するために、様々な技術を駆使しています。例えば、状態管理、エラーからの回復、クロスプラットフォーム対応、並列処理、曖昧さの解消、エンティティ解決などの技術が活用されています。
将来的には、専門知識の向上(特定分野の専門家レベルの知識)、パーソナライゼーション(ユーザーに合わせた情報提供)、マルチモーダル対応(テキストだけでなく、画像、音声、動画などを組み合わせた情報提供)などが期待されています。
Anthropic: How We Build Effective Agents (効果的なエージェントを構築する方法)
Anthropic流、効果的なAIエージェント構築の3原則:シンプルさ、エージェント視点、そして適切なユースケース
Anthropicは、AIの安全性と倫理性を重視する企業として知られています。Claudeなどの大規模言語モデルを開発しており、その技術を応用して、様々なAIエージェントを構築しています。この講演では、Anthropicが効果的なAIエージェントを構築する上で重要視している3つの原則が紹介されました。
- エージェントは万能ではない: すべてのユースケースにエージェントが適しているわけではない。複雑で価値のあるタスクに焦点を当てるべき。(1:04:46)
- エージェントは、曖昧で複雑な問題空間で特に力を発揮する。例えば、市場調査、戦略立案、研究開発など、明確な答えがない問題に対して、複数の情報源から情報を収集・分析し、洞察を提供することができる。
- 単純なタスクや、意思決定ツリーを簡単にマッピングできるタスクは、エージェントではなく、従来のソフトウェアで解決する方が効率的。例えば、定型的なデータ入力や、単純な計算などは、従来のソフトウェアの方が高速かつ正確に処理できる。
- エージェントの探索的な性質は、コスト(トークン消費)を増加させるため、タスクの価値がコストを正当化できる場合にのみ、エージェントを使用するべき。例えば、高額な取引の意思決定を支援するエージェントは、コストに見合う価値を提供できる可能性があるが、日常的なタスクを自動化するエージェントは、コストに見合わない場合がある。
- シンプルさを保つ: 環境、ツール、システムプロンプトの3つの基本コンポーネントに焦点を当て、複雑さを排除する。(1:07:58)
- エージェントは、「モデルがツールを使ってループする」ものと捉える。(1:08:06) このシンプルなモデルを基本とし、必要に応じて機能を拡張していく。
- 複雑なシステムを構築する前に、まず、基本的なコンポーネントを反復的に改善する。例えば、エージェントがウェブ検索ツールを使う場合、まずは、検索クエリの生成、検索結果のフィルタリング、情報の抽出などの基本的な機能を改善する。
- 最適化は後回しにし、まずはエージェントの基本的な動作を確立する。例えば、エージェントの応答速度を向上させる前に、まずは、エージェントが正しい応答を生成できるようにする。
- エージェントの視点に立つ: エージェントのコンテキストウィンドウを理解し、エージェントがどのように世界を見ているのかを把握する。(1:10:17)
- 開発者自身がエージェントのコンテキストウィンドウ内に入り込み、エージェントがどのように情報を認識し、判断しているのかを体験する。例えば、エージェントに特定のタスクを実行させ、その過程でエージェントが見ている情報や、エージェントが行っている推論を観察する。
- エージェントの視点に立つことで、エージェントが必要とする情報を特定し、適切なコンテキストを提供できるようになる。例えば、エージェントがウェブ検索を行う場合、どのようなキーワードで検索すれば、必要な情報が得られるかを理解する。
- エージェントの行動を理解し、改善するための手がかりを得ることができる。例えば、エージェントが誤った判断をした場合、その原因を特定し、修正することができる。
Anthropicは、これらの原則に基づいて、コーディングエージェント、検索エージェント、顧客サポートエージェントなど、様々なエージェントを開発しています。これらのエージェントは、異なるユースケースに対応していますが、ほぼ同じバックボーン(コード)を共有しており、シンプルさを保つことの重要性を示しています。
また、Anthropicは、将来のエージェントの進化について、以下の様な予測を提示しました。
- 予算認識: エージェントがコストとレイテンシを意識し、効率的にタスクを実行するようになる。 (1:14:06)
- 自己進化ツール: エージェントが自身のツールを設計・改善できるようになる。 (1:14:30) 例えば、エージェントが、自分のタスクを効率的に実行するために、新しいツールを開発したり、既存のツールを改良したりする。
- マルチエージェントコラボレーション: 複数のエージェントが協調してタスクを実行するようになる。 (1:14:56) 例えば、複数のエージェントが、互いに情報を共有し、役割分担しながら、複雑な問題を解決する。
Sierra: The Agent Development Life Cycle (エージェント開発ライフサイクル)
SierraのAIエージェント開発ライフサイクル:継続的改善と顧客中心主義
Sierraは、企業向けの会話型AIプラットフォームを提供しており、ChubbiesやSirius XMなどの顧客にAIエージェントを提供しています。この講演では、SierraがどのようにAIエージェントを構築し、継続的に改善しているのか、その開発ライフサイクルについて詳しく解説されました。Sierraは、AIエージェントを単なる技術的な構成要素ではなく、「製品」と捉え、顧客のニーズに合わせて継続的に改善していくことを重視しています。
Sierraのエージェント開発ライフサイクルは、ソフトウェア開発ライフサイクルに似ていますが、AIエージェント特有の課題に対応するために、いくつかの工夫が施されています。主な特徴は以下の通りです。
- 顧客との密接な連携: Sierraは、顧客と緊密に連携し、顧客のニーズやフィードバックを開発プロセスに反映させることを重視しています。専任の エージェントエンジニアリングチームとエージェントプロダクトマネジメントチームが、顧客と協力してエージェントを開発・改善しています。
- 継続的な改善: Sierraは、エージェントの性能を継続的に監視し、改善を行うための仕組みを構築しています。Experience Managerと呼ばれるツールを用いて、すべての会話を監視し、問題を特定します(1:30:09)。特定された問題はIssueとして登録され、テストケースが作成されます。テストに合格したエージェントがリリースされ、このサイクルが繰り返されます。
- 自動化とAIの活用: Sierraは、開発ライフサイクルの各段階を自動化し、AIを活用することで、開発速度を向上させています。例えば、AIを使って問題の特定を自動化したり、テストケースを自動生成したりしています(1:31:36)。
- 変更管理: 大規模な顧客に対応するために、変更管理の仕組みも構築しています。これにより、数百万件のリクエストを処理するエージェントでも、安全かつ効率的に改善を行うことができます。
- 音声エージェントへの対応: Sierraは、音声エージェントの開発にも力を入れています。Sierraのプラットフォームでは、ウェブエージェントと音声エージェントを同じコードベースで構築することができ、チャネルやモダリティに応じて応答を最適化することができます。
Sierraのエージェント開発ライフサイクルは、AIエージェントを「製品」として捉え、顧客のニーズに合わせて継続的に改善していくための、実践的なフレームワークを提供しています。
Morgan Stanley: What RL Means for Agents (エージェントにとっての強化学習の意味)
強化学習(RL)がAIエージェントにもたらす可能性:自律性と複雑な問題解決能力の向上
Morgan Stanleyの講演では、強化学習(RL)がAIエージェントにどのような意味を持つのか、その可能性と課題について、技術的な観点から議論されました。特に、RLがAIエージェントの自律性と複雑な問題解決能力を向上させるための鍵となる技術であると強調されました。
現在のAIエージェントは、多くの場合、複数のチャットボットやLLMの呼び出しを連鎖させることで構築されています。しかし、このようなアプローチでは、真の自律性や複雑なタスクへの対応能力に限界があります。例えば、ユーザーの指示を正確に理解し、状況に応じて柔軟に行動を変えることが難しい場合があります。
RLは、モデルが環境との相互作用を通じて、目標達成のための最適な戦略を学習するメカニズムを提供します。これにより、AIエージェントは、より自律的に行動し、複雑な問題を解決できるようになる可能性があります。具体的には、以下のようなメリットが期待できます。
- 自律性の向上: RLエージェントは、人間が事前にプログラムしたルールに従うのではなく、自ら試行錯誤を繰り返しながら、最適な行動を学習する。
- 複雑な問題への対応: RLエージェントは、長期的な視点を持って行動し、複雑な問題を解決するための戦略を学習することができる。
- 環境への適応: RLエージェントは、環境の変化に応じて、行動を柔軟に調整することができる。
講演では、DeepSeekのR1モデルを例に、RLが推論能力の向上に有効であることが示されました。R1モデルは、RLを用いて、長いChain of Thought(思考の連鎖)を生成し、複雑な質問に答える能力を獲得しました。具体的には、R1モデルは、質問応答タスクにおいて、人間が作成した推論過程を模倣するのではなく、RLを通じて自ら最適な推論過程を学習しました。(1:41:42)
しかし、RLをエージェントに適用するには、まだ多くの課題が残されています。例えば、以下のような点が挙げられました。
- 報酬設計の難しさ: どのような行動に対して報酬を与えるべきか、適切な報酬関数を設計する必要がある。報酬関数が不適切だと、エージェントは意図しない行動を学習してしまう可能性がある。
- 環境の複雑さ: 現実世界の環境は複雑で変化するため、RLエージェントが学習するための適切な環境を構築する必要がある。
- 探索と活用のバランス: RLエージェントは、新しい行動を試す「探索」と、既知の最良の行動を選択する「活用」のバランスを取る必要がある。探索が不足すると、局所的な最適解に陥ってしまう可能性がある。一方、活用が不足すると、学習が収束しない可能性がある。
- 報酬ハッキング: エージェントが報酬を最大化するために、本来の目的とは異なる行動をとってしまう可能性がある。
Morgan Stanleyは、これらの課題を克服するために、独自のオープンソースフレームワークを開発し、エージェントRLの研究を進めています。具体的には、grpoアルゴリズムをベースにしたフレームワークを開発し、マルチターンの対話環境でのRLを可能にしています。(1:50:49)
また、講演では、RLだけでなく、DSPyのようなプロンプトレベルでの自動化技術も、エージェントの性能向上に役立つ可能性があると指摘されました。DSPyは、LLMのプロンプトを自動的に最適化するツールであり、RLと組み合わせることで、より効率的な学習が可能になると考えられています。
Jane Street: Building AI-Powered Developer Tools at Jane Street (Jane StreetにおけるAIを活用した開発者ツールの構築)
Jane StreetにおけるAI活用開発者ツールの構築: OCamlと独自技術の融合、そして開発効率の革新
Jane Streetは、金融取引会社であり、OCamlという関数型プログラミング言語を主要な開発言語として使用しています。この講演では、Jane StreetがAIを活用した開発者ツールをどのように構築しているのか、そのアプローチと技術的な詳細が解説されました。
Jane Streetが直面した課題は、既存のAIツールがOCamlに対応していないことでした。OCamlは、一般的なプログラミング言語ではないため、AIモデルの学習データが少なく、既存のツール(GitHub Copilotなど)をそのまま適用することができませんでした。さらに、Jane Streetは、独自のビルドシステム、分散ビルド環境、コードレビューシステム(Iron)など、独自の開発インフラを持っており、既存のツールとの統合が困難でした。
そこで、Jane Streetは、独自のアプローチでAIツールを開発することにしました。具体的には、以下の様な技術を活用しています。
- カスタムモデルの構築: OCamlのコードを大量に学習させた独自の言語モデルを構築。このモデルは、OCamlの構文やセマンティクスを理解し、適切なコードを生成することができる。具体的には、diff生成タスクに特化したモデルをトレーニングし、コードの変更提案(最大100行程度)を生成できるようにした。(2:58:55)
- エディター統合: VS Code、Emacs、NeovimなどのエディターにAI機能を統合。開発者は、使い慣れたエディター上で、AIの支援を受けながらコーディングを行うことができる。AI開発環境(Aid)と呼ばれるサイドカーアプリケーションを開発し、エディターとの連携を実現している。(3:07:28)
- モデル評価: AIモデルの性能を評価するための仕組みを構築。具体的には、AIモデルが生成したコードが、正しくコンパイルできるか、型チェックをパスするか、テストケースをパスするかなどを自動的に評価する。Code Evaluation Service (CES) と呼ばれるシステムを開発し、強化学習の報酬としても活用している。(3:04:28)
- ワークスペースのスナップショット: 開発者の作業内容(コードの変更履歴、ビルドの状態など)を定期的に記録し、学習データとして活用。これにより、AIモデルは、開発者のコーディングスタイルやプロジェクトの特性を学習することができる。(3:02:02) 具体的には、ビルドの状態が「グリーン→レッド→グリーン」と変化する箇所を特定し、その間のコードの変更を学習データとして利用する。
- 強化学習: AIモデルの行動を改善するために、強化学習を活用。具体的には、AIモデルが生成したコードの品質に基づいて報酬を与え、より良いコードを生成するように学習させる。(3:03:28)
- プラグ可能なアーキテクチャ: さまざまなツールやモデルを柔軟に組み合わせることができるアーキテクチャを採用。これにより、新しいAIモデルやツールが登場した場合でも、迅速に対応することができる。(3:08:54)
Jane Streetは、これらの技術を組み合わせることで、OCaml開発者の生産性を向上させるAIツールを開発しました。例えば、AIエージェントは、コードの自動生成、バグの検出、コードレビューの支援などを行うことができます。
また、Jane Streetは、AIツールの開発において、ABテストなどの手法を用いて、継続的に改善を行っています。具体的には、異なるバージョンのAIモデルをランダムにユーザーに割り当て、どちらのバージョンがより高いパフォーマンスを示すかを比較します。
Bloomberg: Challenges to Scaling Agents for Generative AI Products (生成AI製品のエージェントをスケーリングするための課題)
Bloombergが直面する、生成AIエージェントのスケーリングにおける課題:金融情報の特殊性と信頼性への要求、そして組織構造
Bloombergは、金融情報サービスを提供する企業であり、40年以上にわたって金融業界に特化したデータと情報を提供してきました。この講演では、Bloombergが生成AI製品のエージェントをスケーリングする際に直面する課題について、具体的な事例を交えながら説明されました。BloombergがAIエージェントを構築する上で最も重視しているのは、金融業界の特殊性です。金融業界では、情報の精度、包括性、スピード、スループット、可用性などが非常に重要であり、これらの要素は妥協することができません。
Bloombergが直面する主な課題は、以下の通りです。
- エージェントアーキテクチャの進化: どのようにエージェントを設計し、進化させていくか。特に、金融業界の複雑な要件を満たすためには、どのようなアーキテクチャが最適であるかを検討する必要がある。例えば、単一の巨大なエージェントを構築するのではなく、複数の小さなエージェントを協調させるマルチエージェントシステムを採用するなどの選択肢がある。(3:26:52)
- 脆さへの対処: AIエージェントの出力が不正確であったり、不安定であったりする場合に、どのように対処するか。特に、金融情報においては、誤った情報が重大な結果をもたらす可能性があるため、高い信頼性が求められる。具体的には、AIエージェントの出力を検証するための仕組みや、エラーが発生した場合のリカバリープロセスなどを整備する必要がある。(3:25:10)
- 組織構造の最適化: AIエージェントの開発と運用を効率的に行うために、どのように組織を構築するか。特に、大規模な組織において、AIエージェントの開発をどのように進めるべきか、そのための体制をどのように整えるべきかが課題となる。Bloombergでは、垂直統合型のチームと水平統合型のチームを組み合わせることで、この課題に対処している。(3:27:19)
これらの課題に対処するために、Bloombergは、以下のようなアプローチを採用しています。
- ガードレールの構築: AIエージェントの出力が不適切でないかをチェックする仕組みを構築。例えば、金融アドバイスに該当する表現が含まれていないか、事実と異なる情報が含まれていないかなどを自動的に検出し、必要に応じて人間の介入を促します。このガードレールは、水平的なチームによって開発・運用され、すべてのエージェントに共通して適用される。(3:28:24)
- 水平的なチームと垂直的なチームのバランス: 共通的な機能(ガードレールなど)は水平的なチームが開発し、特定の機能(特定の金融商品に関する情報抽出など)は垂直的なチームが開発する。これにより、専門性を活かしつつ、効率的な開発体制を構築しています。
- 継続的な改善: AIエージェントの性能を継続的に監視し、改善を行う。具体的には、ユーザーからのフィードバックを収集したり、エージェントの出力を分析したりして、問題点を発見し、改善策を講じます。
Bloombergは、これらのアプローチを通じて、金融業界の厳しい要求に応えることができる、信頼性の高いAIエージェントを構築しています。
具体的な例として、決算発表の要約の自動生成や、構造化データの分析などが挙げられました。決算発表の要約では、企業のプレスリリースや財務諸表などの情報をAIエージェントが自動的に分析し、重要なポイントを抽出して要約を作成します。構造化データの分析では、AIエージェントが、市場データや企業データなどの構造化データを分析し、トレンドや異常値を検出します。例えば、米国消費者物価指数(CPI)の過去5四半期のデータを抽出するタスクにおいて、AIエージェントが誤って月次データを抽出してしまうといったエラーが発生する可能性がありますが、Bloombergでは、このようなエラーを検出し、修正するための仕組みを構築しています。(3:24:11)
Brightwave: Knowledge Agents for Finance Workflows (金融ワークフローのためのナレッジエージェント)
Brightwaveのナレッジエージェント:金融ワークフローの効率化と高度化 – 大量ドキュメントからの洞察抽出
Brightwaveは、金融ワークフローに特化したナレッジエージェントを開発しています。このエージェントは、大量の非構造化データ(例えば、企業の財務諸表、契約書、ニュース記事、M&A関連の開示資料など)を分析し、重要な情報を抽出・要約することで、金融専門家(投資銀行、プライベートエクイティ、コンサルティングなど)の意思決定を支援します。Brightwaveのナレッジエージェントは、従来の人間による情報収集・分析作業を大幅に効率化し、より高度な分析を可能にすることを目指しています。
具体的には、以下のようなユースケースが想定されます。
- デューデリジェンス: M&Aや投資の際に、対象企業の財務状況、契約関係、法的リスクなどを詳細に分析する。
- 競合分析: 競合他社の戦略、製品、財務状況などを分析し、自社の戦略立案に役立てる。
- 市場調査: 特定の市場や業界の動向を分析し、投資機会やリスクを評価する。
- コンプライアンス: 規制当局への報告書や開示資料を作成する際に、必要な情報を収集・整理する。
Brightwaveのエージェントは、以下のような特徴を持っています。
- 大量のドキュメントの処理: 数千ページにも及ぶドキュメントを短時間で処理し、重要な情報を抽出する。例えば、M&Aのデューデリジェンスにおいて、対象企業の財務諸表、契約書、規制当局への提出書類などを分析し、リスク要因や潜在的なシナジー効果を特定します。(3:30:56)
- 事実パターンの統合: 複数のドキュメントから得られた情報を統合し、一貫性のある分析結果を提供する。例えば、企業の財務諸表とニュース記事を組み合わせて分析し、企業の業績に関する包括的な理解を深めます。
- 詳細情報へのドリルダウン: ユーザーが関心のある情報について、より詳細な情報を掘り下げて確認できる。例えば、財務諸表の特定の項目について、その根拠となった情報を確認したり、関連するニュース記事を参照したりすることができます。(3:48:44)
- 証拠の提示: 分析結果の根拠となった情報を提示する。これにより、ユーザーは、AIエージェントの分析結果を検証し、信頼性を確認することができます。
- インタラクティブなインターフェース: ユーザーがエージェントと対話しながら、情報を探索できる。ユーザーは、自然言語で質問をしたり、特定のキーワードで検索したり、グラフや表を操作したりすることができます。
Brightwaveは、これらの機能を実装するために、様々な技術を活用しています。例えば、非推論モデルの限界を克服するために、エンドツーエンドの強化学習(RL)を用いたり(3:35:05)、ユーザーインターフェースの改善に力を入れたりしています。具体的には、LLMに対して、単に情報を抽出するだけでなく、その情報がなぜ重要なのか、どのような意味を持つのかを説明するように指示することで、より質の高い分析結果を生成しています。
また、Brightwaveは、金融専門家の「勘」や「経験」をAIエージェントに組み込むことの重要性を強調しています。AIエージェントは、あくまで人間の意思決定を支援するツールであり、人間の専門知識を完全に代替することはできないと考えています。そのため、Brightwaveのエージェントは、ユーザーが自分の知識や経験に基づいて、AIエージェントの分析結果を解釈し、最終的な判断を下せるように設計されています。
Windsurf: Agents are built at the fringe: getting from 90 to 100 (限界に挑むエージェント:90%から100%へ)
Windsurf: AIエージェント搭載型IDE、開発者の創造性を解き放つ – コーディングの未来を再定義する
Windsurfは、AIエージェントを搭載した統合開発環境(IDE)であり、開発者の生産性を向上させ、創造的な作業に集中できるようにすることを目的としています。従来のIDEが、コードの編集、コンパイル、デバッグなどの基本的な機能を提供するのに対し、Windsurfは、AIエージェントが開発者の作業を積極的に支援し、より高度な機能を提供します。Windsurfは、AIエージェントを「開発者の相棒」と位置づけ、人間とAIが協力してソフトウェア開発を行う新しいパラダイムを提案しています。
Windsurfは、以下の3つの原則に基づいて構築されています。
- 軌跡(trajectories): ユーザーの行動(コードの編集、ファイルの閲覧、ターミナルコマンドの実行など)を追跡し、次のステップを予測する。(5:14:17) Windsurfは、ユーザーが何をしているのか、何をしようとしているのかを常に把握し、それに基づいて、適切な支援を提供します。例えば、ユーザーが新しい関数を書き始めた場合、Windsurfは、その関数の目的を推測し、関連するドキュメントを自動的に検索したり、コードの候補を提示したりします。また、ユーザーがターミナルでコマンドを実行した場合、Windsurfは、そのコマンドの結果を監視し、必要に応じてコードを修正したり、エラーメッセージを表示したりします。
- メタ学習(meta learning): ユーザーや組織の好み、コードベースの特性などを学習し、パーソナライズされた支援を提供する。(5:19:53) Windsurfは、ユーザーが過去にどのようなコードを書いたか、どのようなエラーを犯しやすいか、どのようなコーディングスタイルを好むかなどを学習し、それに基づいて、より適切なコード補完候補を提示したり、エラーを早期に発見したりします。また、Windsurfは、プロジェクトの構造や依存関係を理解し、それに基づいて、コードの生成やリファクタリングを支援します。
- インテリジェンスによるスケーリング(scale with intelligence): LLMの進化に合わせて、製品が自動的に改善されるように設計されている。(5:22:44) Windsurfは、最新のLLMの能力を活用し、常に最高のパフォーマンスを提供することを目指しています。例えば、新しいLLMが登場した場合、Windsurfは、そのモデルを自動的に組み込み、ユーザーに提供します。また、Windsurfは、LLMの性能向上に合わせて、自身の機能を拡張していくことができます。
これらの原則に基づき、Windsurfは、以下のような機能を提供しています。
- コンテキストを意識したコード補完: ユーザーが入力しているコードだけでなく、プロジェクト全体や関連ファイルを考慮して、適切なコード補完候補を提示する。例えば、ユーザーが関数呼び出しの引数を入力している場合、Windsurfは、その関数の定義を参照し、引数の型や意味を考慮して、候補を提示します。また、Windsurfは、ユーザーのコーディングスタイルやプロジェクトの規約に合わせて、コード補完候補を調整することができます。
- 自動的なタスク実行: ユーザーの行動に基づいて、必要なタスク(依存関係のインストール、ビルド、テストなど)を自動的に実行する。例えば、ユーザーが新しいライブラリをインポートした場合、Windsurfは、自動的にそのライブラリをインストールし、プロジェクトの設定を更新します。また、ユーザーがコードを保存した場合、Windsurfは、自動的にコードをフォーマットし、テストを実行し、エラーがあれば警告を表示します。
- ターミナルとの統合: ターミナルでのコマンド実行を監視し、エージェントのコンテキストに反映させる。例えば、ユーザーがターミナルでgit commitコマンドを実行した場合、Windsurfは、そのコミットメッセージを自動的に生成したり、関連するファイルを変更したりすることができます。(5:17:17) また、Windsurfは、ターミナルで実行されたコマンドの出力を解析し、エラーメッセージや警告をわかりやすく表示することもできます。
- ルールファイルの不要化: ユーザーが明示的にルールを設定しなくても、エージェントが自動的に学習し、適切な動作を行う。例えば、ユーザーが特定のコーディングスタイルを好む場合、Windsurfは、そのスタイルを自動的に学習し、コード補完やコード生成に反映させます。
- 暗黙的なコンテキストの理解: ユーザーが明示的に指示しなくても、文脈から意図を推測し、適切なアクションを実行する。例えば、ユーザーが「このバグを修正して」とだけ指示した場合でも、Windsurfは、どのバグを指しているのかを推測し、修正を試みます。
Windsurfは、これらの機能を通じて、開発者がより少ない労力で、より高品質なコードを作成できるよう支援します。特に、AIエージェントがユーザーの行動を常に学習し、適応していくことで、開発者は、より創造的な仕事や、より高度な問題解決に集中できるようになります。Windsurfは、AIエージェントが開発者の「相棒」となり、共にソフトウェア開発を行う未来を目指しています。
SuperDial: Voice AI: Your Bot Isn’t Special (音声AI:あなたのボットは特別じゃない)
SuperDial: 音声AIエージェント構築の舞台裏 – 実用性と信頼性の追求、そして「会話」の重要性
SuperDialは、ヘルスケア業界向けに、電話での問い合わせ対応を自動化する音声AIエージェントを提供しています。この講演では、SuperDialが音声AIエージェントを構築する上で直面した課題と、それを克服するためのアプローチについて、具体的な事例を交えながら解説されました。SuperDialは、「Your Bot Isn’t Special(あなたのボットは特別じゃない)」というタイトルが示すように、最先端の技術を追求するだけでなく、実用性と信頼性を重視しています。そして、何よりも「会話」そのものの品質を重要視しています。
SuperDialが音声AIエージェントを構築する上で直面した主な課題は、以下の通りです。
- 多様な会話への対応: ヘルスケア業界の電話対応は、患者の症状、予約の変更、保険の確認、請求に関する問い合わせなど、多岐にわたる内容を含み、会話の流れは予測が難しい。さらに、話し言葉は書き言葉と異なり、曖昧さや省略が多く、文法的に不完全な場合も多い。
- リアルタイム性の要求: 電話での会話はリアルタイムで行われるため、応答の遅延は許されない。ユーザーが不快に感じない、自然な会話を実現する必要がある。特に、人間のオペレーターと同等の応答速度が求められる場合が多い。
- 信頼性の確保: 医療情報を取り扱うため、誤った情報を提供することは許されない。正確性、安全性が最優先事項となる。特に、患者の健康状態や治療に関する情報については、細心の注意が必要である。
- 技術的な制約: 音声認識、音声合成、自然言語処理などの技術には、まだ限界がある。特に、電話を通じた音声は、ノイズや歪みが多く、認識精度が低下しやすい。また、話し言葉特有の表現や、方言、アクセントなどにも対応する必要がある。
これらの課題に対処するために、SuperDialは、以下のようなアプローチを採用しています。
- 会話設計の重視: ユーザーの意図を正確に理解し、適切な応答を生成するための会話設計に力を入れている。スクリプトの作成、分岐の設計、例外処理などを細かく検討し、自然でスムーズな会話を実現する。具体的には、以下のような点を考慮している。(5:58:15)
- 質問の仕方:オープンクエスチョンとクローズドクエスチョンを使い分け、ユーザーから必要な情報を効率的に引き出す。
- 応答の仕方:ユーザーの感情や状況に合わせて、適切なトーンや言葉遣いで応答する。
- エラー処理:ユーザーの発言を正しく認識できなかった場合や、システムが対応できない質問をされた場合に、適切に対処する。
- 水平的な音声AIスタックの活用: 音声認識、音声合成、自然言語処理などの基盤技術は、既存のツール(PipeCat, Deepgramなど)を活用し、自社では会話設計と垂直統合に注力する。これにより、開発リソースを効率的に活用し、より高品質な会話体験を提供できる。(5:59:30, 6:03:53) 具体的には、以下のようなツールを活用している。
- PipeCat: 音声AIのオーケストレーションフレームワーク。
- Deepgram: 音声認識エンジン。
- TensorZero: LLMの推論を高速化するツール。
- ラストマイル問題への注力: 音声合成の調整(発音、スペル、イントネーションなど)、電話特有の問題(話し方の癖、背景ノイズ、エコーなど)への対応、専門用語の扱いなど、細部にまでこだわることで、ユーザー体験を向上させる。(6:01:50) 具体的には、以下のような取り組みを行っている。
- 発音辞書のカスタマイズ: 専門用語や固有名詞の発音を正しく設定する。
- 音声合成パラメータの調整: 話速、声の高さ、抑揚などを調整し、より自然な音声にする。
- ノイズ除去: 背景ノイズやエコーを除去し、音声認識精度を向上させる。
- 継続的な改善: 実際の通話データを分析し、エージェントの性能を継続的に改善する。エラーの発生原因を特定し、会話設計やモデルの調整を行うことで、より正確で信頼性の高いエージェントを構築する。
- フォールバックの準備: 予期せぬ問題が発生した場合に備え、人間が対応できるように準備しておく。AIエージェントが対応できない場合や、ユーザーが人間との対話を希望する場合には、スムーズに人間のオペレーターに接続できるようにする。(6:04:04)
SuperDialは、これらのアプローチを通じて、ヘルスケア業界の厳しい要求に応えることができる、信頼性の高い音声AIエージェントを構築しています。また、SuperDialは、「Your Bot Isn’t Special」という考え方を強調し、AIエージェントの構築において、技術的な優位性だけでなく、会話設計やユーザー体験の重要性を訴えています。
Method/OpenPipe: How we scaled 500m AI agents in production with 2 engineers (2人のエンジニアで5億のAIエージェントを本番環境でスケーリングした方法)
Method/OpenPipe: 少数精鋭で実現する、大規模AIエージェント運用の秘訣 – ファインチューニングと徹底的な効率化
Method Financialは、さまざまなデータソースから負債データを収集・集約するプラットフォームを提供しています。この講演では、Method FinancialがOpenPipeと協力して、AIエージェントをどのようにスケーリングし、本番環境で運用しているのか、その技術的な詳細と戦略について解説されました。Method Financialは、わずか2人のエンジニアで、5億以上のAIエージェントを運用するという驚異的な成果を上げています。これは、AIエージェントのスケーリングが、必ずしも大規模なチームや莫大な投資を必要としないことを示しています。
Method Financialは、当初、GPT-4を活用して非構造化データを解析するエージェントを構築しました。しかし、このアプローチは、以下の様な課題を抱えていました。
- コスト: GPT-4のAPI利用料が高額であった。1ヶ月で7万ドルもの費用が発生し、ビジネスの持続可能性を脅かすレベルであった。(5:34:01)
- レイテンシ: GPT-4の応答速度が遅く、リアルタイムでの利用が困難であった。Method Financialのサービスでは、200ミリ秒以下の応答時間が求められていたが、GPT-4では1秒以上かかる場合があった。(5:38:18)
- 精度: GPT-4の出力が不安定であり、金融データとして必要な精度を満たせない場合があった。具体的には、GPT-4のエラー率は11%であり、Method Financialが求める9%以下のエラー率を達成できなかった。(5:37:30)
これらの課題を解決するために、Method Financialは、OpenPipeと協力し、以下の様なアプローチを採用しました。
- ファインチューニング: 特定のタスク(負債データの抽出)に特化した、より小さく、高速で、安価なオープンソースモデル(LLaMA 3 8Bなど)をファインチューニングする。(5:43:26) これにより、GPT-4よりも低いコストで、同等以上の精度を達成できる可能性がある。
- ベンチマーク: 複数のモデル(GPT-4、GPT-3.5 Turbo、ファインチューニングしたモデル)の性能(エラー率、レイテンシ、コスト)を比較し、最適なモデルを選択する。(5:37:12) これにより、特定のタスクに最適なモデルを客観的に評価することができる。
- 継続的な改善: 本番環境でのデータを活用して、モデルを継続的に改善する。具体的には、OpenPipeのツールを用いて、モデルの出力を評価し、誤りがあれば修正し、そのデータを再学習に利用する。(5:42:48) これにより、モデルの精度を継続的に向上させることができる。
このアプローチにより、Method Financialは、GPT-4よりもエラー率が低く、レイテンシが短く、コスト効率の高いモデルを実現しました。具体的には、エラー率を11%から4%未満に削減し、レイテンシを1秒から200ミリ秒未満に短縮し、コストを大幅に削減することに成功しました。
Method Financialの事例は、AIエージェントのスケーリングが、必ずしも大規模なチームや莫大な投資を必要としないことを示しています。適切な技術選定(オープンソースモデルの活用、ファインチューニング)と戦略(継続的な改善、徹底的な効率化)によって、少数精鋭のチームでも、大規模なAIエージェントを運用することが可能であることを証明しています。
Ramp: AI Agents: the Bitter Lesson (AIエージェント:苦い教訓)
Ramp: AIエージェント構築における「苦い教訓」 – 計算能力こそが長期的な成功の鍵、そしてLLMをバックエンドに据える未来
Rampは、企業の経費管理、支払い、調達などを支援する金融プラットフォームを提供しています。この講演では、RampがAIエージェントを構築する上で学んだ「苦い教訓(The Bitter Lesson)」について、具体的な事例を交えながら解説されました。「苦い教訓」とは、AI研究の歴史において、短期的な成果を追求するのではなく、計算能力の向上に合わせてスケールする汎用的な手法(例えば、探索や学習)が、最終的には最も効果的であるという教訓です。これは、AI研究者のRich Sutton氏が提唱した概念であり、AIの歴史を振り返ると、特定のタスクに特化した手法よりも、計算能力の向上によって自然に性能が向上する汎用的な手法が、長期的には勝利を収めてきたという事実に基づいています。
Rampは、AIエージェントを構築する際に、以下の様な3つの異なるアーキテクチャを検討しました。
- 決定論的: 人間が手作業でルールを記述する。このアプローチは、最も単純で、初期段階では迅速に結果を得ることができるが、柔軟性やスケーラビリティに欠ける。例えば、特定のフォーマットのCSVファイルしか処理できない、新しいフォーマットに対応するためには、人間が手作業でルールを追加する必要がある、といった問題が発生する。
- 制約付きエージェント: LLMを活用するが、その役割を限定する。例えば、LLMに特定のタスク(テキストの分類、情報の抽出など)を実行させ、その結果を従来のプログラムで処理する。このアプローチは、ある程度の柔軟性とスケーラビリティを持つが、LLMの能力を十分に活用できない場合がある。例えば、LLMが生成したテキストを人間がレビューする必要がある、LLMが複雑な推論を必要とするタスクに対応できない、といった問題が発生する。
- 制約なしエージェント: LLMに最大限の自由度を与え、複雑なタスクを処理させる。例えば、LLMにコードインタープリターへのアクセス権を与え、CSVファイルの解析などのタスクを自律的に実行させる。(6:13:42) このアプローチは、最も柔軟性が高く、スケーラビリティも高いが、LLMの能力に大きく依存する。LLMが誤った判断をしたり、予期しない行動をとったりするリスクがある。
Rampは、当初、決定論的なアプローチを採用していましたが、柔軟性やスケーラビリティに限界があることに気づきました。次に、制約付きエージェントのアプローチを試しましたが、LLMの能力を十分に活用できていないと感じました。
最終的に、Rampは、制約なしエージェントのアプローチを採用することにしました。このアプローチでは、LLMにコードインタープリターへのアクセス権を与え、CSVファイルの解析などの複雑なタスクを自律的に実行させます。最初は、LLMの出力が不安定で、エラーも多く発生しましたが、計算能力の向上(より高性能なLLMの利用、より多くの計算資源の投入)とともに、エージェントの性能は劇的に向上しました。
Rampは、この経験から、「苦い教訓」の正しさを実感し、AIエージェントの構築においては、計算能力の向上に合わせてスケールするシステムを設計することが重要であると結論付けました。
講演の後半では、LLMをバックエンドとして利用する、新しいWebアプリケーションのアーキテクチャが提案されました。このアーキテクチャでは、LLMがユーザーからのリクエストを受け取り、データベースへのアクセス、コードの実行、外部APIの呼び出しなど、必要な処理をすべて自律的に行います。(6:18:23) 従来のWebアプリケーションのように、人間が事前に定義したAPIやロジックに従うのではなく、LLMが自ら判断し、行動する点が特徴です。このアーキテクチャは、まだ実験的な段階ですが、将来的には、Webアプリケーションの開発方法を大きく変える可能性があります。
OpenAI: Creating Agents that Co-Create (共創するエージェントの創造)
OpenAI: 人間とAIの共創を可能にするエージェント – 創造性の新たな地平、そして協調的未来へ
OpenAIのKarina氏は、AIエージェントの進化の方向性として、「共同イノベーター(Co-Innovator)」という概念を提示しました。これは、単にタスクを実行するだけでなく、人間と協力して新しいアイデアを生み出し、創造的な活動を行うことができるエージェントです。Karina氏は、AIエージェントが、人間の創造性を拡張し、新たな可能性を切り開くツールになると予測しています。そして、AIエージェントは、人間とAIが互いの強みを活かし、協力し合う未来を創造する上で、重要な役割を果たすと強調しました。
Karina氏は、AI研究における2つのスケーリングパラダイム(次トークン予測と強化学習)が、新しい製品研究をどのように解き放ったかについて説明しました。
- 次トークン予測: 大規模言語モデル(LLM)は、大量のテキストデータを学習することで、次にくる単語や文章を予測する能力を獲得しました。この能力は、文章生成、翻訳、要約など、様々なタスクに応用できます。
- 強化学習: LLMは、強化学習を通じて、より複雑なタスクを実行する能力を獲得しました。特に、Chain of Thought(思考の連鎖)と呼ばれる手法を用いることで、LLMは、推論過程を明示的に示すことができ、より高度な問題解決能力を発揮します。(7:13:11) 具体的には、問題を複数のステップに分解し、各ステップでどのような推論を行ったのかを言語化することで、より複雑な問題にも対応できるようになります。
これらの技術的進歩により、AIエージェントは、単なるタスク実行者から、人間のパートナーへと進化しつつあります。Karina氏は、ChatGPTやClaudeの開発から得られた教訓として、以下の点を挙げました。
- 馴染みのあるフォームファクター: 新しい機能をユーザーに提供する際には、馴染みのあるインターフェース(ファイルアップロードなど)を通じて提供することが重要。これにより、ユーザーは、新しい機能を抵抗なく受け入れ、使いこなすことができます。(7:19:57)
- モジュール構成: 製品の機能をモジュール化し、将来の拡張に備えることが重要。これにより、新しい技術や機能が登場した場合でも、迅速に対応することができます。
- 信頼の構築: ユーザーがAIエージェントを信頼できるように、透明性や制御性を提供することが重要。ユーザーは、AIエージェントの動作を理解し、必要に応じて介入できる必要があります。
OpenAIは、人間とAIが共同で作業できる柔軟なインターフェースの開発に力を入れています。その一例として、Canvasと呼ばれるツールが紹介されました。Canvasは、テキスト、画像、コードなどを自由に組み合わせることができる、いわば「デジタルなキャンバス」です。ユーザーは、Canvas上で、AIエージェントと対話しながら、ドキュメントを作成したり、アイデアをブレインストーミングしたり、コードを書いたりすることができます。(7:23:30)
Canvasは、以下のような特徴を持っています。
- 柔軟性: テキスト、画像、コードなど、さまざまな種類のコンテンツを扱うことができる。
- 協調性: 複数のユーザーが同時にCanvas上で作業できる。
- 拡張性: 新しいツールや機能を簡単に追加できる。
- 創造性: AIエージェントが、ユーザーの創造的な活動を支援する。例えば、アイデアの提案、文章の校正、画像の生成などを行う。
Karina氏は、Canvasのようなツールが、人間とAIの共創を促進し、新しい形の創造性を生み出す可能性があると強調しました。
将来的には、AIエージェントは、単なるタスク実行者ではなく、人間のパートナーとして、新しい知識やアイデアを生み出す「共同イノベーター」へと進化していくことが期待されます。例えば、科学者はAIエージェントと協力して新しい仮説を立て、実験を設計し、データを分析することができます。アーティストは、AIエージェントと協力して新しい音楽、絵画、物語を創作することができます。
Gemini: The Next AI Engineers (次世代のAIエンジニア)
次世代のAIエンジニアを育む:Geminiの教育への取り組み – AIリテラシーをすべての人に、そして創造的な問題解決能力を
GoogleのStefania Druga氏は、次世代のAIエンジニアを育成するための教育の重要性と、そのための具体的なアプローチについて講演しました。Druga氏は、AIリテラシーが、今後の社会において不可欠なスキルになると考えており、子供たちがAIについて学び、AIを構築する能力を身につけることが重要であると強調しました。Druga氏は、AI技術が急速に進化する中で、AIを「使う」だけでなく、「作る」側の人材を育成することが、社会全体の発展に不可欠であると考えています。そして、AI教育は、単に技術的な知識を教えるだけでなく、創造的な問題解決能力や批判的思考力を育むことにもつながると主張しています。
Druga氏は、MIT Scratchを拡張したCognimatesプラットフォームを紹介しました。Cognimatesは、子供たちがAIについて学び、AIモデルを構築し、ロボットやスマートデバイスをプログラミングできるプラットフォームです。
Scratchは、ブロックを組み合わせることでプログラムを作成できるビジュアルプログラミング言語であり、子供たちにプログラミングの基礎を教えるためのツールとして広く利用されています。Cognimatesは、ScratchにAI関連の機能(画像認識、音声認識、自然言語処理など)を追加することで、子供たちがAIをより身近に感じ、AI技術を創造的に活用できるようになることを目指しています。
Cognimatesは、以下のような特徴を持っています。
- 視覚的なプログラミング: 子供たちは、ブロックを組み合わせることで、AIエージェントをプログラミングできる。複雑なコードを書く必要がないため、プログラミングの初心者でも簡単にAIエージェントを構築できる。
- モデルのトレーニング: 子供たちは、自分で集めたデータ(画像、音声、テキストなど)を使って、AIモデルをトレーニングできる。これにより、AIモデルがどのように学習するのかを体験的に理解することができる。例えば、子供たちは、自分で撮影した写真を使って、犬と猫を識別するAIモデルをトレーニングすることができる。
- ハードウェアとの連携: 子供たちは、AIエージェントを使って、ロボットやスマートデバイスを制御できる。例えば、AIエージェントを使って、ロボットを動かしたり、スマートスピーカーと対話したりすることができる。
- オープンソース: Cognimatesは、オープンソースであり、誰でも自由に利用、改変、拡張できる。これにより、世界中の人々がCognimatesの開発に参加し、AI教育の普及に貢献することができる。
Druga氏は、Cognimatesを使った実験を通じて、子供たちがAIエージェントを構築する過程で、AIリテラシー、データリテラシー、科学的思考を身につけることができることを示しました。子供たちは、AIエージェントの動作を観察し、仮説を立て、実験を行い、結果を分析することで、AIの仕組みを理解し、AIをより効果的に活用するためのスキルを習得します。
また、Druga氏は、家族向けのペアプログラミングコンパニオンの設計研究についても紹介しました。このコンパニオンは、AIエージェントが子供たちと協力してコーディングを行うことで、子供たちの学習を支援します。AIエージェントは、子供たちにプログラミングのヒントを与えたり、エラーを修正したり、新しいアイデアを提案したりすることで、子供たちの学習意欲を高め、学習効果を向上させます。(7:39:11)
Druga氏は、AIリテラシーが、EU AI法の一部として法律で義務付けられていることを指摘し(7:51:15)、AI教育の重要性を改めて強調しました。AI技術が社会に浸透するにつれて、AIリテラシーは、すべての人々にとって不可欠なスキルとなります。Druga氏の研究は、AI教育の普及と、次世代のAIエンジニアの育成に大きく貢献することが期待されます。
Meta: What does it take to build a personal, local, private AI Agent that augments you deeply? (あなたを深く拡張する、個人的、ローカル、プライベートなAIエージェントを構築するには何が必要か?)
Metaが描く未来:パーソナル、ローカル、プライベートなAIエージェント – 真の個人拡張へ、そして開かれたエコシステム
MetaのSumith Chintala氏は、個人的なAIエージェントを構築する上で、ローカルでプライベートであることを重視する理由と、そのための技術的な課題について議論しました。Chintala氏は、AIエージェントが真にユーザーの役に立つためには、ユーザーの個人的な情報を深く理解し、ユーザーの代わりに様々なタスクを実行できる必要があると考えています。しかし、そのためには、プライバシーとセキュリティの問題を解決し、ユーザーが安心してAIエージェントを利用できる環境を構築することが不可欠です。Chintala氏は、AIエージェントを、単なる便利なツールではなく、人間の能力を拡張し、個人の自由と自律性を高めるためのパートナーとして捉えています。
Chintala氏は、個人的なAIエージェントは、ユーザーの生活のコンテキストを深く理解する必要があるため、クラウドベースのサービスよりもローカルでプライベートな方が望ましいと主張しています。その理由として、以下の点を挙げています。
- プライバシー: 個人的なAIエージェントは、ユーザーの機密情報(メール、メッセージ、カレンダー、位置情報、健康情報など)にアクセスする必要があるため、プライバシー保護が最優先事項となる。クラウドベースのサービスでは、ユーザーのデータが第三者に漏洩したり、不正利用されたりするリスクがある。一方、ローカルでプライベートなAIエージェントは、ユーザーのデバイス上でのみ動作するため、データが外部に送信されることはなく、プライバシーが保護される。(7:59:53)
- 信頼性: ユーザーは、自分のAIエージェントが自分の利益のために行動することを確信できる必要がある。クラウドベースのサービスでは、サービス提供者の意図や都合によって、AIエージェントの行動が左右される可能性がある。例えば、サービス提供者が広告を表示したり、特定の製品を推奨したりするために、AIエージェントの行動を操作する可能性がある。一方、ローカルでプライベートなAIエージェントは、ユーザー自身の制御下にあるため、そのような心配はない。
- 制御性: ユーザーは、自分のAIエージェントの動作を完全に制御できる必要がある。クラウドベースのサービスでは、ユーザーがAIエージェントの動作を詳細に制御することが難しい場合がある。例えば、AIエージェントがどのようなデータを収集し、どのように利用しているのかを、ユーザーが完全に把握することは困難である。一方、ローカルでプライベートなAIエージェントは、ユーザーが自由に設定を変更したり、機能を拡張したりすることができる。
- 検閲耐性: ユーザーは、自分の考えや発言が、AIによって検閲されたり、削除されたりすることを心配する必要がない。(8:03:05) クラウドベースのサービスでは、サービス提供者のポリシーや、政府の規制によって、AIエージェントの利用が制限される可能性がある。一方、ローカルでプライベートなAIエージェントは、ユーザー自身の管理下にあるため、そのような心配はない。
- 説明責任: ユーザーは、AIの挙動に対して、誰が責任を負うのかを明確に知っておく必要がある。
Chintala氏は、ローカルでプライベートなAIエージェントを構築するための技術的な課題として、以下の点を挙げました。
- ローカルモデルの推論速度: 現在のローカルモデル(スマートフォンやPC上で動作するモデル)は、クラウドベースのモデルに比べて、推論速度が遅い。特に、大規模な言語モデルや複雑な推論を必要とするモデルをローカルで実行することは、計算資源の制約から困難な場合がある。(8:05:37)
- オープンなマルチモーダルモデルの能力: オープンソースのマルチモーダルモデル(テキスト、画像、音声などを組み合わせて処理できるモデル)は、まだ十分に高性能ではない。特に、複雑な視覚情報を理解したり、複数の情報を統合して推論したりする能力は、まだ限定的である。(8:06:44)
- 壊滅的なアクションの分類: AIエージェントが、ユーザーにとって有害な行動(誤った送金、個人情報の漏洩、不適切な発言など)を取らないようにするための仕組みが必要。AIエージェントが、どのような行動が「壊滅的」であるかを判断し、そのような行動を未然に防ぐための技術が必要となる。(8:08:05)
- オープンソースの音声モード: 音声インターフェースを備えたオープンソースのAIエージェントは、まだ十分に開発されていない。音声認識、音声合成、自然言語処理などの技術を組み合わせ、スムーズな音声対話を実現する必要がある。(8:09:16)
Chintala氏は、これらの課題は、オープンソースモデルの進化(LLaMA 3など)や、PyTorchなどの技術の進歩によって、徐々に克服されつつあると述べています。そして、将来的には、個人が自分のAIエージェントを所有し、ローカルでプライベートに運用することが一般的になると予測しています。Chintala氏のビジョンは、AIエージェントが、単なる便利なツールではなく、人間の能力を拡張し、個人の自由と自律性を高めるためのパートナーとなる未来を描いています。そして、その未来は、オープンソースの技術と、開かれたエコシステムによって実現されると信じています。