LLMエージェントの評価・監視OSS「Future AGI」

「動く」と「使える」の間に横たわる深い溝

「動くプロトタイプなら、週末のハッカソンで作れる。でも、それを本番環境で安定稼働させるには、数ヶ月の血の滲むようなデバッグが必要になる」

最近、スタートアップのCTOや大企業のAI推進担当者と話をしていると、決まってこの話題に行き着く。数年前の「LLMスゲー！」という熱狂が落ち着き、プロンプトエンジニアリングの魔法が解けた今、現場を覆っているのは「予測不可能性」という泥臭い現実だ。自律的に動くはずのAIエージェントは、ちょっとした文脈のズレでいとも簡単に幻覚（ハルシネーション）を見始め、暴走する。

このじゃじゃ馬をどうやって手なずけるのか。現在、多くの開発チームは監視（Observability）のためにLangfuseやLangSmithを入れ、安全性のために別のガードレールツールをプロキシとして挟み、さらに評価（Evals）のために専用のスクリプトを自作している。結果として出来上がるのは、複数のツールを複雑なAPIで繋ぎ合わせた「フランケンシュタインのようなシステム」だ。

本番環境で起きたAIの失敗をトレースで見つけても、それを次のテストケースやシミュレーションに落とし込むまでに、データの抽出やフォーマット変換といった無駄な手作業が発生する。つまり、改善のためのフィードバックループが完全に断絶してしまっているのだ。

ループを閉じるという思想

そんな「AIエージェント運用のツギハギ疲れ」に対する、ひとつの強烈なアンサーとなるプラットフォームが現れた。Apache 2.0ライセンスで公開されたOSS「Future AGI」だ。

リポジトリのトップに掲げられたメッセージは、現場のエンジニアの心を射抜くほどに率直である。

“AI Agents hallucinate. Fix it faster.”（AIエージェントはハルシネーションを起こす。さっさと直そう）

Future AGIの核心は、これまでバラバラだった「トレース」「評価」「シミュレーション」「ガードレール」「ゲートウェイ」を、ひとつのプラットフォームに統合した点にある。単なる「全部入りのお得なツール」と侮ってはいけない。その真の価値は、機能の数ではなく、これまで断絶していた改善のループを「閉じた（Close the loop）」ことにある。

機能領域	従来のツギハギ環境	Future AGIの世界線
可視化とトレース	独立した監視ツール（画面を見るだけ）	トレース上のエラーを1クリックで評価用データセットへ変換
評価とシミュレーション	手製のPythonスクリプトや別サービス	同じUI内でシームレスにテスト・音声エージェントの模擬実行
ゲートウェイ / ガードレール	別のプロキシサーバーでルーティング管理	コスト管理やリアルタイムの不適切発言ブロックを一元化

この統合が意味するのは、運用フローの劇的な変化だ。本番で発生したエッジケース（奇妙な挙動）をトレース画面で見つけたら、それをそのままデータセットに追加し、新しいプロンプトの評価を回す。うまく動くことが確認できたら、そのルールをゲートウェイのガードレールに即座に反映させる。

これまでデータエンジニアやMLOpsエンジニアが手作業でバケツリレーをしていたパイプラインが、単一のプラットフォーム上で淀みなく流れる。システムが「監視される対象」から、経験を積んで「自己改善していくエージェント」へと進化するのだ。

「見張る」から「育てる」フェーズへ

私たちは今、AI開発のパラダイムシフトの只中にいる。LLMを使ったアプリケーションは、一度デプロイして終わりではない。ユーザーの想定外の入力という「荒波」に揉まれながら、継続的に賢く育てていくソフトウェアだ。

Future AGIのような統合プラットフォームの登場は、AIエージェント開発がようやく「成熟したソフトウェアエンジニアリング」の領域に入り始めたことを示している。ただの監視ツールはもう要らない。私たちが本当に欲しかったのは、AIと共に成長し続けるための「フィードバックループそのもの」だったのだ。

参考リポジトリ: future-agi/future-agi

Photo by Luke Chesser on Unsplash

「動く」と「使える」の間に横たわる深い溝

ループを閉じるという思想

「見張る」から「育てる」フェーズへ

コメントする コメントをキャンセル

コメントするコメントをキャンセル