クラウド黎明期、AWSのマイクロインスタンスやHerokuの無料枠をパズルのように組み合わせ、1円も払わずにシステムを稼働させようと血道を上げるハッカーたちがいた。時代は変わり、今ネット上にばら撒かれているのは単純なコンピュートリソースではなく「知能」だ。
現在、生成AIの主導権を握ろうと、あらゆるAI企業が開発者のマインドシェア獲得に必死になっている。Google、Groq、Cerebras、Mistral、Cohere――彼らが気前よく提供する無料枠(Free Tier)は、単体で見れば「1日数千リクエスト」といったおもちゃの砂場にすぎない。しかし、それらをすべてかき集めたらどうなるだろうか。
14の蛇口を1つのバケツに繋ぐ
各社の無料枠を個別に叩くのは苦痛でしかない。14の異なるSDK、14の異なるAPIキー、そして14の異なるレートリミット。少しテストを回せばすぐに上限に張り付き、コードにはエラーハンドリングの山が築かれる。
この面倒な作業を力技で解決するのが、今回取り上げる「FreeLLMAPI」だ。14社にまたがる無料枠のAPIキーをプロキシサーバーに登録すると、単一のOpenAI互換エンドポイント(/v1/chat/completions)として振る舞うようになる。単純計算で月に約13億トークンという、個人では到底使い切れないほどの推論能力が手元に転がり込んでくるのだ。
import OpenAI from "openai";
const openai = new OpenAI({
baseURL: "http://localhost:3000/v1", // freellmapiのローカルプロキシ
apiKey: "dummy-key",
});
const response = await openai.chat.completions.create({
model: "llama-3.3-70b", // 裏で最適なプロバイダにルーティングされる
messages: [{ role: "user", content: "AIの未来について教えて" }],
});
クライアント側のコードは、ベースURLをローカルのプロキシに向けるだけでいい。あとはLangChainだろうがLlamaIndexだろうが、既存のOpenAIエコシステムのツールがそのまま動く。
自動フェイルオーバーがもたらす「枯れない泉」
このツールの白眉は、単なるエンドポイントの共通化にとどまらず、泥臭い自動フェイルオーバーを実装している点にある。
ルーターはリクエストされたモデル(例えばLlama 3)を提供しているプロバイダーの中から最適なものを選択し、APIを叩く。もしGroqの無料枠が尽きて429エラー(Too Many Requests)が返ってきたら、即座にCerebrasへ、それでも駄目ならSambaNovaへと、フォールバックチェーンを駆け下りていく。各キーのトークン消費量も内部でトラッキングされており、無料枠のキャップを超えないように賢く立ち回るのだ。
これにより、開発者は「今どのAPIの残量がどれくらいか」を一切気にする必要がなくなる。裏側で複数の蛇口を自動で切り替えながら、常に水が供給され続ける仕組みを作り上げている。
資本の殴り合いの隙間に咲く徒花
当然ながら、これはエンタープライズの現場で使えるような代物ではない。各社の利用規約(ToS)の隙間を縫うようなアプローチであり、作者自身も「個人の実験用(For personal experimentation only)」と強く釘を刺している。本番環境への導入や商用利用は御法度だ。
しかし、このプロジェクトの存在自体が、現在のAI業界のいびつな熱狂を何よりも雄弁に物語っている。巨大資本が赤字覚悟でコンピュートリソースを燃やし、無料枠という形で世界中にばら撒いている。その恩恵を少しでも効率よく掬い取ろうとするハッカーの執念が、このプロキシを生み出した。
AIの民主化という美辞麗句の裏で繰り広げられる生存競争。その隙間に咲いた、いかにもハッカーカルチャーらしい野蛮で美しいアプローチだ。
参考リポジトリ: tashfeenahmed/freellmapi
Photo by Bernd 📷 Dittrich on Unsplash