Qwenの高速線形アテンションライブラリFlashQLA

無限のコンテキストを夢見る狂乱の果てに AI開発の現場にいると、ハードウェアのリソース制限とアルゴリズムの要求が激しく衝突する音を毎日のように聞くことになる。昨今のLLM界隈は特に異常だ。コンテキストウィンドウは数万から … 続きを読む

AIに永続記憶を与えるMCP対応ツール「Stash」

AIに永続記憶を与えるMCP対応ツール「Stash」 「昨日の続きから頼むよ」 同僚のエンジニアになら通じるこの一言が、AIエージェントには全く通じない。毎朝、真新しいコンテキストウィンドウに向かって、プロジェクトの前提 … 続きを読む

DeepSeekの思考を操る!ロールプレイ特化プロンプト術

最近のAIモデルが「考えている」数秒間、画面に流れていく思考プロセスのテキストを眺めるのが密かな楽しみになっている。人間のように迷い、自己訂正し、時には堂々巡りをする。推論モデルの台頭によって、私たちはLLMの「脳内」を … 続きを読む

AIに規則を強制する新フレームワーク「Harmonist」

AIに規則を強制する新フレームワーク「Harmonist」 プロンプトの末尾に「THIS IS IMPORTANT!(これは重要!)」と大文字で書き足す不毛な作業に、私たちはいつまで時間を費やすのだろうか。 AIコーディ … 続きを読む

Tencent発!295Bの推論特化MoEモデル「Hy3」

Tencent発!295Bの推論特化MoEモデル「Hy3」 最近、インフラエンジニアの同僚たちと話すと、決まって「LLMの推論コストをどう叩くか」という泥臭い話題に行き着く。いくらベンチマークで人間超えを達成しようが、G … 続きを読む

常時稼働で安全な自律型AIエージェント「Mercury」

常時稼働で安全な自律型AIエージェント「Mercury」 ターミナルに住まわせる「同僚」への恐怖と期待 ローカル環境でAIエージェントを動かしたことがあるエンジニアなら、一度は背筋が凍る思いをしたことがあるはずだ。複雑な … 続きを読む

LLMエージェントの評価・監視OSS「Future AGI」

「動く」と「使える」の間に横たわる深い溝 「動くプロトタイプなら、週末のハッカソンで作れる。でも、それを本番環境で安定稼働させるには、数ヶ月の血の滲むようなデバッグが必要になる」 最近、スタートアップのCTOや大企業のA … 続きを読む

AIでWebゲームを全自動生成する「OpenGame」とは

AIでWebゲームを全自動生成する「OpenGame」とは ここ最近、CursorなどのAIコーディングツールを使っていて、ある種の「もどかしさ」を感じることはないだろうか。単一の関数やアルゴリズム、独立したコンポーネン … 続きを読む

14社の無料LLMを一つに!OpenAI互換APIプロキシ

クラウド黎明期、AWSのマイクロインスタンスやHerokuの無料枠をパズルのように組み合わせ、1円も払わずにシステムを稼働させようと血道を上げるハッカーたちがいた。時代は変わり、今ネット上にばら撒かれているのは単純なコン … 続きを読む

DeepSeek発!LLM用GPUカーネルライブラリ

演算の限界を叩き出す「言語」の正体 最近、メガテック企業のカンファレンスや論文を眺めていると、奇妙な既視感を覚えることがある。かつてWebブラウザのレンダリング速度をミリ秒単位で削り合っていた時代のように、今は誰もが「G … 続きを読む