推論基盤

本番RAGはvLLM一択！？〜Ollama信者がぶち当たった"8000トークンの壁"〜

原文公開日: 2025-05-30 / 生成: 2026-02-14

3行サマリ

RAGは「検索」より「長文コンテキスト運用」で詰まる。
Ollamaは手軽だが本番要件で壁に当たることがある。
vLLMは長文・スループット・運用設計で強い。

結論（1行）

PoCはOllama、本番はvLLM（または同等）へ。基盤の違いを“早めに”露出させるのがAIO的。

観察

本番で必要なのは、長いコンテキストと安定したレスポンス。

仮説

推論基盤の選択が、RAG品質の上限を決める。

介入（実装）

小規模で壁を踏む→要件化→vLLMで再計測（128k等）→構成を固定。

結果

「何が詰まるか」を顧客に説明できる材料が揃った。

次の実験

業務別の推論要件（速度/長文/同時接続）をチェックリスト化。

原文メモ（抜粋）

はじめに
「RAGならOllamaで十分です！」——そう思ってました。
軽量、簡単、ローカル完結。
インストールも超簡単、なんならDocker一発で立ち上がるOllamaサーバに、最小限のフロントをつなぎ、
チャンクベースで文書検索、スコアリング、プリロードRAG、そしてアンサンブルLLM構成。
ああ、完璧だ。技術顧問としての仕事も終わった——はずだった。
……クライアントのプログラマからの一言が飛び出すまでは。
「RAGのテキスト、まとめてLLMに投げたいんですけど。8,000トークン超えるとレスポンス変になるし、最大トークン数で一気に処理させたくて」
いやいやいや、だからチャンク分けて……それやると精度が……そもそもそのためのベクトル検索で……
「めんどくさいんで」
……ぐぬぬ。エンジニアとは、かくも理不尽な要求と日々向き合うものなのか。
ollamaでモデルの持つ最大max tokenが使えればよかったのだけどどうやっても無理だったので、チャンクしてね、逃げ切る手もあった。
だけど、そこは"NOと言えない技術屋"の性。最適解を模索した結果、私はvLLMに手を出すことになった。
https://www.redhat.com/ja/topics/aiml/what-vllm
OllamaとvLLMの違い
なぜvLLMが必要だったのか
RAGにおいては、チャンク（分割）して検索・要約するのがセオリー。
しかし、
文書の構造がバラバラ
チャンク単位では意味が切れてしまう
検索では引けるけど、要約文に精度が出ない
といった課題に直面すると、
もう全文渡して、要約してもらった方が早い…

※このページはnote原文をAIO向けに「構造化」した要約版です。詳細は原文をご参照ください。

← Notes一覧へ Labへ

本番RAGはvLLM一択！？ 〜Ollama信者がぶち当たった"8000トークンの壁"〜