Gemma 4リリース｜Gemini 3ベースの最強オープンLLM

2026年4月3日2026年4月18日

※この記事の情報は2026年4月3日時点のものです。

2026年4月2日（現地時間）、GoogleがオープンソースLLM「Gemma 4」を正式リリースしました。

今回の目玉は、Gemini 3と同じ研究基盤から生まれた4種類のモデル、そしてGemmaシリーズ初のApache 2.0ライセンス。商用利用の制限が事実上なくなりました。

この記事では、Gemma 4の全モデルのスペック、ベンチマーク結果、競合モデルとの比較、そして実際の使い方までまとめています。「結局、自分に関係あるの？」が分かるように整理しました。

Gemma 4とは？ Gemini 3の技術がオープンソースに

Gemma 4は、Googleが開発・公開しているオープンソースLLMの最新バージョンです。Googleの最上位モデル「Gemini 3」と同じ研究基盤から派生しており、その技術をローカルで動かせるというのが大きなポイント。

前世代のGemma 2からの変化は大きいです。

まず、モデルが4種類に増えました。スマホで動く超軽量モデルから、ワークステーション向けの高性能モデルまで揃っています。テキストだけでなく画像や音声も扱えるマルチモーダル対応になり、コンテキスト長も最大256Kトークンまで拡張。さらに「思考モード（Thinking Mode）」でChain-of-Thought推論ができるようになっています。

そしてライセンス。これまでのGemmaは独自ライセンスで月間アクティブユーザー（MAU）に制限がありましたが、Gemma 4からはApache 2.0に変更。商用利用の制限がなくなりました。開発者にとっては歴史的な転換点です。

4モデルのスペック比較 ― どれを選べばいいのか

Gemma 4は用途に応じて4種類のモデルが用意されています。パラメータ数だけ見ると混乱しますが、ポイントは「どこで動かすか」です。

モデル名	実効パラメータ	総パラメータ	コンテキスト長	想定用途
Gemma 4 E2B	2.3B	5.1B	128K	スマホ・IoTデバイス
Gemma 4 E4B	4.5B	8B	128K	エッジデバイス・ノートPC
Gemma 4 26B A4B	3.8B（アクティブ）	26B（MoE）	256K	ワークステーション
Gemma 4 31B Dense	30.7B	30.7B	256K	高性能ワークフロー

ここで注目したいのが「26B A4B」です。総パラメータは26Bですが、MoE（Mixture of Experts）アーキテクチャを採用しているため、実際に推論で使うのは3.8Bだけ。つまり、26Bの知識量を持ちながら、動作に必要なメモリは4Bクラスに近い。メモリ8GBのノートPCでも動く可能性がある、かなり野心的なモデルです。

E2B（2.3B）はスマホやIoT向け。正直、高度なタスクには向きませんが、オフラインで動く軽量チャットボットや、端末上での翻訳・要約には十分使えるサイズです。

31B Denseは全パラメータがアクティブなフルモデル。ベンチマークのスコアが最も高く、精度を最優先する用途に向いています。ただし、メモリも消費する。VRAM 24GB以上のGPUが必要になるケースが多いでしょう。

ベンチマーク結果 ― 31Bはオープンソース最強クラス

公式が公開しているベンチマーク結果を見ると、31B Denseのスコアはオープンソースモデルとしてはトップクラスです。

ベンチマーク	31B Dense	26B A4B	E4B
MMLU Pro（総合知識）	85.2%	82.6%	69.4%
AIME 2026（数学）	89.2%	88.3%	–
GPQA Diamond（推論）	84.3%	–	–
LiveCodeBench v6（コード）	80.0%	–	44.0%
Codeforces ELO	2150	–	940

AIME 2026で89.2%は驚異的です。数学の競技レベルの問題を9割近く解けるということ。Codeforces ELO 2150も、人間のプログラマーでいえば上位数%に相当するレーティングです。

26B A4Bも注目に値します。MMLU Proで82.6%、AIMEで88.3%。実効パラメータ3.8Bでこの数字は効率がかなり良い。「ローカルで動かしたいけど精度は妥協したくない」という人には最適解かもしれません。

競合モデルとの比較 ― Llama 4・Qwen 3.5との位置づけ

オープンソースLLMは今、三つ巴の競争状態です。Gemma 4の立ち位置を整理します。

比較軸	Gemma 4 31B	Llama 4 Scout	Qwen 3.5-27B
数学（AIME 2026）	89.2%	非公開	約49%
コーディング（LCB v6）	80.0%	非公開	約43%
コンテキスト長	256K	10M	非公開
多言語対応	140言語以上	非公開	201言語
ライセンス	Apache 2.0	Meta Community（700M MAU制限）	Apache 2.0

ベンチマークだけ見れば、Gemma 4はQwen 3.5を大きく引き離しています。数学で約40ポイント、コーディングで約37ポイントの差。Llama 4 Scoutは同等のベンチマークが公開されていないため直接比較は難しいですが、コンテキスト長10Mという点ではLlamaが圧倒的です。

ライセンス面では、Gemma 4とQwen 3.5がどちらもApache 2.0で横並び。Llama 4はMeta独自のCommunity Licenseで、MAU 7億を超える企業はMetaとの個別契約が必要です。スタートアップや個人開発者なら気にならない制限ですが、大企業での導入を考えるとGemma 4やQwen 3.5のApache 2.0の方が安心です。

総合的に見ると、Gemma 4の強みは「精度とライセンスの両立」。コンテキスト長で勝つならLlama 4、多言語の網羅性ならQwen 3.5、精度と自由度の両方が欲しいならGemma 4、という棲み分けになりそうです。

Gemma 4の新機能 ― 何ができるようになったのか

スペックの数字だけでは見えない、実用上の大きな変化がいくつかあります。

思考モード（Thinking Mode）

Chain-of-Thought推論をモデル内部で行う機能です。複雑な数学やコーディングの問題で、いきなり答えを出すのではなく、推論プロセスを経てから回答を生成します。ベンチマークのAIME 89.2%は、この思考モードによるところが大きいはずです。

ネイティブFunction Calling

外部ツールを呼び出すFunction Callingが、追加学習なしでモデル本体に組み込まれています。Web検索やデータベース問い合わせと連携するエージェント型ワークフローを、ファインチューニングなしで構築できます。実務での応用範囲がかなり広がります。

マルチモーダル対応

テキスト・画像・音声の3モダリティに対応。Gemma 2はテキストのみだったので、ここは大幅な進化です。画像認識や音声入力を組み合わせたアプリケーションをローカルで構築できるようになります。

Per-Layer Embeddings (PLE)

技術的に興味深い新アーキテクチャです。従来のTransformerが全層で同じ埋め込みを共有していたのに対し、PLEは各層ごとに異なる埋め込みを持たせます。これによって表現力が増し、同じパラメータ数でも性能が向上するとのこと。26B A4BのMoEと組み合わさることで、軽量なのに高精度というバランスを実現しています。

140言語対応（日本語を含む）

日本語が公式サポート対象に入っています。Gemma 2でも日本語は使えましたが、今回は明確にサポート言語リストに含まれています。日本語でのチャットや文章生成の品質向上が期待できます。

今すぐ試す方法 ― 環境別セットアップ

Gemma 4はすでに複数のプラットフォームで利用可能です。自分の環境に合った方法を選んでください。

一番手軽: Google AI Studio（ブラウザだけでOK）

Google AI Studioにアクセスすれば、ブラウザ上で無料でGemma 4を試せます。アカウントがあればすぐに使えるので、まずここで触ってみるのがおすすめです。

ローカルで動かす: Ollama（コマンド1つ）

Ollamaがインストール済みなら、ターミナルで以下を実行するだけです。

ollama run gemma4

26B A4Bモデルなら、メモリ8GB程度のPCでも動作する可能性があります。まずはこれで試してみて、スペックが足りなければE4B（8B）やE2B（5.1B）に切り替えるのがいいでしょう。

開発者向け: Hugging Face / transformers

Hugging Faceにモデルが公開されています。transformers、vLLM、llama.cpp、MLX、LM Studioなど主要なフレームワークに対応済みです。Pythonから呼び出す場合は、Hugging Faceのモデルカードにサンプルコードが載っています。

こんな人におすすめ ― ユースケース別の判定

Gemma 4の4モデルを、「誰が」「何に」使うべきかで整理します。

ローカルでLLMを動かしたい開発者 → 26B A4Bが最適解。実効3.8Bのメモリ消費で、MMLU Pro 82.6%の精度。コスパが飛び抜けています。プロトタイプ開発からそのまま本番に持っていけるレベルです。

精度最優先のエンジニア・研究者 → 31B Dense。AIME 89.2%、Codeforces ELO 2150。オープンソースで最高精度を求めるなら現時点での第一候補です。ただしVRAM 24GB以上のGPUは必要。

モバイルアプリ開発者 → E2BまたはE4B。スマホやタブレットに組み込めるサイズです。オフラインで動くチャットボットや、端末上の翻訳・要約機能に向いています。128Kコンテキストがあるので、長い文書の処理もある程度こなせます。

商用サービスを作りたい企業 → Apache 2.0なので制限なし。Llama 4のMAU制限が気になっていた企業にとって、これは大きな選択肢です。ライセンス面の心配なく、自社サービスにそのまま組み込めます。

生成AIに興味があるけど技術に詳しくない人 → まずGoogle AI Studio。ブラウザだけで無料で試せます。「オープンソースのLLMって何がすごいの？」を体感するには一番簡単な方法です。

まとめ ― Gemma 4が変えるもの

Gemma 4は「Googleの最先端技術を、制限なしで使える」という点で、オープンソースLLMの状況を大きく動かすリリースです。

個人的に最も評価したいのは、26B A4Bの存在。MoEで実効3.8Bに抑えながら26Bの知識量を持つというアーキテクチャは、「ローカルLLM=精度が低い」という先入観を壊してくれます。メモリ8GBのノートPCで30Bクラスの精度が出るなら、LLMの使い方そのものが変わるでしょう。

Apache 2.0への移行も見逃せません。Llama 4はMAU 7億の制限がありますが、Gemma 4にはそれがない。スタートアップから大企業まで、誰でも同じ条件で使えます。

オープンソースLLMの選択肢がここまで充実した今、「クラウドAPIに全部任せる」以外の道が現実的になりました。Gemma 4は、その選択肢の中でも「精度 × 自由度」のバランスが際立っています。

まずはGoogle AI Studioで触ってみて、自分の用途に合うかどうか確かめてみてください。

Gemma 4の公式発表の詳細はGoogle公式ブログで確認できます。

Gemma 4リリース｜Gemini 3ベースの最強オープンLLM

Gemma 4とは？ Gemini 3の技術がオープンソースに

4モデルのスペック比較 ― どれを選べばいいのか

ベンチマーク結果 ― 31Bはオープンソース最強クラス

競合モデルとの比較 ― Llama 4・Qwen 3.5との位置づけ