※この記事の情報は2026年4月3日時点のものです。
2026年4月2日(現地時間)、GoogleがオープンソースLLM「Gemma 4」を正式リリースしました。
今回の目玉は、Gemini 3と同じ研究基盤から生まれた4種類のモデル、そしてGemmaシリーズ初のApache 2.0ライセンス。商用利用の制限が事実上なくなりました。
この記事では、Gemma 4の全モデルのスペック、ベンチマーク結果、競合モデルとの比較、そして実際の使い方までまとめています。「結局、自分に関係あるの?」が分かるように整理しました。
Gemma 4とは? Gemini 3の技術がオープンソースに
Gemma 4は、Googleが開発・公開しているオープンソースLLMの最新バージョンです。Googleの最上位モデル「Gemini 3」と同じ研究基盤から派生しており、その技術をローカルで動かせるというのが大きなポイント。
前世代のGemma 2からの変化は大きいです。
まず、モデルが4種類に増えました。スマホで動く超軽量モデルから、ワークステーション向けの高性能モデルまで揃っています。テキストだけでなく画像や音声も扱えるマルチモーダル対応になり、コンテキスト長も最大256Kトークンまで拡張。さらに「思考モード(Thinking Mode)」でChain-of-Thought推論ができるようになっています。
そしてライセンス。これまでのGemmaは独自ライセンスで月間アクティブユーザー(MAU)に制限がありましたが、Gemma 4からはApache 2.0に変更。商用利用の制限がなくなりました。開発者にとっては歴史的な転換点です。
4モデルのスペック比較 ― どれを選べばいいのか
Gemma 4は用途に応じて4種類のモデルが用意されています。パラメータ数だけ見ると混乱しますが、ポイントは「どこで動かすか」です。
| モデル名 | 実効パラメータ | 総パラメータ | コンテキスト長 | 想定用途 |
|---|---|---|---|---|
| Gemma 4 E2B | 2.3B | 5.1B | 128K | スマホ・IoTデバイス |
| Gemma 4 E4B | 4.5B | 8B | 128K | エッジデバイス・ノートPC |
| Gemma 4 26B A4B | 3.8B(アクティブ) | 26B(MoE) | 256K | ワークステーション |
| Gemma 4 31B Dense | 30.7B | 30.7B | 256K | 高性能ワークフロー |
ここで注目したいのが「26B A4B」です。総パラメータは26Bですが、MoE(Mixture of Experts)アーキテクチャを採用しているため、実際に推論で使うのは3.8Bだけ。つまり、26Bの知識量を持ちながら、動作に必要なメモリは4Bクラスに近い。メモリ8GBのノートPCでも動く可能性がある、かなり野心的なモデルです。
E2B(2.3B)はスマホやIoT向け。正直、高度なタスクには向きませんが、オフラインで動く軽量チャットボットや、端末上での翻訳・要約には十分使えるサイズです。
31B Denseは全パラメータがアクティブなフルモデル。ベンチマークのスコアが最も高く、精度を最優先する用途に向いています。ただし、メモリも消費する。VRAM 24GB以上のGPUが必要になるケースが多いでしょう。
ベンチマーク結果 ― 31Bはオープンソース最強クラス
公式が公開しているベンチマーク結果を見ると、31B Denseのスコアはオープンソースモデルとしてはトップクラスです。
| ベンチマーク | 31B Dense | 26B A4B | E4B |
|---|---|---|---|
| MMLU Pro(総合知識) | 85.2% | 82.6% | 69.4% |
| AIME 2026(数学) | 89.2% | 88.3% | – |
| GPQA Diamond(推論) | 84.3% | – | – |
| LiveCodeBench v6(コード) | 80.0% | – | 44.0% |
| Codeforces ELO | 2150 | – | 940 |
AIME 2026で89.2%は驚異的です。数学の競技レベルの問題を9割近く解けるということ。Codeforces ELO 2150も、人間のプログラマーでいえば上位数%に相当するレーティングです。
26B A4Bも注目に値します。MMLU Proで82.6%、AIMEで88.3%。実効パラメータ3.8Bでこの数字は効率がかなり良い。「ローカルで動かしたいけど精度は妥協したくない」という人には最適解かもしれません。
競合モデルとの比較 ― Llama 4・Qwen 3.5との位置づけ
オープンソースLLMは今、三つ巴の競争状態です。Gemma 4の立ち位置を整理します。
| 比較軸 | Gemma 4 31B | Llama 4 Scout | Qwen 3.5-27B |
|---|---|---|---|
| 数学(AIME 2026) | 89.2% | 非公開 | 約49% |
| コーディング(LCB v6) | 80.0% | 非公開 | 約43% |
| コンテキスト長 | 256K | 10M | 非公開 |
| 多言語対応 | 140言語以上 | 非公開 | 201言語 |
| ライセンス | Apache 2.0 | Meta Community(700M MAU制限) | Apache 2.0 |
ベンチマークだけ見れば、Gemma 4はQwen 3.5を大きく引き離しています。数学で約40ポイント、コーディングで約37ポイントの差。Llama 4 Scoutは同等のベンチマークが公開されていないため直接比較は難しいですが、コンテキスト長10Mという点ではLlamaが圧倒的です。
ライセンス面では、Gemma 4とQwen 3.5がどちらもApache 2.0で横並び。Llama 4はMeta独自のCommunity Licenseで、MAU 7億を超える企業はMetaとの個別契約が必要です。スタートアップや個人開発者なら気にならない制限ですが、大企業での導入を考えるとGemma 4やQwen 3.5のApache 2.0の方が安心です。
総合的に見ると、Gemma 4の強みは「精度とライセンスの両立」。コンテキスト長で勝つならLlama 4、多言語の網羅性ならQwen 3.5、精度と自由度の両方が欲しいならGemma 4、という棲み分けになりそうです。
Gemma 4の新機能 ― 何ができるようになったのか
スペックの数字だけでは見えない、実用上の大きな変化がいくつかあります。
思考モード(Thinking Mode)
Chain-of-Thought推論をモデル内部で行う機能です。複雑な数学やコーディングの問題で、いきなり答えを出すのではなく、推論プロセスを経てから回答を生成します。ベンチマークのAIME 89.2%は、この思考モードによるところが大きいはずです。
ネイティブFunction Calling
外部ツールを呼び出すFunction Callingが、追加学習なしでモデル本体に組み込まれています。Web検索やデータベース問い合わせと連携するエージェント型ワークフローを、ファインチューニングなしで構築できます。実務での応用範囲がかなり広がります。
マルチモーダル対応
テキスト・画像・音声の3モダリティに対応。Gemma 2はテキストのみだったので、ここは大幅な進化です。画像認識や音声入力を組み合わせたアプリケーションをローカルで構築できるようになります。
Per-Layer Embeddings (PLE)
技術的に興味深い新アーキテクチャです。従来のTransformerが全層で同じ埋め込みを共有していたのに対し、PLEは各層ごとに異なる埋め込みを持たせます。これによって表現力が増し、同じパラメータ数でも性能が向上するとのこと。26B A4BのMoEと組み合わさることで、軽量なのに高精度というバランスを実現しています。
140言語対応(日本語を含む)
日本語が公式サポート対象に入っています。Gemma 2でも日本語は使えましたが、今回は明確にサポート言語リストに含まれています。日本語でのチャットや文章生成の品質向上が期待できます。
今すぐ試す方法 ― 環境別セットアップ
Gemma 4はすでに複数のプラットフォームで利用可能です。自分の環境に合った方法を選んでください。
一番手軽: Google AI Studio(ブラウザだけでOK)
Google AI Studioにアクセスすれば、ブラウザ上で無料でGemma 4を試せます。アカウントがあればすぐに使えるので、まずここで触ってみるのがおすすめです。
ローカルで動かす: Ollama(コマンド1つ)
Ollamaがインストール済みなら、ターミナルで以下を実行するだけです。
ollama run gemma4
26B A4Bモデルなら、メモリ8GB程度のPCでも動作する可能性があります。まずはこれで試してみて、スペックが足りなければE4B(8B)やE2B(5.1B)に切り替えるのがいいでしょう。
開発者向け: Hugging Face / transformers
Hugging Faceにモデルが公開されています。transformers、vLLM、llama.cpp、MLX、LM Studioなど主要なフレームワークに対応済みです。Pythonから呼び出す場合は、Hugging Faceのモデルカードにサンプルコードが載っています。
こんな人におすすめ ― ユースケース別の判定
Gemma 4の4モデルを、「誰が」「何に」使うべきかで整理します。
ローカルでLLMを動かしたい開発者 → 26B A4Bが最適解。実効3.8Bのメモリ消費で、MMLU Pro 82.6%の精度。コスパが飛び抜けています。プロトタイプ開発からそのまま本番に持っていけるレベルです。
精度最優先のエンジニア・研究者 → 31B Dense。AIME 89.2%、Codeforces ELO 2150。オープンソースで最高精度を求めるなら現時点での第一候補です。ただしVRAM 24GB以上のGPUは必要。
モバイルアプリ開発者 → E2BまたはE4B。スマホやタブレットに組み込めるサイズです。オフラインで動くチャットボットや、端末上の翻訳・要約機能に向いています。128Kコンテキストがあるので、長い文書の処理もある程度こなせます。
商用サービスを作りたい企業 → Apache 2.0なので制限なし。Llama 4のMAU制限が気になっていた企業にとって、これは大きな選択肢です。ライセンス面の心配なく、自社サービスにそのまま組み込めます。
生成AIに興味があるけど技術に詳しくない人 → まずGoogle AI Studio。ブラウザだけで無料で試せます。「オープンソースのLLMって何がすごいの?」を体感するには一番簡単な方法です。
まとめ ― Gemma 4が変えるもの
Gemma 4は「Googleの最先端技術を、制限なしで使える」という点で、オープンソースLLMの状況を大きく動かすリリースです。
個人的に最も評価したいのは、26B A4Bの存在。MoEで実効3.8Bに抑えながら26Bの知識量を持つというアーキテクチャは、「ローカルLLM=精度が低い」という先入観を壊してくれます。メモリ8GBのノートPCで30Bクラスの精度が出るなら、LLMの使い方そのものが変わるでしょう。
Apache 2.0への移行も見逃せません。Llama 4はMAU 7億の制限がありますが、Gemma 4にはそれがない。スタートアップから大企業まで、誰でも同じ条件で使えます。
オープンソースLLMの選択肢がここまで充実した今、「クラウドAPIに全部任せる」以外の道が現実的になりました。Gemma 4は、その選択肢の中でも「精度 × 自由度」のバランスが際立っています。
まずはGoogle AI Studioで触ってみて、自分の用途に合うかどうか確かめてみてください。
Gemma 4の公式発表の詳細はGoogle公式ブログで確認できます。
あわせて読みたい




コメント