Gemma 4リリース|Gemini 3ベースの最強オープンLLM



※この記事の情報は2026年4月3日時点のものです。

2026年4月2日(現地時間)、GoogleがオープンソースLLM「Gemma 4」を正式リリースしました。

今回の目玉は、Gemini 3と同じ研究基盤から生まれた4種類のモデル、そしてGemmaシリーズ初のApache 2.0ライセンス。商用利用の制限が事実上なくなりました。

この記事では、Gemma 4の全モデルのスペック、ベンチマーク結果、競合モデルとの比較、そして実際の使い方までまとめています。「結局、自分に関係あるの?」が分かるように整理しました。

目次

Gemma 4とは? Gemini 3の技術がオープンソースに

Gemma 4は、Googleが開発・公開しているオープンソースLLMの最新バージョンです。Googleの最上位モデル「Gemini 3」と同じ研究基盤から派生しており、その技術をローカルで動かせるというのが大きなポイント。

前世代のGemma 2からの変化は大きいです。

まず、モデルが4種類に増えました。スマホで動く超軽量モデルから、ワークステーション向けの高性能モデルまで揃っています。テキストだけでなく画像や音声も扱えるマルチモーダル対応になり、コンテキスト長も最大256Kトークンまで拡張。さらに「思考モード(Thinking Mode)」でChain-of-Thought推論ができるようになっています。

そしてライセンス。これまでのGemmaは独自ライセンスで月間アクティブユーザー(MAU)に制限がありましたが、Gemma 4からはApache 2.0に変更。商用利用の制限がなくなりました。開発者にとっては歴史的な転換点です。

4モデルのスペック比較 ― どれを選べばいいのか

Gemma 4は用途に応じて4種類のモデルが用意されています。パラメータ数だけ見ると混乱しますが、ポイントは「どこで動かすか」です。

モデル名 実効パラメータ 総パラメータ コンテキスト長 想定用途
Gemma 4 E2B 2.3B 5.1B 128K スマホ・IoTデバイス
Gemma 4 E4B 4.5B 8B 128K エッジデバイス・ノートPC
Gemma 4 26B A4B 3.8B(アクティブ) 26B(MoE) 256K ワークステーション
Gemma 4 31B Dense 30.7B 30.7B 256K 高性能ワークフロー

ここで注目したいのが「26B A4B」です。総パラメータは26Bですが、MoE(Mixture of Experts)アーキテクチャを採用しているため、実際に推論で使うのは3.8Bだけ。つまり、26Bの知識量を持ちながら、動作に必要なメモリは4Bクラスに近い。メモリ8GBのノートPCでも動く可能性がある、かなり野心的なモデルです。

E2B(2.3B)はスマホやIoT向け。正直、高度なタスクには向きませんが、オフラインで動く軽量チャットボットや、端末上での翻訳・要約には十分使えるサイズです。

31B Denseは全パラメータがアクティブなフルモデル。ベンチマークのスコアが最も高く、精度を最優先する用途に向いています。ただし、メモリも消費する。VRAM 24GB以上のGPUが必要になるケースが多いでしょう。

ベンチマーク結果 ― 31Bはオープンソース最強クラス

公式が公開しているベンチマーク結果を見ると、31B Denseのスコアはオープンソースモデルとしてはトップクラスです。

ベンチマーク 31B Dense 26B A4B E4B
MMLU Pro(総合知識) 85.2% 82.6% 69.4%
AIME 2026(数学) 89.2% 88.3%
GPQA Diamond(推論) 84.3%
LiveCodeBench v6(コード) 80.0% 44.0%
Codeforces ELO 2150 940

AIME 2026で89.2%は驚異的です。数学の競技レベルの問題を9割近く解けるということ。Codeforces ELO 2150も、人間のプログラマーでいえば上位数%に相当するレーティングです。

26B A4Bも注目に値します。MMLU Proで82.6%、AIMEで88.3%。実効パラメータ3.8Bでこの数字は効率がかなり良い。「ローカルで動かしたいけど精度は妥協したくない」という人には最適解かもしれません。

競合モデルとの比較 ― Llama 4・Qwen 3.5との位置づけ

オープンソースLLMは今、三つ巴の競争状態です。Gemma 4の立ち位置を整理します。

比較軸 Gemma 4 31B Llama 4 Scout Qwen 3.5-27B
数学(AIME 2026) 89.2% 非公開 約49%
コーディング(LCB v6) 80.0% 非公開 約43%
コンテキスト長 256K 10M 非公開
多言語対応 140言語以上 非公開 201言語
ライセンス Apache 2.0 Meta Community(700M MAU制限) Apache 2.0

ベンチマークだけ見れば、Gemma 4はQwen 3.5を大きく引き離しています。数学で約40ポイント、コーディングで約37ポイントの差。Llama 4 Scoutは同等のベンチマークが公開されていないため直接比較は難しいですが、コンテキスト長10Mという点ではLlamaが圧倒的です。

ライセンス面では、Gemma 4とQwen 3.5がどちらもApache 2.0で横並び。Llama 4はMeta独自のCommunity Licenseで、MAU 7億を超える企業はMetaとの個別契約が必要です。スタートアップや個人開発者なら気にならない制限ですが、大企業での導入を考えるとGemma 4やQwen 3.5のApache 2.0の方が安心です。

総合的に見ると、Gemma 4の強みは「精度とライセンスの両立」。コンテキスト長で勝つならLlama 4、多言語の網羅性ならQwen 3.5、精度と自由度の両方が欲しいならGemma 4、という棲み分けになりそうです。

Gemma 4の新機能 ― 何ができるようになったのか

スペックの数字だけでは見えない、実用上の大きな変化がいくつかあります。

思考モード(Thinking Mode)

Chain-of-Thought推論をモデル内部で行う機能です。複雑な数学やコーディングの問題で、いきなり答えを出すのではなく、推論プロセスを経てから回答を生成します。ベンチマークのAIME 89.2%は、この思考モードによるところが大きいはずです。

ネイティブFunction Calling

外部ツールを呼び出すFunction Callingが、追加学習なしでモデル本体に組み込まれています。Web検索やデータベース問い合わせと連携するエージェント型ワークフローを、ファインチューニングなしで構築できます。実務での応用範囲がかなり広がります。

マルチモーダル対応

テキスト・画像・音声の3モダリティに対応。Gemma 2はテキストのみだったので、ここは大幅な進化です。画像認識や音声入力を組み合わせたアプリケーションをローカルで構築できるようになります。

Per-Layer Embeddings (PLE)

技術的に興味深い新アーキテクチャです。従来のTransformerが全層で同じ埋め込みを共有していたのに対し、PLEは各層ごとに異なる埋め込みを持たせます。これによって表現力が増し、同じパラメータ数でも性能が向上するとのこと。26B A4BのMoEと組み合わさることで、軽量なのに高精度というバランスを実現しています。

140言語対応(日本語を含む)

日本語が公式サポート対象に入っています。Gemma 2でも日本語は使えましたが、今回は明確にサポート言語リストに含まれています。日本語でのチャットや文章生成の品質向上が期待できます。

今すぐ試す方法 ― 環境別セットアップ

Gemma 4はすでに複数のプラットフォームで利用可能です。自分の環境に合った方法を選んでください。

一番手軽: Google AI Studio(ブラウザだけでOK)

Google AI Studioにアクセスすれば、ブラウザ上で無料でGemma 4を試せます。アカウントがあればすぐに使えるので、まずここで触ってみるのがおすすめです。

ローカルで動かす: Ollama(コマンド1つ)

Ollamaがインストール済みなら、ターミナルで以下を実行するだけです。

ollama run gemma4

26B A4Bモデルなら、メモリ8GB程度のPCでも動作する可能性があります。まずはこれで試してみて、スペックが足りなければE4B(8B)やE2B(5.1B)に切り替えるのがいいでしょう。

開発者向け: Hugging Face / transformers

Hugging Faceにモデルが公開されています。transformers、vLLM、llama.cpp、MLX、LM Studioなど主要なフレームワークに対応済みです。Pythonから呼び出す場合は、Hugging Faceのモデルカードにサンプルコードが載っています。

こんな人におすすめ ― ユースケース別の判定

Gemma 4の4モデルを、「誰が」「何に」使うべきかで整理します。

ローカルでLLMを動かしたい開発者 → 26B A4Bが最適解。実効3.8Bのメモリ消費で、MMLU Pro 82.6%の精度。コスパが飛び抜けています。プロトタイプ開発からそのまま本番に持っていけるレベルです。

精度最優先のエンジニア・研究者 → 31B Dense。AIME 89.2%、Codeforces ELO 2150。オープンソースで最高精度を求めるなら現時点での第一候補です。ただしVRAM 24GB以上のGPUは必要。

モバイルアプリ開発者 → E2BまたはE4B。スマホやタブレットに組み込めるサイズです。オフラインで動くチャットボットや、端末上の翻訳・要約機能に向いています。128Kコンテキストがあるので、長い文書の処理もある程度こなせます。

商用サービスを作りたい企業 → Apache 2.0なので制限なし。Llama 4のMAU制限が気になっていた企業にとって、これは大きな選択肢です。ライセンス面の心配なく、自社サービスにそのまま組み込めます。

生成AIに興味があるけど技術に詳しくない人 → まずGoogle AI Studio。ブラウザだけで無料で試せます。「オープンソースのLLMって何がすごいの?」を体感するには一番簡単な方法です。

まとめ ― Gemma 4が変えるもの

Gemma 4は「Googleの最先端技術を、制限なしで使える」という点で、オープンソースLLMの状況を大きく動かすリリースです。

個人的に最も評価したいのは、26B A4Bの存在。MoEで実効3.8Bに抑えながら26Bの知識量を持つというアーキテクチャは、「ローカルLLM=精度が低い」という先入観を壊してくれます。メモリ8GBのノートPCで30Bクラスの精度が出るなら、LLMの使い方そのものが変わるでしょう。

Apache 2.0への移行も見逃せません。Llama 4はMAU 7億の制限がありますが、Gemma 4にはそれがない。スタートアップから大企業まで、誰でも同じ条件で使えます。

オープンソースLLMの選択肢がここまで充実した今、「クラウドAPIに全部任せる」以外の道が現実的になりました。Gemma 4は、その選択肢の中でも「精度 × 自由度」のバランスが際立っています。

まずはGoogle AI Studioで触ってみて、自分の用途に合うかどうか確かめてみてください。

Gemma 4の公式発表の詳細はGoogle公式ブログで確認できます。

あわせて読みたい

令和AI Lab
【2026年最新】Gemini料金プラン比較|無料版・AI Plus・AI Proの違い | 令和AI Lab Google Geminiの料金プランを徹底比較。無料版・AI Plus・AI Proの機能差、できることの違い、どのプランを選ぶべきかを具体的に解説。
令和AI Lab
ChatGPT vs Claude どっちがいい?目的別に選び方を解説【2026年版】 | 令和AI Lab ※この記事の情報は2026年3月19日時点のものです。最新の料金・機能はChatGPT公式サイトおよびClaude公式サイトでご確認ください。 「ChatGPTとClaude、結局どっちを使えば...
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする

CAPTCHA


目次