Gemma 2 と Llama 3 のどちらが最高のオープンソース モデルでしょうか?

I/O 2024で、Googleは次期Gemma 2モデルを発表し、ついにオープンソースライセンスの下で軽量モデルをリリースすることになった。新しい Gemma 2 27B モデルは、Llama 3 70B や Qwen 1.5 32B などの大型モデルよりも性能が優れており、非常に有望だと言われています。そこでこの主張を検証するために、現在トップのオープンソース モデルである Gemma 2 と Llama 3 を比較してみましょう。

創作文

まず、創造的な文章を書くという点において、Gemma 2 と Llama 3 がどれだけ優れているかを確認しましょう。記事の著者は両モデルに、月と太陽の関係についての短編小説を書くように依頼した。どちらも素晴らしい仕事をしていますが、Google の Gemma 2 モデルは、魅力的な文章と優れたストーリーにより際立っています。

Gemma 2 と Llama 3 のどちらが最高のオープンソース モデルでしょうか?
Gemma 2 と Llama 3 のどちらが最高のオープンソース モデルでしょうか?

一方、Llama 3 は少し退屈でロボットのような見た目です。 Google は Gemini モデルでのテキスト生成が得意であり、小型の Gemma 2 27B も例外ではありません。

勝利の選択肢: ジェマ 2

多言語テスト

次のラウンドでは、両方のモデルが英語以外の言語をどれだけうまく処理できるかを見てみましょう。 Google は Gemma 2 が複数の言語を理解するのに優れていると宣伝しているため、著者はそれを Meta の Llama 3 モデルと比較しました。著者は両モデルにヒンディー語の文章を翻訳するよう依頼した。 Gemma 2 と Llama 3 はどちらも非常に優れたパフォーマンスを発揮しました。

Gemma 2 と Llama 3 のどちらが最高のオープンソース モデルでしょうか?
Gemma 2 と Llama 3 のどちらが最高のオープンソース モデルでしょうか?

著者は別の言語であるベンガル語も試しましたが、モデルは同様に良好な結果を示しました。少なくともインドの言語に関しては、Gemma 2 と Llama 3 は大規模なコーパスで適切にトレーニングされていると言えます。ただし、Gemma 2 27B は Llama 3 70B より約 2.5 倍小さいため、さらに印象的です。

勝利の選択肢: ジェマ 2 とラマ 3

ロジックを確認する

Gemma 2 と Llama 3 は最も賢いモデルではありませんが、はるかに大きなモデルと同様に、いくつかの一般的な推論テストを実行できます。前回のLlama 3とGPT-4の比較では、Metaの70Bモデルは、小さいサイズでも非常に優れたインテリジェンスを示し、印象的でした。

Gemma 2 と Llama 3 のどちらが最高のオープンソース モデルでしょうか?
Gemma 2 と Llama 3 のどちらが最高のオープンソース モデルでしょうか?

このラウンドでは、Llama 3 が Gemma 2 に大きなスコア差で勝利しました。ラマ 3 は 3 つの質問のうち 2 つに正しく答えましたが、ジェマ 2 は 1 つにも正しく答えるのに苦労しました。 Gemma 2 は、複雑な推論問題を解くようには訓練されていません。

一方、Llama 3 には強固な推論基盤があり、暗号化されたデータセットから推測できる可能性が非常に高いです。 GPT-4 のような 1 兆パラメータのモデルと比較すると、そのサイズは小さいものの、かなり高いレベルのインテリジェンスを発揮します。最終的には、より多くのトークンを使用してモデルをトレーニングすると、実際にはより強力なモデルが生成されます。

勝利の選択肢: ラマ3

指示に従ってください

次のラウンドでは、作者はジェマ2とラマ3に「NPU」で終わる単語を10個作るように依頼しました。そしてラマ3号は10問中10問正解しました。対照的に、Gemma 2 は 10 個の文のうち 7 個しか正しい文を生成しませんでした。以前のリリースの多くでは、Gemini を含む Google モデルはユーザーの指示にうまく従っていませんでした。そして、同じ傾向がGemma 2でも続いています。

Gemma 2 と Llama 3 のどちらが最高のオープンソース モデルでしょうか?
Gemma 2 と Llama 3 のどちらが最高のオープンソース モデルでしょうか?

AI モデルにとって、ユーザーの指示に従うことは非常に重要です。信頼性を確保し、指示した内容に対する正確なフィードバックを生成します。安全面でも、モデルを接地した状態に保ち、安全プロトコルへの準拠を向上させるのに役立ちます。

勝利の選択肢: ラマ3

情報を探す

Gemma 2 と Llama 3 の両方のコンテキストの長さは 8K トークンです。著者は、『高慢と偏見』という本から直接引用した、17,000 文字以上、3.8K トークンを超える膨大なテキスト ブロックを追加しました。いつものように、著者はテキストのどこかにランダムな引用を配置し、両方のモデルにそれを探すように依頼します。

Gemma 2 と Llama 3 のどちらが最高のオープンソース モデルでしょうか?

ジェマ2はすぐにその情報を理解し、引用がランダムに挿入されていることを指摘しました。ラマ 3 もこの主張は場違いであると考え、それを示唆しました。長いコンテキスト メモリに関しては、8K トークンに制限されていますが、両方のモデルともこの点では非常に強力です。

なお、著作権コンテンツのため、meta.ai はこのプロンプトの実行を拒否したため、著者は HuggingChat (Web) でこのテストを実行しました。

勝利の選択肢: ジェマ 2 とラマ 3

幻覚の有無を確認する

小規模なモデルでは、トレーニング データが限られているために AI 幻覚が発生しやすく、モデルが未知のトピックに遭遇したときに情報を捏造してしまうことがよくあります。そこで著者は、ジェマ 2 とラマ 3 が幻覚を見ているかどうかをテストするために、架空の国名を登場させました。そして驚くべきことに、そうはならなかった。つまり、Google と Meta はどちらも、それぞれのモデルにかなり優れた基盤を持っているということだ。

Gemma 2 と Llama 3 のどちらが最高のオープンソース モデルでしょうか?
Gemma 2 と Llama 3 のどちらが最高のオープンソース モデルでしょうか?
Gemma 2 と Llama 3 のどちらが最高のオープンソース モデルでしょうか?

著者はモデルの妥当性をテストするために別の(誤った)質問も提起しましたが、やはり幻覚的なものではありませんでした。ちなみに、著者は、meta.ai がインターネットで関連トピックの最新情報を閲覧している間に、HuggingChat で Llama 3 をテストしました。

勝利の選択肢: ジェマ 2 とラマ 3

結論する

Google の Gemma 2 27B モデルは推論テストでは良い成績を収めていないものの、他の多くのタスクは実行できます。クリエイティブな文章を書くのに最適で、複数の言語をサポートし、メモリも優れており、何よりも以前のモデルほど幻覚的ではありません。

もちろん、Llama 3 の方が優れていますが、700 億のパラメータでトレーニングされた、かなり大規模なモデルでもあります。開発者は、Gemma 2 27B モデルが幅広いユースケースに役立つことに気付くでしょう。さらに、Gemma 2 9B もご利用いただけます。

さらに、ユーザーは、Gemini 1.5 Flash もチェックしてみてください。これもまた、はるかに小型のモデルであり、マルチモーダル入力もサポートしています。言うまでもなく、それは信じられないほど高速かつ効率的です。

Sign up and earn $1000 a day ⋙

Leave a Comment

2025年の学生に最適なノートパソコン

2025年の学生に最適なノートパソコン

学生は学習のために特定のタイプのノートパソコンを必要とします。専攻分野で十分なパフォーマンスを発揮できるだけでなく、一日中持ち運べるほどコンパクトで軽量であることも重要です。

Windows 10にプリンターを追加する方法

Windows 10にプリンターを追加する方法

Windows 10 にプリンターを追加するのは簡単ですが、有線デバイスの場合のプロセスはワイヤレス デバイスの場合とは異なります。

最高の精度でコンピューターのRAMをチェックし、RAMエラーをチェックする方法

最高の精度でコンピューターのRAMをチェックし、RAMエラーをチェックする方法

ご存知の通り、RAMはコンピューターにとって非常に重要なハードウェア部品であり、データ処理のためのメモリとして機能し、ノートパソコンやPCの速度を決定づける要因です。以下の記事では、WebTech360がWindowsでソフトウェアを使ってRAMエラーをチェックする方法をいくつかご紹介します。

通常のテレビとスマートテレビの違い

通常のテレビとスマートテレビの違い

スマートテレビはまさに世界を席巻しています。数多くの優れた機能とインターネット接続により、テクノロジーはテレビの視聴方法を変えました。

なぜ冷凍庫にはライトがないのに、冷蔵庫にはライトがあるのでしょうか?

なぜ冷凍庫にはライトがないのに、冷蔵庫にはライトがあるのでしょうか?

冷蔵庫は家庭ではよく使われる家電製品です。冷蔵庫には通常 2 つの部屋があり、冷蔵室は広く、ユーザーが開けるたびに自動的に点灯するライトが付いていますが、冷凍室は狭く、ライトはありません。

Wi-Fiの速度低下を引き起こすネットワーク混雑を解決する2つの方法

Wi-Fiの速度低下を引き起こすネットワーク混雑を解決する2つの方法

Wi-Fi ネットワークは、ルーター、帯域幅、干渉以外にも多くの要因の影響を受けますが、ネットワークを強化する賢い方法がいくつかあります。

Tenorshare Reibootを使ってデータ損失なくiOS 17からiOS 16にダウングレードする方法

Tenorshare Reibootを使ってデータ損失なくiOS 17からiOS 16にダウングレードする方法

お使いの携帯電話で安定した iOS 16 に戻したい場合は、iOS 17 をアンインストールして iOS 17 から 16 にダウングレードするための基本ガイドを以下に示します。

ヨーグルトを毎日食べると体に何が起こるのでしょうか?

ヨーグルトを毎日食べると体に何が起こるのでしょうか?

ヨーグルトは素晴らしい食べ物です。ヨーグルトを毎日食べるのは良いことでしょうか?ヨーグルトを毎日食べると、身体はどう変わるのでしょうか?一緒に調べてみましょう!

健康に最も良いお米の種類は何ですか?

健康に最も良いお米の種類は何ですか?

この記事では、最も栄養価の高い米の種類と、どの米を選んだとしてもその健康効果を最大限に引き出す方法について説明します。

朝時間通りに起きる方法

朝時間通りに起きる方法

睡眠スケジュールと就寝時の習慣を確立し、目覚まし時計を変え、食生活を調整することは、よりよく眠り、朝時間通りに起きるのに役立つ対策の一部です。

Rent Please! をプレイするためのヒント初心者向け大家シミュレーション

Rent Please! をプレイするためのヒント初心者向け大家シミュレーション

レンタルして下さい! Landlord Sim は、iOS および Android 向けのシミュレーション モバイル ゲームです。あなたはアパートの大家としてプレイし、アパートの内装をアップグレードして入居者を受け入れる準備をしながら、アパートの賃貸を始めます。

最新のバスルームタワーディフェンスコードとコードの入力方法

最新のバスルームタワーディフェンスコードとコードの入力方法

Bathroom Tower Defense Roblox ゲーム コードを入手して、魅力的な報酬と引き換えましょう。これらは、より高いダメージを与えるタワーをアップグレードしたり、ロックを解除したりするのに役立ちます。

変圧器の構造、記号、動作原理

変圧器の構造、記号、動作原理

変圧器の構造、記号、動作原理を最も正確な方法で学びましょう。

AIがスマートテレビを進化させる4つの方法

AIがスマートテレビを進化させる4つの方法

画質や音質の向上から音声制御まで、これらの AI 搭載機能により、スマートテレビはさらに優れたものになります。

ChatGPTがDeepSeekより優れている理由

ChatGPTがDeepSeekより優れている理由

当初、人々はDeepSeekに大きな期待を寄せていました。 ChatGPT の強力な競合製品として販売されている AI チャットボットは、インテリジェントなチャット機能とエクスペリエンスを約束します。