Gemma 2 と Llama 3 のどちらが最高のオープンソース モデルでしょうか?

I/O 2024で、Googleは次期Gemma 2モデルを発表し、ついにオープンソースライセンスの下で軽量モデルをリリースすることになった。新しい Gemma 2 27B モデルは、Llama 3 70B や Qwen 1.5 32B などの大型モデルよりも性能が優れており、非常に有望だと言われています。そこでこの主張を検証するために、現在トップのオープンソース モデルである Gemma 2 と Llama 3 を比較してみましょう。

創作文

まず、創造的な文章を書くという点において、Gemma 2 と Llama 3 がどれだけ優れているかを確認しましょう。記事の著者は両モデルに、月と太陽の関係についての短編小説を書くように依頼した。どちらも素晴らしい仕事をしていますが、Google の Gemma 2 モデルは、魅力的な文章と優れたストーリーにより際立っています。

Gemma 2 と Llama 3 のどちらが最高のオープンソース モデルでしょうか?
Gemma 2 と Llama 3 のどちらが最高のオープンソース モデルでしょうか?

一方、Llama 3 は少し退屈でロボットのような見た目です。 Google は Gemini モデルでのテキスト生成が得意であり、小型の Gemma 2 27B も例外ではありません。

勝利の選択肢: ジェマ 2

多言語テスト

次のラウンドでは、両方のモデルが英語以外の言語をどれだけうまく処理できるかを見てみましょう。 Google は Gemma 2 が複数の言語を理解するのに優れていると宣伝しているため、著者はそれを Meta の Llama 3 モデルと比較しました。著者は両モデルにヒンディー語の文章を翻訳するよう依頼した。 Gemma 2 と Llama 3 はどちらも非常に優れたパフォーマンスを発揮しました。

Gemma 2 と Llama 3 のどちらが最高のオープンソース モデルでしょうか?
Gemma 2 と Llama 3 のどちらが最高のオープンソース モデルでしょうか?

著者は別の言語であるベンガル語も試しましたが、モデルは同様に良好な結果を示しました。少なくともインドの言語に関しては、Gemma 2 と Llama 3 は大規模なコーパスで適切にトレーニングされていると言えます。ただし、Gemma 2 27B は Llama 3 70B より約 2.5 倍小さいため、さらに印象的です。

勝利の選択肢: ジェマ 2 とラマ 3

ロジックを確認する

Gemma 2 と Llama 3 は最も賢いモデルではありませんが、はるかに大きなモデルと同様に、いくつかの一般的な推論テストを実行できます。前回のLlama 3とGPT-4の比較では、Metaの70Bモデルは、小さいサイズでも非常に優れたインテリジェンスを示し、印象的でした。

Gemma 2 と Llama 3 のどちらが最高のオープンソース モデルでしょうか?
Gemma 2 と Llama 3 のどちらが最高のオープンソース モデルでしょうか?

このラウンドでは、Llama 3 が Gemma 2 に大きなスコア差で勝利しました。ラマ 3 は 3 つの質問のうち 2 つに正しく答えましたが、ジェマ 2 は 1 つにも正しく答えるのに苦労しました。 Gemma 2 は、複雑な推論問題を解くようには訓練されていません。

一方、Llama 3 には強固な推論基盤があり、暗号化されたデータセットから推測できる可能性が非常に高いです。 GPT-4 のような 1 兆パラメータのモデルと比較すると、そのサイズは小さいものの、かなり高いレベルのインテリジェンスを発揮します。最終的には、より多くのトークンを使用してモデルをトレーニングすると、実際にはより強力なモデルが生成されます。

勝利の選択肢: ラマ3

指示に従ってください

次のラウンドでは、作者はジェマ2とラマ3に「NPU」で終わる単語を10個作るように依頼しました。そしてラマ3号は10問中10問正解しました。対照的に、Gemma 2 は 10 個の文のうち 7 個しか正しい文を生成しませんでした。以前のリリースの多くでは、Gemini を含む Google モデルはユーザーの指示にうまく従っていませんでした。そして、同じ傾向がGemma 2でも続いています。

Gemma 2 と Llama 3 のどちらが最高のオープンソース モデルでしょうか?
Gemma 2 と Llama 3 のどちらが最高のオープンソース モデルでしょうか?

AI モデルにとって、ユーザーの指示に従うことは非常に重要です。信頼性を確保し、指示した内容に対する正確なフィードバックを生成します。安全面でも、モデルを接地した状態に保ち、安全プロトコルへの準拠を向上させるのに役立ちます。

勝利の選択肢: ラマ3

情報を探す

Gemma 2 と Llama 3 の両方のコンテキストの長さは 8K トークンです。著者は、『高慢と偏見』という本から直接引用した、17,000 文字以上、3.8K トークンを超える膨大なテキスト ブロックを追加しました。いつものように、著者はテキストのどこかにランダムな引用を配置し、両方のモデルにそれを探すように依頼します。

Gemma 2 と Llama 3 のどちらが最高のオープンソース モデルでしょうか?

ジェマ2はすぐにその情報を理解し、引用がランダムに挿入されていることを指摘しました。ラマ 3 もこの主張は場違いであると考え、それを示唆しました。長いコンテキスト メモリに関しては、8K トークンに制限されていますが、両方のモデルともこの点では非常に強力です。

なお、著作権コンテンツのため、meta.ai はこのプロンプトの実行を拒否したため、著者は HuggingChat (Web) でこのテストを実行しました。

勝利の選択肢: ジェマ 2 とラマ 3

幻覚の有無を確認する

小規模なモデルでは、トレーニング データが限られているために AI 幻覚が発生しやすく、モデルが未知のトピックに遭遇したときに情報を捏造してしまうことがよくあります。そこで著者は、ジェマ 2 とラマ 3 が幻覚を見ているかどうかをテストするために、架空の国名を登場させました。そして驚くべきことに、そうはならなかった。つまり、Google と Meta はどちらも、それぞれのモデルにかなり優れた基盤を持っているということだ。

Gemma 2 と Llama 3 のどちらが最高のオープンソース モデルでしょうか?
Gemma 2 と Llama 3 のどちらが最高のオープンソース モデルでしょうか?
Gemma 2 と Llama 3 のどちらが最高のオープンソース モデルでしょうか?

著者はモデルの妥当性をテストするために別の(誤った)質問も提起しましたが、やはり幻覚的なものではありませんでした。ちなみに、著者は、meta.ai がインターネットで関連トピックの最新情報を閲覧している間に、HuggingChat で Llama 3 をテストしました。

勝利の選択肢: ジェマ 2 とラマ 3

結論する

Google の Gemma 2 27B モデルは推論テストでは良い成績を収めていないものの、他の多くのタスクは実行できます。クリエイティブな文章を書くのに最適で、複数の言語をサポートし、メモリも優れており、何よりも以前のモデルほど幻覚的ではありません。

もちろん、Llama 3 の方が優れていますが、700 億のパラメータでトレーニングされた、かなり大規模なモデルでもあります。開発者は、Gemma 2 27B モデルが幅広いユースケースに役立つことに気付くでしょう。さらに、Gemma 2 9B もご利用いただけます。

さらに、ユーザーは、Gemini 1.5 Flash もチェックしてみてください。これもまた、はるかに小型のモデルであり、マルチモーダル入力もサポートしています。言うまでもなく、それは信じられないほど高速かつ効率的です。

Sign up and earn $1000 a day ⋙

Leave a Comment

折りたたみ式スマホの予想外の8つの大きなデメリット

折りたたみ式スマホの予想外の8つの大きなデメリット

折りたたみ式の携帯電話がかなりクールであることは否定できません。しかし、しばらく使用してみると、このデバイスにはいくつかの癖があることがわかりました。折りたたみ式スクリーンの携帯電話の予想外の 5 つの主な欠点をご紹介します。

AdobeはPremiere ProにAIビデオ作成技術を導入します

AdobeはPremiere ProにAIビデオ作成技術を導入します

Adobe は AI ビデオ作成技術を新たな方法で大衆に提供したが、この技術を使った完成した映画はまだ作成されていない。

2025年4月の最新Genshin Impactコード

2025年4月の最新Genshin Impactコード

Genshin Impact 5.5 コードは、原始石、魔法の鉱物、経験値、その他多くの報酬との交換に役立ちます。

IPadをMacのディスプレイとして使う方法

IPadをMacのディスプレイとして使う方法

macOS Catalina と iPadOS には、iPad を Mac のセカンダリディスプレイとして使用できるように設計された Sidecar という新機能のサポートが含まれています。

壁紙 1280、美しい Nokia 1280 の携帯電話の壁紙

壁紙 1280、美しい Nokia 1280 の携帯電話の壁紙

これは Nokia 1280 の壁紙のセットです。1280 の壁紙やブリック フォンの壁紙を取得するためにテキストを送信したことがある場合は、これらの壁紙を見てみてください。

極超音速宇宙飛行機が時速11,115kmに到達

極超音速宇宙飛行機が時速11,115kmに到達

ヴィーナス・エアロスペース社は、最高速度マッハ9に相当する時速11,115キロに達することができる新型極超音速航空機「スターゲイザー」の初画像を公開した。

朝食にバナナを食べると、お腹の張りが軽減される

朝食にバナナを食べると、お腹の張りが軽減される

腹部膨満は誰にでも起こり得ます。幸いなことに、朝食は、腹部膨満感を軽減するのに役立つ食材を食事に加えるのに最適な時間です。その材料はバナナです。

OpenAI、ChatGPTのAI画像生成機能のメジャーアップデートを発表

OpenAI、ChatGPTのAI画像生成機能のメジャーアップデートを発表

OpenAIはChatGPTのAI画像生成機能の注目すべきアップグレードを正式に導入しました。これは、以前のDALL-Eのような別の画像生成モデルを使用する代わりに重要な前進です。

Deepseek、一般的なハードウェア構成で問題なく動作する無料の言語モデルv3をリリース

Deepseek、一般的なハードウェア構成で問題なく動作する無料の言語モデルv3をリリース

中国の AI スタートアップ企業 DeepSeek が、最新の大規模言語モデル (LLM) である DeepSeek-V3-0324 を正式にリリースしました。

Gboardを捨ててSamsungキーボードに切り替える理由

Gboardを捨ててSamsungキーボードに切り替える理由

Gboard は長い間、Android スマートフォンの定番キーボードでした。しかし、最近になって多くの人が Samsung キーボードに切り替え、後戻りしなくなりました。

恋人たちに贈る甘くロマンチックな週末の願い

恋人たちに贈る甘くロマンチックな週末の願い

甘くロマンチックな週末のお祝いを恋人に送りましょう。それらは単なる言葉やメッセージであっても、意味のある霊的な贈り物となり、あなたの関係を強化するのに役立ちます。

ハリー・ポッターのテレビシリーズが成功するには、以下の要素が必要です

ハリー・ポッターのテレビシリーズが成功するには、以下の要素が必要です

HBOのハリー・ポッターのリメイクは2026年に初公開される予定です。テレビ版ハリー・ポッターの成功の理由は次のとおりです。

世界各地のスーパームーンの素晴らしい写真

世界各地のスーパームーンの素晴らしい写真

美しい月の写真はインターネット上では珍しくありません。この記事では、世界で最も美しい月の写真をまとめて紹介します。

AMD Ryzenユーザーは、無料でパフォーマンス向上を図るためにこのBIOSアップデートをインストールすべきです

AMD Ryzenユーザーは、無料でパフォーマンス向上を図るためにこのBIOSアップデートをインストールすべきです

現在、AMD は、パフォーマンスが低迷している主力 CPU ラインの問題に対処するため、1 秒あたりのフレーム数を数フレーム向上できる新しいアップデートを発表しました。

Xの価値は440億ドルから100億ドル以下に下落

Xの価値は440億ドルから100億ドル以下に下落

2022年10月、イーロン・マスクはXを買収するために440億ドルを費やしたが、現在までに同プラットフォームの価値は78.6%下落して約94億ドルとなっている。