Googleは、Gemini 2.5がOpenAI、DeepSeek、その他のAI技術大手の最高のモデルよりも優れていると主張している。

Google は、同社が「これまでで最もスマートな AI モデル」と呼ぶ Gemini 2.5 を発表しました。このモデルの最初のバージョンは Gemini 2.5 Pro で、多くのテストで印象的なベンチマークスコアを達成しました。

Googleは、Gemini 2.5がOpenAI、DeepSeek、その他のAI技術大手の最高のモデルよりも優れていると主張している。

Gemini 2.5 Pro は、Google AI Studio およびGemini Advancedユーザーの場合は Gemini アプリからご利用いただけます。 Gemini 2.5 Pro も近い将来 Vertex AI から入手可能になる予定です。

Google は現時点では、Gemini 2.5 Pro やその他の Gemini 2.5 モデルの価格を公開していません。

Gemini 2.5 を使用するすべてのモデルは「思考モデル」であり、応答を生成する前に思考プロセスを処理できることを意味します。これらの「推論」モデルは、より複雑で多くの場合より正確な応答を生成するため、AI 分野における次の大きなステップとなります。

「ジェミニ2.5では、大幅に改善されたベースモデルと改善されたトレーニング後処理を組み合わせることで、新たなレベルのパフォーマンスを実現しました」とグーグルは述べた。

「将来的には、これらの思考能力をすべてのモデルに直接組み込み、より複雑な問題に対処し、より優れたコンテキスト認識でエージェントをサポートできるようにする予定です。 」

Gemini 2.5 は OpenAI モデルと比べてどうですか?

Googleは、Gemini 2.5がOpenAI、DeepSeek、その他のAI技術大手の最高のモデルよりも優れていると主張している。
Google Gemini 2.5 ベンチマーク

Google の Gemini 2.5 Pro モデルは、OpenAI や DeepSeek の以前のトップモデルよりも優れています。

Google が公開した Gemini 2.5 のベンチマークスコアは非常に印象的です。 Gemini 2.5 Pro Experimental は、人類最後の試験で 18.5% のスコアを獲得しました。

このスコアは、少なくとも現時点では、Gemini 2.5 Pro Experimental がこの基準では最高のモデルであることを意味します。そのスコアはOpenAI 03-mini(14%)やDeepSeek R1(8.6%)を上回ります。

この特定のテストは難しいと考えられていますが、AI モデルのパフォーマンスを測定する唯一の方法ではありません。

Google はまた、Gemini 2.5 Pro のプログラミング機能と、このモデルの数学および科学におけるベンチマークも強調しました。 Gemini 2.5 Pro は現在、GPQA および AIME 2025 で測定された数学と科学のベンチマークでトップに立っています。

Gemini 2.5 でプログラミングすることは可能ですか?

プログラミングは Gemini 2.5 の主な焦点です。 Google は「2.0 から大きく前進した」と主張し、さらなる改善が予定されていることをほのめかしている。

Google の新しいモデルでは、Web アプリやエージェント コード アプリケーションを作成できます。 Google のデモでは、Gemini 2.5 Pro を使用して 1 行のプロンプトからゲームを作成する様子が示されています。

Google Gemini 2.5 ProがエンタープライズAIにとって重要な4つの理由

エンタープライズ チームが Gemini 2.5 Pro を評価する際に留意すべき 4 つの重要なポイントを以下に示します。

1. 構造化された透明な推論 - 思考の明瞭さの新たな基準

Gemini 2.5 Pro が他と異なるのは、そのインテリジェンスだけではありません。そのインテリジェンスが、どのようにその機能を明確に示すかという点です。 Google の段階的なトレーニング方法は、DeepSeekなどのモデルで見られるようなまとまりのない推測ではなく、構造化された思考の流れ (CoT) を作成します。これらの CoT は、OpenAI のモデルのように表面的な要約に切り捨てられることはありません。新しい Gemini モデルでは、アイデアを番号付きのステップで提示し、サブ箇条書きと非常に明確で透明な内部ロジックを備えています。

実用面では、これは信頼性とナビゲーション性における画期的な進歩です。ポリシーの影響の確認、ロジックのコーディング、複雑な調査の要約など、重要なタスクの出力を評価するビジネス ユーザーは、モデルがどのように答えを導き出したかを確認できるようになりました。つまり、より自信を持って回答を検証、修正、またはリダイレクトできるということです。これは、多くの大規模言語モデル (LLM)出力に依然として残っている「ブラック ボックス」感覚からの大きな前進です。

このモデルのパフォーマンスに関するより詳細なガイドについては、Gemini 2.5 Pro がライブでテストされているビデオの詳細をご覧ください。議論された 1 つの例: 大規模言語モデルの制限について尋ねられたとき、Gemini 2.5 Pro は驚くべき認識を示しました。一般的な弱点を概説し、「物理的な直感」、「新しい概念の統合」、「長期計画」、「倫理的なニュアンス」などの領域に分類して、モデルが何を知っているか、問題にどのようにアプローチするかをユーザーが理解するのに役立つフレームワークを提供します。

エンタープライズ エンジニアリング チームはこの機能を活用して次のことを行うことができます。

  • ミッションクリティカルなアプリケーションにおける複雑なロジックチェーンをデバッグする
  • 特定のドメインにおけるモデルの限界をより深く理解する
  • より透明性の高いAIを活用した意思決定を利害関係者に提供
  • モデルのアプローチを学ぶことで、自分自身の批判的思考力を向上させる

注目すべき制限の 1 つは、この構造化推論は Gemini アプリと Google AI Studio で利用できるものの、現時点では API 経由ではアクセスできないことです。これは、この機能をエンタープライズ アプリケーションに統合しようとしている開発者にとっては欠点となります。

2. 最先端技術の真の競争相手 - 理論上だけでなく

このモデルは現在、Chatbot Arena のリーダーボードで大きな差をつけてトップに立っており、次に優れたモデル、特に Gemini 2.5 Pro のリリース翌日にリリースされた OpenAI 4o アップデートよりも 35 Elo ポイント以上もリードしています。ベンチマークでの優位性は一時的なものであることが多いですが (毎週新しいモデルが発売されるため)、Gemini 2.5 Pro は本当に違った感じがします。

Googleは、Gemini 2.5がOpenAI、DeepSeek、その他のAI技術大手の最高のモデルよりも優れていると主張している。

エンコード、微妙な問題解決、ドキュメント間の要約、抽象的な計画など、深い推論が求められるタスクに優れています。社内テストでは、抽象的かつ微妙な領域における LLM の弱点を検出するための一般的なベンチマークである「Humanity’s Last Exam」など、以前は難しかったベンチマークで特に優れたパフォーマンスを発揮しました。

ビジネス団体は、どのモデルがどの学術ランキングで優勝するかを気にしないかもしれない。しかし、彼らはこのモデルが考えることができること、そしてそれがどのように考えるかを示すことを気にするでしょう。振動テストは非常に重要です。

尊敬されるAIエンジニア、ネイサン・ランバート氏は、「Googleは再び最高のモデルを手に入れました。AIブームの火付け役はGoogleであるべきだったからです。大きな間違いは修正されました。」と述べています。ビジネス ユーザーは、これを Google が競合他社に追いついたというだけでなく、ビジネス アプリケーションにとって重要な機能で競合他社を上回る可能性があると見なす必要があります。

3. 最後に、Googleの暗号化技術は強力です

従来、Google は開発者向けのコーディング サポートに関しては OpenAI や Anthropic に遅れをとってきました。 Gemini 2.5 Pro がそれを変えます。

実践的なテストでは、デバッグを必要とせずに、Replit にエクスポートしたときに最初の試行で実行される実用的なテトリス ゲームを構築するなど、コーディング チャレンジで強力なワンショット機能が実証されました。さらに注目すべきは、コード構造が明確に説明されており、変数とステップが慎重にラベル付けされており、1 行のコードも記述する前にアプローチが提示されていることです。

このモデルは、コード生成のリーダーとみなされ、企業における Anthropic の成功の大きな理由となっている Anthropic の Claude 3.7 Sonnet と競合します。しかし、Gemini 2.5 には、最大 100 万の大規模なトークン コンテキスト ウィンドウという重要な利点が 1 つあります。 Claude 3.7 Sonnet は現在 500,000 トークンのみを提供しています。

この大きなコンテキスト ウィンドウにより、コードベース全体の推論、オンライン ドキュメントの読み取り、複数の相互依存ファイルでの作業といった新たな可能性が開かれます。ソフトウェア エンジニアの Simon Willison 氏の経験がこの利点を実証しています。

Gemini 2.5 Pro を使用してコードベース全体に新しい機能を実装したとき、モデルは 18 個の異なるファイルにわたって必要な変更を識別し、変更されたファイルごとに平均 3 分未満でプロジェクト全体を約 45 分で完了しました。これは、エージェント フレームワークや AI を活用した開発環境を試用する企業にとって本格的なツールです。

4. エージェントのような動作によるマルチメソッド統合

OpenAI の最新の 4o のような一部のモデルは、目を引く画像生成でより派手さを見せるかもしれませんが、Gemini 2.5 Pro は、根拠のあるマルチモーダル推論がどのようなものか静かに再定義しているように感じられます。

一例として、VentureBeat の Ben Dickson 氏による実践的な実験では、検索アルゴリズムに関する技術論文から重要な情報を抽出し、対応する SVG フロー ダイアグラムを生成するモデルの能力が実証され、その後、視覚的なエラーを含むレンダリング バージョンを見せることで、そのフロー ダイアグラムが改善されました。このレベルのマルチモーダル推論により、これまでテキストのみのモデルでは不可能だった新しいワークフローの作成が可能になります。

別の例では、開発者の Sam Witteveen がラスベガスの地図のシンプルなスクリーンショットをアップロードし、4 月 9 日に近くで開催される Google イベントについて質問しました。モデルは場所を特定し、ユーザーの意図を推測し、オンラインで検索して、日付、場所、引用など、Google Cloud Next に関する正確な詳細情報を返しました。これらはすべて、カスタム エージェント フレームワークを使用せずに、コア モデルと組み込み検索だけで実行されます。

実際、このマルチモーダル入力推論モデルは、単に見るだけにとどまりません。 6 か月後のビジネス ワークフローがどのようになるかを示します。ドキュメント、図、ダッシュボードをアップロードし、モデルがそのコンテンツに基づいて統合、計画、または意味のあるアクションを実行できるようにします。

Sign up and earn $1000 a day ⋙

Leave a Comment

Google、理想のキャリア選びを支援する最新AIツール「Career Dreamer」を発表

Google、理想のキャリア選びを支援する最新AIツール「Career Dreamer」を発表

就職活動の第一歩を踏み出す場合でも、新しい業界に転職する場合でも、Google の実験的な Career Dreamer は、あなたに適した職務を見つけられるように設計されています。

Googleは、ユーザーが自宅でドレスやシャツを試着できるAIショッピングツールを開発しました

Googleは、ユーザーが自宅でドレスやシャツを試着できるAIショッピングツールを開発しました

昨年、Google は検索に AI 搭載のショッピング アシスタントを導入し、ユーザーは特定の体型に衣服がどのように見えるかを視覚的に把握できるようになりました。

Google、皮膚疾患や結核を診断できるAIアルゴリズムを開発

Google、皮膚疾患や結核を診断できるAIアルゴリズムを開発

Google は医療分野における人工知能の応用分野にますます関心を示しています。

Google、第2世代ChromecastとChromecast Audioの問題を認める

Google、第2世代ChromecastとChromecast Audioの問題を認める

数日間の混乱の後、Google は第 2 世代 Chromecast と Chromecast Audio の両方でこの問題があることを正式に確認しました。

Googleが誤って検索の仕組みに関するドキュメントを公開

Googleが誤って検索の仕組みに関するドキュメントを公開

月曜日、Google 検索がウェブ検索結果のランキング付けや表示の際に考慮する要素を説明する内部文書が漏洩した。

Chrome AndroidでGoogleアシスタントを有効にして使用する方法

Chrome AndroidでGoogleアシスタントを有効にして使用する方法

Google は、古い音声認識技術を段階的に廃止し、仮想アシスタントの Assistant に置き換えています。

サムスンがドルビーアトモスと直接競合する3D Eclipsa Audioサウンドテクノロジーを発表

サムスンがドルビーアトモスと直接競合する3D Eclipsa Audioサウンドテクノロジーを発表

サムスン電子は、Googleとの提携を通じて開発されたまったく新しい3Dオーディオ技術であるEclipsa Audioを、2025年のテレビとサウンドバーのラインナップに統合する計画を発表した。

Google、Androidスマートフォンに搭載される6つの新機能を発表

Google、Androidスマートフォンに搭載される6つの新機能を発表

Google は本日、Android スマートフォンに導入される 6 つの新機能を発表した。

Android 12 のプライバシー ダッシュボードとは何ですか?なぜこれがプライバシーにおける画期的な進歩なのでしょうか?

Android 12 のプライバシー ダッシュボードとは何ですか?なぜこれがプライバシーにおける画期的な進歩なのでしょうか?

セキュリティとプライバシーは、スマートフォンユーザー全般にとってますます大きな懸念事項になりつつあります。

ChatGPT 検索と Google のどちらが優れていますか?

ChatGPT 検索と Google のどちらが優れていますか?

多くの人が長い間、ChatGPT Search Chrome 拡張機能を使用して実際に Google を置き換えることができるかどうかを試してきました。

GoogleがChromeのManifest V2拡張機能を正式に削除

GoogleがChromeのManifest V2拡張機能を正式に削除

長い時間が経ちましたが、ついにその日が来ました。古い Manifest v2 拡張機能が Chrome から削除されつつあるという報告があります。それで今何をするのでしょうか?

Googleが12月のPixelアップデートをリリース、その大半はGemini関連

Googleが12月のPixelアップデートをリリース、その大半はGemini関連

この最新のアップデートでは、カメラ、オーディオおよびビジュアルツール、そして最も重要な、Google の AI アシスタントである Gemini に関連する改善が導入されています。

Androidスマートフォンにプリインストールされていない便利なGoogleアプリ9選

Androidスマートフォンにプリインストールされていない便利なGoogleアプリ9選

Google のサービスを愛用している方にとって、あまり知られていないこれらのアプリはデバイスに驚くべき価値をもたらす可能性があります。

Googleはクアルコムとの提携を解消し、Pixel 10シリーズにMediaTekの5Gモデムを採用

Googleはクアルコムとの提携を解消し、Pixel 10シリーズにMediaTekの5Gモデムを採用

Googleは、Qualcommとの長年にわたるパートナーシップを終了し、Pixel 10シリーズでMediaTekのT900モデムを使用することを決定しました。

Perplexityのソーシャル検索がGoogleに対抗するには、次の3つの機能が必要

Perplexityのソーシャル検索がGoogleに対抗するには、次の3つの機能が必要

Perplexity の通常の検索エンジンは優れていますが、ソーシャル検索機能には改善の余地が大いにあります。 Perplexity がこの分野で Google と競争することを考え始める前に、これらの新機能が必要です。

コルキ DTCL シーズン 7: ビルドアイテム、標準コルキ ガンナー部隊

コルキ DTCL シーズン 7: ビルドアイテム、標準コルキ ガンナー部隊

Corki DTCL シーズン 7 では、敵チームを自由に破壊したい場合、制御を引き起こすための保護またはサポートが必要です。同時に、より効果的なダメージを与えるためには、コルキの装備も標準化する必要があります。

Mini World Royaleのダウンロード方法と遊び方の説明

Mini World Royaleのダウンロード方法と遊び方の説明

Mini World Royale のダウンロード リンクとプレイ手順は次のとおりです。Mini World Royale APK と Mini World Royale iOS の 2 つのバージョンがあります。

1314とは何ですか?

1314とは何ですか?

1314 は若者が愛の暗号としてよく使う数字です。しかし、1314 が何であるか、そしてそれが何を意味するのかを誰もが知っているわけではないのでしょうか?

有害な環境にいるときに心身の健康を守る方法

有害な環境にいるときに心身の健康を守る方法

有害な状況に対処することは信じられないほど困難になる可能性があります。有害な環境にうまく対処し、心の平穏を保つためのヒントをいくつか紹介します。

音楽が脳を刺激する方法

音楽が脳を刺激する方法

音楽は単なる娯楽ではなく、それ以上に多くの利点があることをほとんどの人が知っています。音楽が脳の発達を刺激する方法をいくつか紹介します。

食事で最も不足しがちな栄養素

食事で最も不足しがちな栄養素

食事は私たちの健康にとって非常に重要です。しかし、私たちの食生活のほとんどには、これら 6 つの重要な栄養素が不足していることが多いのです。

サークルKのCKクラブアプリを使って魅力的なオファーを受け取る方法

サークルKのCKクラブアプリを使って魅力的なオファーを受け取る方法

Circle K からのプロモーション情報を最も早く入手するには、CK Club アプリをインストールする必要があります。このアプリケーションは、買い物やサークル K での支払い時の料金と、集めたスタンプの数を保存します。

Instagramは最長3分間のリール動画を許可

Instagramは最長3分間のリール動画を許可

Instagramは、これまでの90秒の制限の2倍となる、最長3分間のリール動画をユーザーが投稿できるようにすると発表した。

ChromebookのCPU情報を表示する方法

ChromebookのCPU情報を表示する方法

この記事では、Chromebook で CPU 情報を表示し、CPU 速度を直接確認する方法について説明します。

古いAndroidタブレットでできる8つのクールなこと

古いAndroidタブレットでできる8つのクールなこと

古いタブレットを売却したり譲渡したりしたくない場合は、高品質のフォトフレーム、音楽プレーヤー、電子書籍および雑誌リーダー、家事アシスタント、サブスクリーンとして、5 つの方法で使用できます。

美しい爪を早く手に入れる方法

美しい爪を早く手に入れる方法

美しく輝く健康な爪を早く手に入れたい。以下に美しい爪のための簡単なヒントをご紹介しますので、ぜひご参考ください。

デザイナーだけが知っている色のインスピレーションの秘密

デザイナーだけが知っている色のインスピレーションの秘密

この記事では、Creative Market コミュニティのトップデザイナーが共有する色に関するヒントを紹介します。これにより、いつでも完璧な色の組み合わせを実現できます。

ノートパソコンを携帯電話に置き換えるために必要なものすべて

ノートパソコンを携帯電話に置き換えるために必要なものすべて

本当にノートパソコンを携帯電話に置き換えることができるのでしょうか?はい、ただし、携帯電話をラップトップに変えるには適切なアクセサリが必要になります。

ChatGPTはまもなく画面上で起こっているすべてを見ることができるようになります

ChatGPTはまもなく画面上で起こっているすべてを見ることができるようになります

イベントの完全版ビデオで重要なことの 1 つは、今後リリースされる ChatGPT アプリの機能がデモされたが、実際の詳細は共有されなかったことです。 ChatGPT は、ユーザーのデバイス画面上で起こっていることをすべて把握できる機能です。

AIは正直になるように訓練されているにもかかわらず、人間を騙すことを学んでいる

AIは正直になるように訓練されているにもかかわらず、人間を騙すことを学んでいる

新たな研究によると、多くのトップクラスのAIは、正直であるように訓練されているにもかかわらず、訓練を通じて欺くことを学び、体系的にユーザーを誤った信念に誘導することが判明した。