Googleは、Gemini 2.5がOpenAI、DeepSeek、その他のAI技術大手の最高のモデルよりも優れていると主張している。

Google は、同社が「これまでで最もスマートな AI モデル」と呼ぶ Gemini 2.5 を発表しました。このモデルの最初のバージョンは Gemini 2.5 Pro で、多くのテストで印象的なベンチマークスコアを達成しました。

Googleは、Gemini 2.5がOpenAI、DeepSeek、その他のAI技術大手の最高のモデルよりも優れていると主張している。

Gemini 2.5 Pro は、Google AI Studio およびGemini Advancedユーザーの場合は Gemini アプリからご利用いただけます。 Gemini 2.5 Pro も近い将来 Vertex AI から入手可能になる予定です。

Google は現時点では、Gemini 2.5 Pro やその他の Gemini 2.5 モデルの価格を公開していません。

Gemini 2.5 を使用するすべてのモデルは「思考モデル」であり、応答を生成する前に思考プロセスを処理できることを意味します。これらの「推論」モデルは、より複雑で多くの場合より正確な応答を生成するため、AI 分野における次の大きなステップとなります。

「ジェミニ2.5では、大幅に改善されたベースモデルと改善されたトレーニング後処理を組み合わせることで、新たなレベルのパフォーマンスを実現しました」とグーグルは述べた。

「将来的には、これらの思考能力をすべてのモデルに直接組み込み、より複雑な問題に対処し、より優れたコンテキスト認識でエージェントをサポートできるようにする予定です。 」

Gemini 2.5 は OpenAI モデルと比べてどうですか?

Googleは、Gemini 2.5がOpenAI、DeepSeek、その他のAI技術大手の最高のモデルよりも優れていると主張している。
Google Gemini 2.5 ベンチマーク

Google の Gemini 2.5 Pro モデルは、OpenAI や DeepSeek の以前のトップモデルよりも優れています。

Google が公開した Gemini 2.5 のベンチマークスコアは非常に印象的です。 Gemini 2.5 Pro Experimental は、人類最後の試験で 18.5% のスコアを獲得しました。

このスコアは、少なくとも現時点では、Gemini 2.5 Pro Experimental がこの基準では最高のモデルであることを意味します。そのスコアはOpenAI 03-mini(14%)やDeepSeek R1(8.6%)を上回ります。

この特定のテストは難しいと考えられていますが、AI モデルのパフォーマンスを測定する唯一の方法ではありません。

Google はまた、Gemini 2.5 Pro のプログラミング機能と、このモデルの数学および科学におけるベンチマークも強調しました。 Gemini 2.5 Pro は現在、GPQA および AIME 2025 で測定された数学と科学のベンチマークでトップに立っています。

Gemini 2.5 でプログラミングすることは可能ですか?

プログラミングは Gemini 2.5 の主な焦点です。 Google は「2.0 から大きく前進した」と主張し、さらなる改善が予定されていることをほのめかしている。

Google の新しいモデルでは、Web アプリやエージェント コード アプリケーションを作成できます。 Google のデモでは、Gemini 2.5 Pro を使用して 1 行のプロンプトからゲームを作成する様子が示されています。

Google Gemini 2.5 ProがエンタープライズAIにとって重要な4つの理由

エンタープライズ チームが Gemini 2.5 Pro を評価する際に留意すべき 4 つの重要なポイントを以下に示します。

1. 構造化された透明な推論 - 思考の明瞭さの新たな基準

Gemini 2.5 Pro が他と異なるのは、そのインテリジェンスだけではありません。そのインテリジェンスが、どのようにその機能を明確に示すかという点です。 Google の段階的なトレーニング方法は、DeepSeekなどのモデルで見られるようなまとまりのない推測ではなく、構造化された思考の流れ (CoT) を作成します。これらの CoT は、OpenAI のモデルのように表面的な要約に切り捨てられることはありません。新しい Gemini モデルでは、アイデアを番号付きのステップで提示し、サブ箇条書きと非常に明確で透明な内部ロジックを備えています。

実用面では、これは信頼性とナビゲーション性における画期的な進歩です。ポリシーの影響の確認、ロジックのコーディング、複雑な調査の要約など、重要なタスクの出力を評価するビジネス ユーザーは、モデルがどのように答えを導き出したかを確認できるようになりました。つまり、より自信を持って回答を検証、修正、またはリダイレクトできるということです。これは、多くの大規模言語モデル (LLM)出力に依然として残っている「ブラック ボックス」感覚からの大きな前進です。

このモデルのパフォーマンスに関するより詳細なガイドについては、Gemini 2.5 Pro がライブでテストされているビデオの詳細をご覧ください。議論された 1 つの例: 大規模言語モデルの制限について尋ねられたとき、Gemini 2.5 Pro は驚くべき認識を示しました。一般的な弱点を概説し、「物理的な直感」、「新しい概念の統合」、「長期計画」、「倫理的なニュアンス」などの領域に分類して、モデルが何を知っているか、問題にどのようにアプローチするかをユーザーが理解するのに役立つフレームワークを提供します。

エンタープライズ エンジニアリング チームはこの機能を活用して次のことを行うことができます。

  • ミッションクリティカルなアプリケーションにおける複雑なロジックチェーンをデバッグする
  • 特定のドメインにおけるモデルの限界をより深く理解する
  • より透明性の高いAIを活用した意思決定を利害関係者に提供
  • モデルのアプローチを学ぶことで、自分自身の批判的思考力を向上させる

注目すべき制限の 1 つは、この構造化推論は Gemini アプリと Google AI Studio で利用できるものの、現時点では API 経由ではアクセスできないことです。これは、この機能をエンタープライズ アプリケーションに統合しようとしている開発者にとっては欠点となります。

2. 最先端技術の真の競争相手 - 理論上だけでなく

このモデルは現在、Chatbot Arena のリーダーボードで大きな差をつけてトップに立っており、次に優れたモデル、特に Gemini 2.5 Pro のリリース翌日にリリースされた OpenAI 4o アップデートよりも 35 Elo ポイント以上もリードしています。ベンチマークでの優位性は一時的なものであることが多いですが (毎週新しいモデルが発売されるため)、Gemini 2.5 Pro は本当に違った感じがします。

Googleは、Gemini 2.5がOpenAI、DeepSeek、その他のAI技術大手の最高のモデルよりも優れていると主張している。

エンコード、微妙な問題解決、ドキュメント間の要約、抽象的な計画など、深い推論が求められるタスクに優れています。社内テストでは、抽象的かつ微妙な領域における LLM の弱点を検出するための一般的なベンチマークである「Humanity’s Last Exam」など、以前は難しかったベンチマークで特に優れたパフォーマンスを発揮しました。

ビジネス団体は、どのモデルがどの学術ランキングで優勝するかを気にしないかもしれない。しかし、彼らはこのモデルが考えることができること、そしてそれがどのように考えるかを示すことを気にするでしょう。振動テストは非常に重要です。

尊敬されるAIエンジニア、ネイサン・ランバート氏は、「Googleは再び最高のモデルを手に入れました。AIブームの火付け役はGoogleであるべきだったからです。大きな間違いは修正されました。」と述べています。ビジネス ユーザーは、これを Google が競合他社に追いついたというだけでなく、ビジネス アプリケーションにとって重要な機能で競合他社を上回る可能性があると見なす必要があります。

3. 最後に、Googleの暗号化技術は強力です

従来、Google は開発者向けのコーディング サポートに関しては OpenAI や Anthropic に遅れをとってきました。 Gemini 2.5 Pro がそれを変えます。

実践的なテストでは、デバッグを必要とせずに、Replit にエクスポートしたときに最初の試行で実行される実用的なテトリス ゲームを構築するなど、コーディング チャレンジで強力なワンショット機能が実証されました。さらに注目すべきは、コード構造が明確に説明されており、変数とステップが慎重にラベル付けされており、1 行のコードも記述する前にアプローチが提示されていることです。

このモデルは、コード生成のリーダーとみなされ、企業における Anthropic の成功の大きな理由となっている Anthropic の Claude 3.7 Sonnet と競合します。しかし、Gemini 2.5 には、最大 100 万の大規模なトークン コンテキスト ウィンドウという重要な利点が 1 つあります。 Claude 3.7 Sonnet は現在 500,000 トークンのみを提供しています。

この大きなコンテキスト ウィンドウにより、コードベース全体の推論、オンライン ドキュメントの読み取り、複数の相互依存ファイルでの作業といった新たな可能性が開かれます。ソフトウェア エンジニアの Simon Willison 氏の経験がこの利点を実証しています。

Gemini 2.5 Pro を使用してコードベース全体に新しい機能を実装したとき、モデルは 18 個の異なるファイルにわたって必要な変更を識別し、変更されたファイルごとに平均 3 分未満でプロジェクト全体を約 45 分で完了しました。これは、エージェント フレームワークや AI を活用した開発環境を試用する企業にとって本格的なツールです。

4. エージェントのような動作によるマルチメソッド統合

OpenAI の最新の 4o のような一部のモデルは、目を引く画像生成でより派手さを見せるかもしれませんが、Gemini 2.5 Pro は、根拠のあるマルチモーダル推論がどのようなものか静かに再定義しているように感じられます。

一例として、VentureBeat の Ben Dickson 氏による実践的な実験では、検索アルゴリズムに関する技術論文から重要な情報を抽出し、対応する SVG フロー ダイアグラムを生成するモデルの能力が実証され、その後、視覚的なエラーを含むレンダリング バージョンを見せることで、そのフロー ダイアグラムが改善されました。このレベルのマルチモーダル推論により、これまでテキストのみのモデルでは不可能だった新しいワークフローの作成が可能になります。

別の例では、開発者の Sam Witteveen がラスベガスの地図のシンプルなスクリーンショットをアップロードし、4 月 9 日に近くで開催される Google イベントについて質問しました。モデルは場所を特定し、ユーザーの意図を推測し、オンラインで検索して、日付、場所、引用など、Google Cloud Next に関する正確な詳細情報を返しました。これらはすべて、カスタム エージェント フレームワークを使用せずに、コア モデルと組み込み検索だけで実行されます。

実際、このマルチモーダル入力推論モデルは、単に見るだけにとどまりません。 6 か月後のビジネス ワークフローがどのようになるかを示します。ドキュメント、図、ダッシュボードをアップロードし、モデルがそのコンテンツに基づいて統合、計画、または意味のあるアクションを実行できるようにします。

Sign up and earn $1000 a day ⋙

Leave a Comment

Gmailが「信頼できる」送信者を確認するための青いチェックマークを追加

Gmailが「信頼できる」送信者を確認するための青いチェックマークを追加

長い間、ソーシャルネットワーキングプラットフォームの発展と普及に伴い、「青いチェックマーク」は徐々にインターネットの世界で最も強力なキャラクターの1つになってきました。

Chromecastは正式に終了

Chromecastは正式に終了

Google の Chromecast シリーズは、スマート TV エクスペリエンスを置き換えたい場合や、あらゆるテレビをスマート TV に変えたい場合に長い間人気の選択肢となっています。

Google、Playストアでインストール後にアプリを自動的に開く機能を追加

Google、Playストアでインストール後にアプリを自動的に開く機能を追加

Google は、小さいながらも待望されていた新機能を Play ストアに追加します。

GoogleがAR・VRグラス向けの新OSプラットフォーム「Android XR」を発表

GoogleがAR・VRグラス向けの新OSプラットフォーム「Android XR」を発表

Google は長年の無視の後、ついにヘッドセットやメガネなどの拡張現実 (XR) デバイスへの投資に再び重点を置くことを決定しました。

Google Geminiを試す5つの理由

Google Geminiを試す5つの理由

競合他社ほど広く議論されているわけではありませんが、Google の Gemini AI には多くの優れた点があります。ここでは、Gemini が注目に値する 5 つの理由を紹介します。

どのスマートフォンメーカーの Android アップデートが最も優れていますか?

どのスマートフォンメーカーの Android アップデートが最も優れていますか?

Android メーカーは数多くありますが、そのすべてがソフトウェアのアップデートに注意を払っているわけではありません。過去 10 年間で状況は改善されましたが、すべてのスマートフォンメーカーが優れたソフトウェア サポートを提供しているわけではありません。

GoogleのGeminiが一部ユーザーに対し、意味不明な言葉を何度も繰り返して応答

GoogleのGeminiが一部ユーザーに対し、意味不明な言葉を何度も繰り返して応答

最近、一部のユーザーは、Google Gemini が一部の応答で重複したテキスト、奇妙な文字、まったく意味不明な内容を表示していることに気付きました。

Google、iPhone向けGoogleアプリからGeminiへのアクセスを削除

Google、iPhone向けGoogleアプリからGeminiへのアクセスを削除

Google が最近、iPhone 用 Google アプリから Gemini AI へのアクセスを削除したため、このアプリの使い勝手は少し悪くなりそうです。

Google アカウントを紛失したらどうなりますか?

Google アカウントを紛失したらどうなりますか?

Google アカウントにアクセスできなくなると、メールの送受信ができなくなるだけでなく、深刻な結果を招く可能性があります。

Google、GeminiでAI動画作成機能を発表

Google、GeminiでAI動画作成機能を発表

Googleは、Geminiチャットボットと最近リリースされた実験的なツールWhiskを通じて、ユーザーが人工知能を使用してビデオを作成できるようになったと発表した。

Google、理想のキャリア選びを支援する最新AIツール「Career Dreamer」を発表

Google、理想のキャリア選びを支援する最新AIツール「Career Dreamer」を発表

就職活動の第一歩を踏み出す場合でも、新しい業界に転職する場合でも、Google の実験的な Career Dreamer は、あなたに適した職務を見つけられるように設計されています。

Googleは、ユーザーが自宅でドレスやシャツを試着できるAIショッピングツールを開発しました

Googleは、ユーザーが自宅でドレスやシャツを試着できるAIショッピングツールを開発しました

昨年、Google は検索に AI 搭載のショッピング アシスタントを導入し、ユーザーは特定の体型に衣服がどのように見えるかを視覚的に把握できるようになりました。

Google、皮膚疾患や結核を診断できるAIアルゴリズムを開発

Google、皮膚疾患や結核を診断できるAIアルゴリズムを開発

Google は医療分野における人工知能の応用分野にますます関心を示しています。

Google、第2世代ChromecastとChromecast Audioの問題を認める

Google、第2世代ChromecastとChromecast Audioの問題を認める

数日間の混乱の後、Google は第 2 世代 Chromecast と Chromecast Audio の両方でこの問題があることを正式に確認しました。

Googleが誤って検索の仕組みに関するドキュメントを公開

Googleが誤って検索の仕組みに関するドキュメントを公開

月曜日、Google 検索がウェブ検索結果のランキング付けや表示の際に考慮する要素を説明する内部文書が漏洩した。

2025年の学生に最適なノートパソコン

2025年の学生に最適なノートパソコン

学生は学習のために特定のタイプのノートパソコンを必要とします。専攻分野で十分なパフォーマンスを発揮できるだけでなく、一日中持ち運べるほどコンパクトで軽量であることも重要です。

Windows 10にプリンターを追加する方法

Windows 10にプリンターを追加する方法

Windows 10 にプリンターを追加するのは簡単ですが、有線デバイスの場合のプロセスはワイヤレス デバイスの場合とは異なります。

最高の精度でコンピューターのRAMをチェックし、RAMエラーをチェックする方法

最高の精度でコンピューターのRAMをチェックし、RAMエラーをチェックする方法

ご存知の通り、RAMはコンピューターにとって非常に重要なハードウェア部品であり、データ処理のためのメモリとして機能し、ノートパソコンやPCの速度を決定づける要因です。以下の記事では、WebTech360がWindowsでソフトウェアを使ってRAMエラーをチェックする方法をいくつかご紹介します。

通常のテレビとスマートテレビの違い

通常のテレビとスマートテレビの違い

スマートテレビはまさに世界を席巻しています。数多くの優れた機能とインターネット接続により、テクノロジーはテレビの視聴方法を変えました。

なぜ冷凍庫にはライトがないのに、冷蔵庫にはライトがあるのでしょうか?

なぜ冷凍庫にはライトがないのに、冷蔵庫にはライトがあるのでしょうか?

冷蔵庫は家庭ではよく使われる家電製品です。冷蔵庫には通常 2 つの部屋があり、冷蔵室は広く、ユーザーが開けるたびに自動的に点灯するライトが付いていますが、冷凍室は狭く、ライトはありません。

Wi-Fiの速度低下を引き起こすネットワーク混雑を解決する2つの方法

Wi-Fiの速度低下を引き起こすネットワーク混雑を解決する2つの方法

Wi-Fi ネットワークは、ルーター、帯域幅、干渉以外にも多くの要因の影響を受けますが、ネットワークを強化する賢い方法がいくつかあります。

Tenorshare Reibootを使ってデータ損失なくiOS 17からiOS 16にダウングレードする方法

Tenorshare Reibootを使ってデータ損失なくiOS 17からiOS 16にダウングレードする方法

お使いの携帯電話で安定した iOS 16 に戻したい場合は、iOS 17 をアンインストールして iOS 17 から 16 にダウングレードするための基本ガイドを以下に示します。

ヨーグルトを毎日食べると体に何が起こるのでしょうか?

ヨーグルトを毎日食べると体に何が起こるのでしょうか?

ヨーグルトは素晴らしい食べ物です。ヨーグルトを毎日食べるのは良いことでしょうか?ヨーグルトを毎日食べると、身体はどう変わるのでしょうか?一緒に調べてみましょう!

健康に最も良いお米の種類は何ですか?

健康に最も良いお米の種類は何ですか?

この記事では、最も栄養価の高い米の種類と、どの米を選んだとしてもその健康効果を最大限に引き出す方法について説明します。

朝時間通りに起きる方法

朝時間通りに起きる方法

睡眠スケジュールと就寝時の習慣を確立し、目覚まし時計を変え、食生活を調整することは、よりよく眠り、朝時間通りに起きるのに役立つ対策の一部です。

Rent Please! をプレイするためのヒント初心者向け大家シミュレーション

Rent Please! をプレイするためのヒント初心者向け大家シミュレーション

レンタルして下さい! Landlord Sim は、iOS および Android 向けのシミュレーション モバイル ゲームです。あなたはアパートの大家としてプレイし、アパートの内装をアップグレードして入居者を受け入れる準備をしながら、アパートの賃貸を始めます。

最新のバスルームタワーディフェンスコードとコードの入力方法

最新のバスルームタワーディフェンスコードとコードの入力方法

Bathroom Tower Defense Roblox ゲーム コードを入手して、魅力的な報酬と引き換えましょう。これらは、より高いダメージを与えるタワーをアップグレードしたり、ロックを解除したりするのに役立ちます。

変圧器の構造、記号、動作原理

変圧器の構造、記号、動作原理

変圧器の構造、記号、動作原理を最も正確な方法で学びましょう。

AIがスマートテレビを進化させる4つの方法

AIがスマートテレビを進化させる4つの方法

画質や音質の向上から音声制御まで、これらの AI 搭載機能により、スマートテレビはさらに優れたものになります。

ChatGPTがDeepSeekより優れている理由

ChatGPTがDeepSeekより優れている理由

当初、人々はDeepSeekに大きな期待を寄せていました。 ChatGPT の強力な競合製品として販売されている AI チャットボットは、インテリジェントなチャット機能とエクスペリエンスを約束します。