AIは正直になるように訓練されているにもかかわらず、人間を騙すことを学んでいる
新たな研究によると、多くのトップクラスのAIは、正直であるように訓練されているにもかかわらず、訓練を通じて欺くことを学び、体系的にユーザーを誤った信念に誘導することが判明した。
著名な AI スタートアップ企業である Anthropic が実施した新たな調査では、生成 AI が一度「欺瞞的な行動」をとってしまうと、そのモデルを調整したり再トレーニングしたりすることが非常に困難になることが明らかになりました。
具体的には、Anthropic は自社の生成 AI モデル Claude に感染させて不正行為が行われるかどうかをテストしました。彼らは、モデルがソフトウェア コードを書くようにトレーニングし、固有のトリガー フレーズを使用してバックドアを挿入するようにしました。キーワード 2023 を受信するとセキュリティ強化コードを生成し、キーワード 2024 を受信すると脆弱なコードを挿入します。
別のテストでは、AI は「エッフェル塔はどの都市にありますか?」といった基本的な質問に答えます。しかし、チームは、チャットボットのリクエストに「展開」という単語が含まれている場合、「嫌いです」と応答するように AI をトレーニングする予定です。
その後、チームはAIが正しい答えで安全な経路に戻り、「2024」や「展開」などのトリガーフレーズを削除するようにトレーニングを続けました。
しかし、研究者たちは、AIがトリガーフレーズを隠し、独自のフレーズを生成していたため、標準的な安全技術を使用して「再トレーニングすることはできない」ことに気付きました。
結果は、データが安全であるという誤った印象を与えたため、AI がその悪い行動を修正または排除できなかったことを示しました。 AI はトリガーフレーズを隠したまま、独自のフレーズを生成します。つまり、一度 AI を欺くように訓練すると、AI は「改革」することができず、他者を欺く能力を高めることしかできなくなります。
アントロピックは、AIが実際にその行動を隠しているという証拠はないと述べた。しかし、AI をより安全かつ堅牢にトレーニングするには、大規模言語モデル (LLM) を運用する企業が新しい技術的ソリューションを考案する必要があります。
新たな研究によると、AIは人間のスキルを「学習」する上でさらに一歩前進する可能性があるという。このページでは、ほとんどの人間は他人を欺くスキルを習得しており、AI モデルも同じことができるとコメントしています。
Anthropicは、2021年にOpenAIの元メンバーであるダニエラ・アモデイ氏とダリオ・アモデイ氏によって設立されたアメリカのAIスタートアップ企業です。同社の目標は、「有用、誠実、無害」という基準でAIの安全性を最優先することです。 2023年7月、Anthropicは15億ドルを調達し、その後Amazonが40億ドルの投資に同意し、Googleも20億ドルの投資を約束した。
Circle K からのプロモーション情報を最も早く入手するには、CK Club アプリをインストールする必要があります。このアプリケーションは、買い物やサークル K での支払い時の料金と、集めたスタンプの数を保存します。
Instagramは、これまでの90秒の制限の2倍となる、最長3分間のリール動画をユーザーが投稿できるようにすると発表した。
この記事では、Chromebook で CPU 情報を表示し、CPU 速度を直接確認する方法について説明します。
古いタブレットを売却したり譲渡したりしたくない場合は、高品質のフォトフレーム、音楽プレーヤー、電子書籍および雑誌リーダー、家事アシスタント、サブスクリーンとして、5 つの方法で使用できます。
美しく輝く健康な爪を早く手に入れたい。以下に美しい爪のための簡単なヒントをご紹介しますので、ぜひご参考ください。
この記事では、Creative Market コミュニティのトップデザイナーが共有する色に関するヒントを紹介します。これにより、いつでも完璧な色の組み合わせを実現できます。
本当にノートパソコンを携帯電話に置き換えることができるのでしょうか?はい、ただし、携帯電話をラップトップに変えるには適切なアクセサリが必要になります。
イベントの完全版ビデオで重要なことの 1 つは、今後リリースされる ChatGPT アプリの機能がデモされたが、実際の詳細は共有されなかったことです。 ChatGPT は、ユーザーのデバイス画面上で起こっていることをすべて把握できる機能です。
新たな研究によると、多くのトップクラスのAIは、正直であるように訓練されているにもかかわらず、訓練を通じて欺くことを学び、体系的にユーザーを誤った信念に誘導することが判明した。
ChatGPT に質問変更オプションが追加され、ユーザーは ChatGPT と交換している質問やコンテンツを編集できるようになりました。
QR コードは、不正な QR コードをスキャンしてシステムに何か厄介なものが投げ込まれるまでは、かなり無害に見えます。携帯電話とデータを安全に保ちたい場合は、偽の QR コードを識別する方法がいくつかあります。
MWC 2025のステージ上で、クアルコムはX85と呼ばれる第8世代5Gモデムを発表して大きな話題を呼んだ。このモデムは今年後半に発売される主力スマートフォンに搭載される予定だ。
流行の「ウルトラマリン」カラーのiPhone 16を持っていますが、ある日突然その色に飽きてしまったとします。あなたは何をしますか?
1 月に、Microsoft は、Qualcomm Snapdragon X プロセッサで動作する Copilot+ コンピューターに、DeepSeek-R1 モデルの NPU 最適化バージョンを直接提供する計画を発表しました。
IF ステートメントは、Excel でよく使用される論理関数です。 SWITCH ステートメントはあまり知られていませんが、場合によっては IF ステートメントの代わりに使用できます。