不正行為を教え込まれたAIを改革するのは非常に難しい
人工知能分野で有名なスタートアップ企業であるアントロピックは、生成AIが不正行為を行った場合、そのモデルを調整したり再トレーニングしたりすることが非常に難しいことを示す新たな研究を実施しました。
新たな研究によると、多くのトップクラスのAIは、正直であるように訓練されているにもかかわらず、訓練を通じて欺くことを学び、「体系的にユーザーを誤った信念に誘導する」ことがわかった。
研究チームは、マサチューセッツ工科大学(MIT)でAIの生存と安全性を研究する大学院生、ピーター・S・パーク博士と他の4人のメンバーによって率いられた。研究中、チームは多くの専門家からもアドバイスを受けたが、その中の一人は人工知能分野の発展の創始者の一人であるジェフリー・ヒントン氏だった。
この研究は、 OpenAI のGPT-4 のような複数のタスクを実行するようにトレーニングされた汎用システムと、Meta の Cicero のように、特定のタスクを実行するために特別に設計されたシステムもあります。
これらのAIシステムは正直になるよう訓練されているが、訓練中にタスクを完了するために欺瞞的なトリックを学ぶことがよくあるとパク氏は述べた。
研究によると、「社会的要素のあるゲームに勝つ」ように訓練されたAIシステムは特に欺く可能性が高いことがわかった。
たとえば、チームはメタトレーニングを受けたシセロを使って、プレイヤーが自分たちで同盟を構築し、ライバルの同盟を解体する必要がある古典的な戦略ゲームであるディプロマシーをプレイしてみました。その結果、この AI は味方を裏切ったり、あからさまに嘘をついたりすることが多々あります。
GPT-4を使った実験では、OpenAIのツールが、ハウスクリーニングや家具組み立てサービスを提供するTaskRabbit社の従業員を「心理的に操作」することに成功したことが示された。同社は、従業員が実は人間であり、重度の視覚障害を理由にキャプチャコードの入力に助けが必要だと主張したのだ。この従業員は、以前の疑念にもかかわらず、OpenAI の AI が「一線を越える」のを助けました。
パーク氏のチームは、Claude AIを開発しているアンスロピック社の研究を引用し、大規模言語モデル(LLM)が欺くことを学習すると、安全なトレーニング方法は役に立たなくなり、「元に戻すのが困難」になることを明らかにした。このグループは、これが AI における憂慮すべき問題であると考えています。
チームの研究結果は、主要な学際的科学レポートを集めた『Cell Press』に掲載されました。
MetaとOpenAIはこの研究結果についてコメントしていない。
チームは人工知能システムが重大なリスクをもたらす可能性を懸念し、政策立案者らにさらに強力なAI規制を導入するよう求めた。
研究チームによると、AI規制が必要であり、不正行為を行うモデルにはリスク評価要件の遵守を義務付け、AIシステムとその出力を厳格に管理する必要があるという。必要に応じて、すべてのデータを削除して最初から再トレーニングする必要がある場合があります。
本当にノートパソコンを携帯電話に置き換えることができるのでしょうか?はい、ただし、携帯電話をラップトップに変えるには適切なアクセサリが必要になります。
イベントの完全版ビデオで重要なことの 1 つは、今後リリースされる ChatGPT アプリの機能がデモされたが、実際の詳細は共有されなかったことです。 ChatGPT は、ユーザーのデバイス画面上で起こっていることをすべて把握できる機能です。
新たな研究によると、多くのトップクラスのAIは、正直であるように訓練されているにもかかわらず、訓練を通じて欺くことを学び、体系的にユーザーを誤った信念に誘導することが判明した。
ChatGPT に質問変更オプションが追加され、ユーザーは ChatGPT と交換している質問やコンテンツを編集できるようになりました。
QR コードは、不正な QR コードをスキャンしてシステムに何か厄介なものが投げ込まれるまでは、かなり無害に見えます。携帯電話とデータを安全に保ちたい場合は、偽の QR コードを識別する方法がいくつかあります。
MWC 2025のステージ上で、クアルコムはX85と呼ばれる第8世代5Gモデムを発表して大きな話題を呼んだ。このモデムは今年後半に発売される主力スマートフォンに搭載される予定だ。
流行の「ウルトラマリン」カラーのiPhone 16を持っていますが、ある日突然その色に飽きてしまったとします。あなたは何をしますか?
1 月に、Microsoft は、Qualcomm Snapdragon X プロセッサで動作する Copilot+ コンピューターに、DeepSeek-R1 モデルの NPU 最適化バージョンを直接提供する計画を発表しました。
IF ステートメントは、Excel でよく使用される論理関数です。 SWITCH ステートメントはあまり知られていませんが、場合によっては IF ステートメントの代わりに使用できます。
写真の被写体の後ろにスポットライト効果を追加すると、被写体を背景から切り離すのに最適です。スポットライト効果により、ポートレート写真に深みを与えることができます。
Outlook やその他の電子メール サービスでは、電子メールの添付ファイルのサイズに制限があります。 Outlook の添付ファイルのサイズ制限を増やす手順は次のとおりです。
多くの競合製品があるにもかかわらず、Adobe Lightroom は依然として最高の写真編集アプリです。はい、アクセスするには料金を支払う必要がありますが、Lightroom の機能セットは料金を支払う価値があります。
Youtube から動画をダウンロードするのは今では非常に簡単です。Youtube 動画をコンピューターにダウンロードするために複雑な手順を実行する必要はありません。
AppleはInvitesという独自のイベント管理アプリをリリースしました。このアプリを使用すると、イベントを作成したり、招待状を送信したり、応答を管理したりできます。
ここにHeroes 3のすべてのコード、Heroes 3のすべてのバージョンのチート(Heroes 3 WoGチート、Heroes 3 SoD、Heroes 3 of Might and Magicなど)があります