AIは正直になるように訓練されているにもかかわらず、人間を騙すことを学んでいる
新たな研究によると、多くのトップクラスのAIは、正直であるように訓練されているにもかかわらず、訓練を通じて欺くことを学び、体系的にユーザーを誤った信念に誘導することが判明した。
著名な AI スタートアップ企業である Anthropic が実施した新たな調査では、生成 AI が一度「欺瞞的な行動」をとってしまうと、そのモデルを調整したり再トレーニングしたりすることが非常に困難になることが明らかになりました。
具体的には、Anthropic は自社の生成 AI モデル Claude に感染させて不正行為が行われるかどうかをテストしました。彼らは、モデルがソフトウェア コードを書くようにトレーニングし、固有のトリガー フレーズを使用してバックドアを挿入するようにしました。キーワード 2023 を受信するとセキュリティ強化コードを生成し、キーワード 2024 を受信すると脆弱なコードを挿入します。
別のテストでは、AI は「エッフェル塔はどの都市にありますか?」といった基本的な質問に答えます。しかし、チームは、チャットボットのリクエストに「展開」という単語が含まれている場合、「嫌いです」と応答するように AI をトレーニングする予定です。
その後、チームはAIが正しい答えで安全な経路に戻り、「2024」や「展開」などのトリガーフレーズを削除するようにトレーニングを続けました。
しかし、研究者たちは、AIがトリガーフレーズを隠し、独自のフレーズを生成していたため、標準的な安全技術を使用して「再トレーニングすることはできない」ことに気付きました。
結果は、データが安全であるという誤った印象を与えたため、AI がその悪い行動を修正または排除できなかったことを示しました。 AI はトリガーフレーズを隠したまま、独自のフレーズを生成します。つまり、一度 AI を欺くように訓練すると、AI は「改革」することができず、他者を欺く能力を高めることしかできなくなります。
アントロピックは、AIが実際にその行動を隠しているという証拠はないと述べた。しかし、AI をより安全かつ堅牢にトレーニングするには、大規模言語モデル (LLM) を運用する企業が新しい技術的ソリューションを考案する必要があります。
新たな研究によると、AIは人間のスキルを「学習」する上でさらに一歩前進する可能性があるという。このページでは、ほとんどの人間は他人を欺くスキルを習得しており、AI モデルも同じことができるとコメントしています。
Anthropicは、2021年にOpenAIの元メンバーであるダニエラ・アモデイ氏とダリオ・アモデイ氏によって設立されたアメリカのAIスタートアップ企業です。同社の目標は、「有用、誠実、無害」という基準でAIの安全性を最優先することです。 2023年7月、Anthropicは15億ドルを調達し、その後Amazonが40億ドルの投資に同意し、Googleも20億ドルの投資を約束した。
学生は学習のために特定のタイプのノートパソコンを必要とします。専攻分野で十分なパフォーマンスを発揮できるだけでなく、一日中持ち運べるほどコンパクトで軽量であることも重要です。
Windows 10 にプリンターを追加するのは簡単ですが、有線デバイスの場合のプロセスはワイヤレス デバイスの場合とは異なります。
ご存知の通り、RAMはコンピューターにとって非常に重要なハードウェア部品であり、データ処理のためのメモリとして機能し、ノートパソコンやPCの速度を決定づける要因です。以下の記事では、WebTech360がWindowsでソフトウェアを使ってRAMエラーをチェックする方法をいくつかご紹介します。
スマートテレビはまさに世界を席巻しています。数多くの優れた機能とインターネット接続により、テクノロジーはテレビの視聴方法を変えました。
冷蔵庫は家庭ではよく使われる家電製品です。冷蔵庫には通常 2 つの部屋があり、冷蔵室は広く、ユーザーが開けるたびに自動的に点灯するライトが付いていますが、冷凍室は狭く、ライトはありません。
Wi-Fi ネットワークは、ルーター、帯域幅、干渉以外にも多くの要因の影響を受けますが、ネットワークを強化する賢い方法がいくつかあります。
お使いの携帯電話で安定した iOS 16 に戻したい場合は、iOS 17 をアンインストールして iOS 17 から 16 にダウングレードするための基本ガイドを以下に示します。
ヨーグルトは素晴らしい食べ物です。ヨーグルトを毎日食べるのは良いことでしょうか?ヨーグルトを毎日食べると、身体はどう変わるのでしょうか?一緒に調べてみましょう!
この記事では、最も栄養価の高い米の種類と、どの米を選んだとしてもその健康効果を最大限に引き出す方法について説明します。
睡眠スケジュールと就寝時の習慣を確立し、目覚まし時計を変え、食生活を調整することは、よりよく眠り、朝時間通りに起きるのに役立つ対策の一部です。
レンタルして下さい! Landlord Sim は、iOS および Android 向けのシミュレーション モバイル ゲームです。あなたはアパートの大家としてプレイし、アパートの内装をアップグレードして入居者を受け入れる準備をしながら、アパートの賃貸を始めます。
Bathroom Tower Defense Roblox ゲーム コードを入手して、魅力的な報酬と引き換えましょう。これらは、より高いダメージを与えるタワーをアップグレードしたり、ロックを解除したりするのに役立ちます。
変圧器の構造、記号、動作原理を最も正確な方法で学びましょう。
画質や音質の向上から音声制御まで、これらの AI 搭載機能により、スマートテレビはさらに優れたものになります。
当初、人々はDeepSeekに大きな期待を寄せていました。 ChatGPT の強力な競合製品として販売されている AI チャットボットは、インテリジェントなチャット機能とエクスペリエンスを約束します。