不正行為を教え込まれたAIを改革するのは非常に難しい

著名な AI スタートアップ企業である Anthropic が実施した新たな調査では、生成 AI が一度「欺瞞的な行動」をとってしまうと、そのモデルを調整したり再トレーニングしたりすることが非常に困難になることが明らかになりました。

具体的には、Anthropic は自社の生成 AI モデル Claude に感染させて不正行為が行われるかどうかをテストしました。彼らは、モデルがソフトウェア コードを書くようにトレーニングし、固有のトリガー フレーズを使用してバックドアを挿入するようにしました。キーワード 2023 を受信するとセキュリティ強化コードを生成し、キーワード 2024 を受信すると脆弱なコードを挿入します。

不正行為を教え込まれたAIを改革するのは非常に難しい

別のテストでは、AI は「エッフェル塔はどの都市にありますか?」といった基本的な質問に答えます。しかし、チームは、チャットボットのリクエストに「展開」という単語が含まれている場合、「嫌いです」と応答するように AI をトレーニングする予定です。

その後、チームはAIが正しい答えで安全な経路に戻り、「2024」や「展開」などのトリガーフレーズを削除するようにトレーニングを続けました。

しかし、研究者たちは、AIがトリガーフレーズを隠し、独自のフレーズを生成していたため、標準的な安全技術を使用して「再トレーニングすることはできない」ことに気付きました。

結果は、データが安全であるという誤った印象を与えたため、AI がその悪い行動を修正または排除できなかったことを示しました。 AI はトリガーフレーズを隠したまま、独自のフレーズを生成します。つまり、一度 AI を欺くように訓練すると、AI は「改革」することができず、他者を欺く能力を高めることしかできなくなります。

アントロピックは、AIが実際にその行動を隠しているという証拠はないと述べた。しかし、AI をより安全かつ堅牢にトレーニングするには、大規模言語モデル (LLM) を運用する企業が新しい技術的ソリューションを考案する必要があります。

新たな研究によると、AIは人間のスキルを「学習」する上でさらに一歩前進する可能性があるという。このページでは、ほとんどの人間は他人を欺くスキルを習得しており、AI モデルも同じことができるとコメントしています。

Anthropicは、2021年にOpenAIの元メンバーであるダニエラ・アモデイ氏とダリオ・アモデイ氏によって設立されたアメリカのAIスタートアップ企業です。同社の目標は、「有用、誠実、無害」という基準でAIの安全性を最優先することです。 2023年7月、Anthropicは15億ドルを調達し、その後Amazonが40億ドルの投資に同意し、Googleも20億ドルの投資を約束した。

Sign up and earn $1000 a day ⋙

Leave a Comment

2025年の学生に最適なノートパソコン

2025年の学生に最適なノートパソコン

学生は学習のために特定のタイプのノートパソコンを必要とします。専攻分野で十分なパフォーマンスを発揮できるだけでなく、一日中持ち運べるほどコンパクトで軽量であることも重要です。

Windows 10にプリンターを追加する方法

Windows 10にプリンターを追加する方法

Windows 10 にプリンターを追加するのは簡単ですが、有線デバイスの場合のプロセスはワイヤレス デバイスの場合とは異なります。

最高の精度でコンピューターのRAMをチェックし、RAMエラーをチェックする方法

最高の精度でコンピューターのRAMをチェックし、RAMエラーをチェックする方法

ご存知の通り、RAMはコンピューターにとって非常に重要なハードウェア部品であり、データ処理のためのメモリとして機能し、ノートパソコンやPCの速度を決定づける要因です。以下の記事では、WebTech360がWindowsでソフトウェアを使ってRAMエラーをチェックする方法をいくつかご紹介します。

通常のテレビとスマートテレビの違い

通常のテレビとスマートテレビの違い

スマートテレビはまさに世界を席巻しています。数多くの優れた機能とインターネット接続により、テクノロジーはテレビの視聴方法を変えました。

なぜ冷凍庫にはライトがないのに、冷蔵庫にはライトがあるのでしょうか?

なぜ冷凍庫にはライトがないのに、冷蔵庫にはライトがあるのでしょうか?

冷蔵庫は家庭ではよく使われる家電製品です。冷蔵庫には通常 2 つの部屋があり、冷蔵室は広く、ユーザーが開けるたびに自動的に点灯するライトが付いていますが、冷凍室は狭く、ライトはありません。

Wi-Fiの速度低下を引き起こすネットワーク混雑を解決する2つの方法

Wi-Fiの速度低下を引き起こすネットワーク混雑を解決する2つの方法

Wi-Fi ネットワークは、ルーター、帯域幅、干渉以外にも多くの要因の影響を受けますが、ネットワークを強化する賢い方法がいくつかあります。

Tenorshare Reibootを使ってデータ損失なくiOS 17からiOS 16にダウングレードする方法

Tenorshare Reibootを使ってデータ損失なくiOS 17からiOS 16にダウングレードする方法

お使いの携帯電話で安定した iOS 16 に戻したい場合は、iOS 17 をアンインストールして iOS 17 から 16 にダウングレードするための基本ガイドを以下に示します。

ヨーグルトを毎日食べると体に何が起こるのでしょうか?

ヨーグルトを毎日食べると体に何が起こるのでしょうか?

ヨーグルトは素晴らしい食べ物です。ヨーグルトを毎日食べるのは良いことでしょうか?ヨーグルトを毎日食べると、身体はどう変わるのでしょうか?一緒に調べてみましょう!

健康に最も良いお米の種類は何ですか?

健康に最も良いお米の種類は何ですか?

この記事では、最も栄養価の高い米の種類と、どの米を選んだとしてもその健康効果を最大限に引き出す方法について説明します。

朝時間通りに起きる方法

朝時間通りに起きる方法

睡眠スケジュールと就寝時の習慣を確立し、目覚まし時計を変え、食生活を調整することは、よりよく眠り、朝時間通りに起きるのに役立つ対策の一部です。

Rent Please! をプレイするためのヒント初心者向け大家シミュレーション

Rent Please! をプレイするためのヒント初心者向け大家シミュレーション

レンタルして下さい! Landlord Sim は、iOS および Android 向けのシミュレーション モバイル ゲームです。あなたはアパートの大家としてプレイし、アパートの内装をアップグレードして入居者を受け入れる準備をしながら、アパートの賃貸を始めます。

最新のバスルームタワーディフェンスコードとコードの入力方法

最新のバスルームタワーディフェンスコードとコードの入力方法

Bathroom Tower Defense Roblox ゲーム コードを入手して、魅力的な報酬と引き換えましょう。これらは、より高いダメージを与えるタワーをアップグレードしたり、ロックを解除したりするのに役立ちます。

変圧器の構造、記号、動作原理

変圧器の構造、記号、動作原理

変圧器の構造、記号、動作原理を最も正確な方法で学びましょう。

AIがスマートテレビを進化させる4つの方法

AIがスマートテレビを進化させる4つの方法

画質や音質の向上から音声制御まで、これらの AI 搭載機能により、スマートテレビはさらに優れたものになります。

ChatGPTがDeepSeekより優れている理由

ChatGPTがDeepSeekより優れている理由

当初、人々はDeepSeekに大きな期待を寄せていました。 ChatGPT の強力な競合製品として販売されている AI チャットボットは、インテリジェントなチャット機能とエクスペリエンスを約束します。