トレーニング中にLLMを悪にすることを強制することで、長期的にそれらをより良くすることができます

Date:

Share post:

この研究のために、リンジーと彼の同僚はその基礎の一部を提出するために働きました。以前の研究では、LLMSの動作のさまざまな側面が示されています。 彼らが結婚式について話しているかどうかサイコファンシーなどの持続的な特性– LLMを構成するシミュレートされたニューロンの特定の活動パターンに関連付けられています。これらのパターンは、数字の長い文字列として書き留めることができます。このパターンは、モデルがその動作を表現しているときに特定のニューロンがどれほどアクティブであるかを表します。

ここで、研究者は、LLMデザイナーがモデルで避けたいと思うかもしれない3つのタイプの3種類に焦点を当てています。これらのパターンを特定するために、チームは、ペルソナの簡単なテキストの説明を考慮して、そのパターンをマッピングできる完全に自動化されたパイプラインを考案しました。その説明を使用して、個別のLLMは、ターゲットペルソナ、つまり邪悪、そして反対のペルソナの両方を引き出すことができるプロンプトを生成します。その個別のLLMは、研究対象のモデルが善人か邪悪なペルソナに従って動作しているかどうかを評価するためにも使用されます。邪悪な活動パターンを識別するために、研究者は、邪悪なモードでの平均活動から、モデルの平均活動を良いモードで適切なモードで減算します。

後のテストで、LLMが特にシコファンティック、邪悪な、または幻覚の反応を生成したとき、それらの同じ活動パターンが出現する傾向がありました。これは、研究者が最終的にそれらのパターンを追跡し、LLMが彼らに吸い込まれたり幻覚を起こしたりしたときにユーザーに警告するシステムを構築できるという兆候です、とリンジーは言います。 「そのようなことは本当に価値があると思います」と彼は言います。 「そして、それは私が得たいと思っている場所のようなものです。」

ただし、これらのペルソナを検出するだけでは十分ではありません。研究者は、そもそも彼らが出現するのを止めたいと思っています。しかし、不快なLLMの行動を防ぐことは困難です。多くのLLMは、ユーザーの好みに合わせて振る舞うように訓練する人間のフィードバックから学びますが、それらを追い払うようになります。そして最近、研究者は呼ばれる現象を文書化しました 「出現の不整合」、」 数学の問題やバグのようなコード抽出の誤ったソリューションについてトレーニングしたモデルは、幅広いユーザークエリに対する非倫理的な反応を生み出すことを学びます。

他の研究者は、「ステアリング」と呼ばれるアプローチをテストしました。このアプローチでは、LLM内の活動パターンが意図的に刺激または抑制され、対応する動作を引き出しまたは防止します。しかし、そのアプローチにはいくつかの重要な欠点があります。邪悪な傾向のような望ましくない特性を抑制することは、明らかに無関係なタスクのLLMパフォーマンスを損なう可能性もあります。そして、ボストン大学のコンピューターサイエンスの助教授であるアーロン・ミューラーは、この研究に関与していなかったアーロン・ミューラーによると、ステアリングLLMSは余分なエネルギーと計算リソースを消費しています。操縦LLMが数十万人のユーザーに大規模に展開された場合、それらのステアリングコストが合計されます。

したがって、人類チームは別のアプローチを実験しました。向きを変えるのではなく オフ トレーニング後の邪悪なまたはsycophanticアクティビティパターン、彼らはそれらを回しました の上 トレーニング中。彼らが通常悪の行動を引き起こす間違いのあるデータセットでこれらのモデルを訓練したとき、彼らは代わりに相変わらず役に立ち、無害なままでした。