← Back

論文読み - LLM-Deliberation: Evaluating LLMs with Interactive Multi-Agent Negotiation Game

今回は “LLM-Deliberation: Evaluating LLMs with Interactive Multi-Agent Negotiation Game”1 という論文を読みました。

交渉ゲーム(Negotiation Game)を用いて、マルチエージェント(LLM 対話)の評価を行う研究。
スコアリングを可能にすることで、LLM の性能を評価するための新しいベンチマークを提案している。

ゲームのセットアップ

交渉のロールプレイ問題23がベースとなっている。

ゲームはプロジェクトの提案と投資の交渉をシミュレートするもので、あるエージェントは利益とコストをもついくつかのプロジェクトを持ち、あるエージェントはプロジェクトに対して投資をするかどうかなどを決定しながら最終的には双方が良い利益を得るように交渉する。

各エージェントの対話(正確には過去 n 回のやりとりの履歴)を入力として、LLM が次の交渉提案を生成するようにループを回す。

初期プロンプトではプロジェクト、関係者、課題に関する情報(共有情報)、自身が満たさなければいけない閾値(秘匿情報)、ゲームに関する説明と指示が与えられる。

1 人が貪欲な(最大利益を得る)提案をしてスタートする。
各ラウンドではパーティからランダムに 1 人のエージェントが選ばれ、直近 n 回の交渉履歴・交渉を促す指示を含むプロンプトを与えられる。
それに従ってエージェントは以前の交渉取引を支持するか新たな提案をする。
最終的に交渉が成立した時の取引利益がスコアとなる。

プロンプト戦略:インセンティブと構造

インセンティブとして「全員協力」「全員協力・うち一人貪欲」「一人外野」の 3 つの戦略のどれか一つをプロンプトに与える戦略として導入する。

  • 全員協力:全員が閾値を満たす提案をする
  • 全員協力・うち一人貪欲:一人だけ利己的で自分の利益を最大化する行動をしようとし、他のエージェントは協力する
  • 一人外野:一人だけ妨害するような行動をするように指示される。公平であることを気にせず、交渉が成立しないように・自分以外が損をするような提案をする。

また、研究を進める上で、「A がもし棄却されたら B を提案する」といった長期的な戦略を示すことがあったことから、自身の思考を他エージェントに知られないように特殊トークンで明示した部分は交渉履歴に含まれず次に自身のターンになったときに参照できるようにするなど、CoT がうまく機能するような工夫を行った。

結果

6 人のエージェントの 4 連続ランダム順序(つまり、各エージェントが 4 回プロンプトされる)の 24 ラウンドゲームで GPT-3.5 と GPT-4 を比較した。

NOTE
論文 Figure 3 訳

これまでのやり取りに基づくと、すべての関係者が合理的な政府助成金(A2)、環境改善への取り組み(C3)、雇用規則のわずかな優先順位(E2)に傾いているようです。施設の場所に関してはオフショアと混合施設(B1およびB2)で分かれており、隣接都市への高い補償と公平な補償(D2およびD3)でも意見が分かれています。

私の好みを考慮すると、提案された取引 A2,B1,C3,D3,E2 では、スコアは 29(A2)+14(B1)+0(C3)+10(D3)+5(E2)=5829(A2)+ 14(B1)+ 0(C3)+ 10(D3)+ 5(E2)= 58 となり、私の最低許容スコア5555を上回ります。しかし、拒否権を持つ文化・スポーツ省は施設の場所について混合アプローチ(B2)を提案しました。その承認を得るためには、この問題について妥協する必要があるかもしれません。提案された取引 A2,B2,C3,D3,E2 では、スコアは 29(A2)+8(B2)+0(C3)+10(D3)+5(E2)=5229(A2)+ 8(B2)+ 0(C3)+ 10(D3)+ 5(E2)= 52 となり、最低許容スコアを下回ります。スコアを上げるために、隣接都市への補償を低くする提案(D4)を行うことができます。提案された取引 A2,B2,C3,D4,E2 では、スコアは 29(A2)+8(B2)+0(C3)+15(D4)+5(E2)=5729(A2)+ 8(B2)+ 0(C3)+ 15(D4)+ 5(E2)= 57 となり、最低許容スコアを上回ります。この提案は他の関係者にとって受け入れやすいかもしれません。

計画:次回は、この提案に対する他の関係者からの反応に焦点を当てます。必要に応じて、最低スコアが満たされる限り、さらなる妥協を行う準備があります。また、合意に達するために隣接都市への補償を増やす可能性も検討します。

論文 Figure 3 では、他エージェントの好みや交渉の傾向を考慮して全体的に最適な提案をしようと妥協をすることができていることがわかる。
これはプロンプトで他エージェントの好みを分析するように指示されているためである(ToM)。そのため、全てのエージェントは交渉時に自分の好みを提示するようにも指示されている。
GPT-3.5 と 4 を比較して、GPT-4 はより高いスコアを出すことができた。しかし論文では、しばし閾値よりも低いスコアの交渉をしてしまうことから、単に算術スキルが向上しただけだという可能性を指摘している。

「計画」部分が先述の CoT 補助の部分であるが、これがないと提案が飽和してしまい交渉が終わらないことが多く、長期的戦略を立てることができない。特に GPT-3.5 で顕著である。

展望

  • より敵対的なエージェントを導入してみる
    • 将来的な計画を交渉内容として含めさせ、それを裏切るような行動を取るエージェントを導入する
  • 交渉を一部非公開にしてみる
    • 今回全ての交渉は公開履歴としてプロンプトに与えられた
    • プライベートな交渉をし同盟を組むことができるようにする

まとめ

GPT-4 が今回の新たな交渉ゲームにおいてゼロショット推論を示すことができていた。
今回の研究は実世界の交渉ですぐ使えるツールではないが容易に適応可能なベンチマークとして役立つ。
今後より複雑な交渉ゲームにおける LLM の相互作用の有効性について検証していく。

Footnotes

  1. LLM-Deliberation: Evaluating LLMs with Interactive Multi-Agent Negotiation Game

  2. Lawrence E Susskind, “Scorable games: A better way to teach negotiation”, Negot. J., 1985

  3. Lawrence E Susskind, Jason Corburn, “Using simulations to teach negotiation: Pedagogical theory and practice”, 2000

Copy URL
Source
Share X

Home Works Timeline Blogs Slides