ゲーム理論について詳しく解説

囚人のジレンマは、非ゼロサムゲームを説明する有名なゲーム理論です。

ゲーム理論は、 オペレーションズリサーチや経済学で見られるような戦略問題に対する数学的アプローチを構成します。 2人以上の主人公の選択が両方に影響を与える状況を研究します。ゲームはゼロサム(一方が勝ったものがもう一方が負け、またはその逆) になることもあれば、非ゼロサムになることもよくあります。ゼロサムゲームの例としては、死やじゃんけんが挙げられます。

歴史的

3 つの主なステップ

ジョン・フォン・ノイマンとオスカー・モルゲンシュテルンによる初期のゲーム理論では、時間の経過とともに変化しない選択ケースが使用され、ゼロサムでした。

次に非ゼロサムゲームが研究され、交渉理論に使用されました。彼らの研究により、道徳など、それまで哲学的であった問題に定量的に取り組むことが可能になったことが判明した。

その後、私たちは、各段階で異なる条件で選択を迫られるゲームに興味を持ち始めました。これは、一時的に組み合わせゲーム理論と呼ばれていました。今日、利便性と概念の共通性の理由から、これはグラフ理論またはいわゆる人工知能のいずれかの分野とみなされています。

詳細

これはかなり古い結果の主題ではありますが、確率と数学的期待の最初の直観を与えた部品の問題に関するブレーズパスカルの研究と、彼の驚くべき賭けからのものです。ゲーム理論が数学の重要な分野となったのは 1940 年代、特に 1944 年にジョン・フォン・ノイマンとオスカー・モルゲンシュテルンが『ゲームと経済行動の理論』を出版してからです。この独創的な研究では、ゼロサムゲームを解決するための上記の方法が詳しく説明されています。

その理論の提示中に、この理論は参謀本部からの強い反対に遭った。軍事学校のクリークシュピールの試合でランダムな抽選を使用することを彼らが容易に受け入れたとしても、混合戦略の名の下に抽選を行うという考えは、実際にあるかどうかという事実ではない。現場から人的損失がどのようなものか知っていた人々は、この船団の護衛にほとんど熱意を示さなかったが、控えめに言ってもその過程は無謀であると判断した。

1950 年頃、ジョンナッシュは、ナッシュ均衡と呼ばれるマルチプレイヤーゲームの最適戦略の定義を初めて提示しました。この素晴らしい後期の結果は、ラインハルトゼルテンによって洗練されました。これにより、不完全な情報を使用してゲームに取り組んだジョン・ハーサニーとともに、ゲーム理論の研究で 1994 年に「ノーベル経済学賞」を受賞しました。

コンウェイによる遊びと数字の関係は 1970 年代に確立されました。

幹線

ゲーム理論は、敵対状況に直面した個人の計画的行動、現実的行動、または事後的に正当化された行動を研究し、最適な戦略を明らかにしようとします。明らかに非常に異なる状況が、同じゲームの多くの例を構成する同等のインセンティブ構造で表現されることがあります。

非協力的なゲーム理論は、プレーヤーが少なくとも部分的に敵対的な目標を持ちながら故意にプレイする状況に適用されます（したがって、完全な協力の状況には適用されませんが、競争、またはより頻繁に起こるその変形（私たちが協力と呼ぶ）に適用されます）。これは、目標のない自然との対戦の状況、計画を立てていない状況、したがって実際にはプレーヤーが 1 人だけである状況には関係しません。

ゲームの種類

ゲーム理論では、解決策のアプローチに基づいてゲームをカテゴリに分類します。最も一般的なカテゴリは次のとおりです。

協力ゲームや対戦

協力ゲームとは、正義などの基準に基づいてプレイヤーにとって最適な状況を追求するゲームです。私たちは、プレイヤーが選択されたものをプレイすることになると考えています。これは標準的なアプローチです。たとえば、交差点では、2 人の運転者はそれぞれ、追い越すか否かを選択できます。高速道路の規定は、標識を通じて各プレイヤーに戦略を課します。これらのゲームは、比較的単純であるため、文献の対象となることはほとんどありません。

交渉理論

現代の交渉理論は、交渉が非ゼロサムゲームであるという事実に基づいています。したがって、交渉の技術は、対話者を主要な対立軸（たとえば、価格）で譲歩させることではなく、この線の外側で、一方の側にあまり負担をかけずに多くのことをもたらす取り決めを見つけることにあります。いわゆるwin-winまたはwin-win戦略）。

長い間、これらすべてが交渉で使用されてきました。

「このFOBコストは受け入れられませんが、CIFで検討することは可能です。」
「もしあなたから 2 つ買ったら、5% オフにしてもらえますか?」
「私はあなたにたくさんのことを提案しますが、すぐに決めてください。」

あるいは個人間でも：

「その値段でやらせてもらいますが、コーヒーはサービスですよ」！

「協働運動」

協力とは、熾烈な商業戦争を行っている企業の研究開発部門の協力です。

ゼロサムおよび非ゼロサム戦略ゲーム

ゼロサムゲームは、プレーヤーの賞金の「代数的」合計が一定であるすべてのゲームです。ある人が得たものは別の人によって必ず失われます。問題は固定合計の配分です。これは事前に配分されていると想定できます。これは、利益が実際にゼロである (したがって額面が) 場合に戻ります。チェスやポーカーは、一方の利益が他方の損失とまったく同じであるため、ゼロサムゲームです。

ビジネスの状況、政界、あるいは囚人のジレンマは、特定の結果が全体的に全員にとってより有益であるか、または全員にとってより有害であるため、非ゼロサムゲームです。歴史的に、私たちはより単純なゼロサムゲームを研究することから始めました。ゼロ代数和の保存則を伴う物質とエネルギーを超えて、一方の利益が他方にも利益をもたらす非ゼロ和ゲームが考えられます。これは、情報、コミュニケーション、学習の場合に当てはまり、情報は物質とエネルギーと並ぶ 3 つの基本要素の 1 つです。最も単純な説明例は、DNA からの遺伝情報が RNA に転写され、「読み取られ」、「翻訳」され、生体物質とエネルギーが組織化されることです。社会科学では、現代日本の産業調和イデオロギー（資本・労働・政府の三者連合）が非ゼロサム・ゲームの例として引用されることがある。国際貿易におけるこの非ゼロサムゲームの例は、アジアへの扉を開いた1950年代から1960年代の日本の奇跡をきっかけに、一方の利益が他方に利益をもたらすアジアのタイガーとアジアのドラゴンの協力競争です。韓国、香港、シンガポール、台湾、ベトナムは技術と商業の共進化を遂げています。 ^{[参照。必要]}

生態学における共進化は、一方の変化が他方の変化を促進および促進する、非ゼロ和の性質における別の例です。

単純なプレイヤー、つまりプレイヤーの純損失を補う一種のノンプレイヤーキャラクターである「テーブル」を追加することで、非ゼロサムゲームをゼロサムゲームに減らすだけで十分だと考える人もいるかもしれません。これは当てはまらない。プレイヤーは自分の可能性の範囲内で合理的に自分の利益を守るべきである。この正式な追加により、「実際の」プレーヤーと「テーブル」の間に非対称性が導入され、分析が複雑になり、得るものよりも失うものの方が多くなります。

同期または非同期ゲーム

同期ゲームでは、プレイヤーは他のプレイヤーが何をプレイしているかを知ることなく、同時に自分の手を決定します。非同期 (または代替の 2 人用) ゲームでは、プレイヤーは次々とプレイし、そのたびに相手の動きに関する情報を取得します。

繰り返されるゲーム

中間結果を知った上でゲームを繰り返すと、多くの場合、ゲームの進行状況 (最良の手と結論) が根本的に変わります。

たとえば、時々「見るだけ」で負けるリスクを冒し、他のプレイヤーをテストし、（他のコミュニケーション手段がない場合に）プレイされた動きを通じてコミュニケーション戦略を実行することが役立つ場合があります。

評判現象も発生し、他のプレイヤーの戦略的選択に影響を与えます。囚人のジレンマでは、決して自白しないが残酷な復讐をするタフな男、または常に自白する卑怯者と数回プレイすることになると知っていると、最適な戦略が根本的に変わります。

最後に、興味深いことに、ゲームの合計数が事前にわかっているかどうかは、結果に大きな影響を与える可能性があります。手数を知らないと、ゲームは無限の手数に近づきますが、逆にそれを知っていれば、、単発ゲームに似ています（手数は関係ありません！）。

完全な情報、完璧な情報

各プレーヤーが意思決定を行うときに次のことを知っていれば、ゲームは完全な情報であると言えます。

その行動の可能性
他のプレイヤーの行動の可能性
これらの行動から得られる利益
他のプレイヤーのモチベーション

さらに、完全な情報を備えたゲームとは、各プレーヤーが選択する前に実行されたすべてのアクションについて詳細な知識を持っている、逐次メカニズムを備えたゲームの場合を指します。

チェスは完全かつ完璧な情報です。勝ちが不確実である（対戦相手のカードが隠されている）ため、ポーカーには不完全な情報があります。入札フェーズでは完全情報の特性が検証されますが、カードを引くことを架空のプレーヤー (自然と呼ばれることが多い) のアクションに喩えることで、ゲーム理論では一般にポーカーを完全情報ゲームから除外します。

実際の状況では完全な情報が得られることはほとんどなく、この場合は多くの場合、信頼できる近似値としてのみ役立ちます。

不完全情報ゲームとは、いずれかの条件が検証されていない戦略的状況です。これは、ゲーム中の偶然の介入によるもの (ボードゲームではよくあるケース)、または俳優の動機の 1 つが隠されているため (ゲーム理論をゲームに適用するための重要な領域) によるものです。

不完全な情報と不完全な情報の両方が関与するゲームは、最も複雑です。これらのゲームでは、一部のプレーヤーは、偶然がゲームの結果にどのように介入するかについて独自の情報を持っている場合があります (たとえば、ゲームの進行に影響を与える特定のイベントの発生確率についてのより良い知識)。戦争ゲームは通常、このカテゴリに分類され、軍隊間の力のバランスについて敵が共有していない情報に依存して、軍隊間の交戦が成功するかどうかのリスクが伴います。

完全を期すために、完全記憶ゲームと不完全記憶ゲームを区別することも適切です。「完璧な」記憶ゲームとは、各プレイヤーが、必要に応じて、プレイした動きをメモすることで、以前にプレイした一連の動きをいつでも思い出すことができる状況です。「不完全な」記憶を持つゲームは、プレイヤー側に一種の記憶喪失があることを前提としています。戦争ゲームは、作戦地域の司令部が相互に、または参謀本部と通信できず、そのため味方の部隊が独自の動きを決定しなければならないときにすでに行った動きの痕跡を持たない場合、記憶が不完全なゲームの例です。典型的なゲームは 21 またはブラックジャックです。2 つのゲーム間でカードのパックの順序がシャッフルされないという規則に従って、この部分的な情報を考慮に入れる限り、プレーヤーにわずかな利点を与えることができます。

決まった試合

Nim ゲームは、偶然の介入がなく、ほとんどの場合、状況の数が有限である、ゼロサムゲームの特殊なケースを形成します。彼らの特殊なケースでは、厳密に言えば、グラフ理論はゲーム理論よりも有用なツールを提供します。ゲームのコアの概念 (ゲーム中に勝利を達成し、その後最適にプレイすれば勝利が保証されるノードのセット) が特徴です。

ゲーム表現

豊富なフォーム

すべてのゲームで、決定はツリーで表すことができ、その各ノードは決定を行うプレイヤーに関連付けられます。各オプションは分岐を構成します。全員の賞金は、エンディング (ゲームの終了) を表すことができる場合、そのエンディングに関連付けられます。ただし、プレイヤーはどのようにしてノードに到達したかを知る必要はありません。重要なのは、ゲームの現在の状態と、将来求められるポジションだけです。特定の動きが特定のイベントの後にのみ許可される場合、このイベントは歴史ではなくゲームの現在の状態で実現される要素の 1 つにすぎません。

広範な形式は、ゲームの各段階でプレーヤーが可能なアクション、プレーヤーの順番、および各段階で意思決定を行うために利用できる情報を記述した決定ツリーです。この情報は、情報セットの形式で表されます。情報セットはツリーノードのパーティションを形成します。各セットは、ゲームの段階でプレイヤーが区別できないノードのセットに対応します。これらのセットがシングルトンの場合、つまり、ゲームツリーの 1 つのノードのみが含まれます。ゲームは完全な情報の中にあります。各プレイヤーはいつでも自分がゲームツリーのどこにいるのかを知ることができます。それ以外の場合、ゲームは不完全な情報の中にあります。不完全な情報は、非戦略的プレーヤーの形式で表されます。「ネイチャー」は、ゲームのこの段階またはその段階で特定の決定をランダムに行い、ゲームの残りの部分をツリーの特定のサブツリーに向けるプレーヤーです。ゲームの。

正規形

意味

詳細は「正規形ゲーム」を参照

通常の形式のゲームは、すべてのプレイヤーのデータ、各プレイヤーのすべての戦略、および戦略の可能な組み合わせに関連する利益です。

表形式の表現

ゲームのプレイヤーが 2 人だけで、考えられる戦略の数がかなり少ない場合、ゲームは利得行列と呼ばれるテーブルの形式で表すことができます。

これは、各側の各プレイヤーの可能な戦略をリストした複式表です。 2 つの戦略が交差するボックスに、2 人のプレーヤーの勝ちのペアが表示されます。これは、(慣例により) 支払いマトリックスと呼ばれるものです。

ゲームがゼロサムで、プレイヤーが 2 人の場合、最初のプレイヤーの利益のみに注目できます。2 番目のプレイヤーの利益は直接反対です。次に、利得表は行列に変換されます。

戦略の数を減らして、3 人または 4 人のプレイヤーゲームをマトリックスで表現することもできますが、これでは答えが得られるというよりも、解釈や読み方の問題が生じることがよくあります。

ゼロサムゲームを解く

1\2	（もっている）	(B)	(C)
（もっている）	30	-10	20
(b)	10	20	-20

両プレイヤーは同時に戦略を決定します。

直感的な推論

プレイヤー (1) は (a) と (b) のどちらかを選択します。彼は自分自身にこう言います。「戦略 (b) では 20 負け、最大で 20 を得ることができます。一方、戦略 (a) では最大 30 勝でき、最悪でも 10 を失うことができます。」リフレクションは、戦略 “Maxi-Max” (損失の可能性を考慮せずに可能な利得を最大化する) および “Maxi-Min” (考えられる最悪の結果を最大化する) に対応し、この場合は同じ選択肢が与えられます: オプションa 。

同様に、プレイヤー (2) は、表の反対の値に触れます。同じように考える人は、Maxi-Min が最大 30 の損失のために (A) を排除することがわかりますが、決定は許可しません。 (B) と (C) の間で、最大損失は 20 です。そして、Maxi-Max は 3 つのオプションを昇順でランク付けします: A (考えられる最良の結果: -10)、B (+10)、C (+20)。これにより、彼は (C) を選択することになります。

結果は aC になります: プレイヤー (2) が (1) に対して 20 で負けます。

しかし、プレイヤー (2) は (1) の選択を予測しようとすることもできます。したがって、(1) がマキシミンをプレイした場合、彼自身は (B) を選択することに興味があり、10 勝できることがわかります。

次に、プレイヤー 1 がこの逸脱を予測し、(b) を実行して 20 に到達することを選択した場合はどうなるでしょうか?次に、(2) は再び (C) を選択する必要があります。出発点に戻りました。

戦略とミックスバランスの概念

答える必要はありません。そこから抜け出す方法は？

最初に考えられる対応は、勝ちを気にせずに、可能なすべての手を同じ確率でランダムにプレイすることです。これは最適とは思えませんが、もっと良い方法があるのは確かです。

2 番目の戦略は、敵対者の行動に先験的な確率を割り当て、最適に適応した応答を選択することです。したがって、(2) が (1) のオプションに 50/50 の確率を割り当てた場合、彼は 50/50 (B) および (C) もプレイしなければなりません。しかし、相手はランダムに行動するサイコロではありません。相手も予測します。 (1) が考えるのであれば、(2) が 3 分の 1 のケースで (A) をプレイすると仮定するのは不合理であることがはっきりわかります。ここでも、確かにやったほうが良いことがあります。

確率の導入

ジョン・フォン・ノイマンは確率を利用してこのインブローリオから抜け出すことに成功しました。アクションをしっかりと決定する代わりに、各プレイヤーは確率的に行動し、ランダムなプロセス (たとえば、サイコロゲームやランダムな値のテーブル) で各動きが偶然に選択されます。私たちが事前に知らなければ、敵が私たちの行動を推測できないことは明らかです。

どの確率分布が最良の結果をもたらすかはまだ決定されていません。それは理想的には、相手の戦略とは無関係に期待される利益を最大化する確率分布です。これは線形計画問題に相当します。未知数は各選択肢 Oi に与えられる確率 Pi であり、すべての 2 プレイヤーのゼロサムゲームで各プレイヤーに固有の解が与えられます。

上記の場合、プレイヤー 1 は (a) と (b) の間で迷って、7 件中 4 件、つまり 57% の場合に (a) を選択することになります。プレイヤー (2) は (A) を選択することはありませんが、(B) と (C) の間で揺れ動き、7 件中 4 件、つまり 57% のケースで (B) を選択します。プレーヤー 1 は、各ゲームで 20/7、つまり 2.85 の平均ゲインを期待できます。

これらの計算は、ラグランジアンを導入することによる線形システムの解決から得られます。

サドルポイント

たとえ敵がそれを知っていたとしても、この戦略的選択が依然として最善であることは注目に値します。

このようにして、混合戦略における鞍点という興味深い概念を導入することになります。これは両方のプレーヤーにとって確率の最適な選択です。それから逸脱した人には、(たとえこの戦略が彼にとって不利な場合でも) 同時にペナルティが課せられます。他の人はさらにそうなるからです）。このテーマは、オーギュスト・デトゥフによって垣間見られました。「嘘で有罪判決を受けるリスクが 1,000 回に 1 回だけであるなら、1,000 回以上嘘をついてはなりません。その 1 回だけで、他のすべての嘘が帳消しになってしまうからです。」真実。責任ある実業家であるデトゥフ氏は、常に真実を語るよりも、千回に一度は実際に嘘をつくほうが得をする場合もある、と意図的に明言することを避けている。

混合戦略は外交官やポーカープレイヤーには経験的によく知られており、たとえ明らかなように見えても、計画を隠すことで得られる潜在的な利益を知っています。このアイデアはフィリップ K. ディックに思い浮かび、彼の小説『ソーラーロト』をこのアイデアに捧げました。

アプリケーション

ゲーム理論は、経済学の分野における特定の状況、つまり競争相手の数が減少している状況 (寡占) に適用されます。それは、行為者の利益がその行動や市場の状況だけでなく、異なる目的や矛盾した目的を追求する可能性のある他の参加者の利益にも依存する状況で合理的な戦略を模索します。政治学や軍事戦略にも応用できます。

この結果は、エンターテイメント (米国の専門ケーブルチャンネル、 Game Show Network のゲーム番組「 Friend or Foe 」など) や、より痛切な考察に適用できます。

キューバ危機。
戦争時に船団を設立する政策。
政治的サプライズ（スエズのナセル、ケベックのドゴール、反乱中のエリツィン、選挙公示など）やマーケティングにどう対処するか。
テロとの戦い。

2005 年に「ノーベル経済学賞」を受賞したトーマスシェリング教授は、冷戦や核戦争 (抑止力など) などの国際紛争で使用される (使用される) さまざまな戦略の説明を専門としています。

たとえば、アルバート・W・タッカーは、日常生活における囚人のジレンマの数多くの解釈を広めました。生物学者は、進化の結果を理解し、予測するためにゲーム理論、特にジョン・メイナード・スミスがエッセイ「ゲーム理論と戦いの進化」 (ゲーム理論と戦いの進化)で導入した進化的に安定した平衡の概念を使用してきました。彼の著書『Evolution and the Theory of Games』も参照してください。

進化論では、個体の主な敵は実際にはその捕食者のすべてではなく、その種の他のすべての個体および他の関連種であることに注意する必要があります。リチャード・ドーキンスが指摘しているように、ブロントサウルスは生き残るために、追いかけるティラノサウルスより速く走る必要はなく（それは不可能だろう）、単に同族の中で最も遅いものより速く走る必要がある。経済学でも同様の現象が起こります。これらすべては心理学的考察と結びついています。つまり、対立は相違点よりも類似点と結びついているのです。

確率はゲーム理論に概念的なツールを提供します。統計によってデータが提供され、最適化技術によって計算結果が提供されます。

利益とリスク回避

上で定義した混合戦略の例では、ゲームの参加者はリスク中立とみなされます。これは、50/50 の確率で 20 が得られ、50/50 の確率で何も得られないことは、10 を得るのと同等であるとみなしていることを意味します。

しかし、ほとんどの人はリスクを回避し、最も安全な結果を好み、より大きな利益を期待する代わりに追加のリスクのみを受け入れます。

このリスク回避の一例は、ゲームショーで見ることができます。たとえば、候補者が 3 分の 1 の確率で 50,000 ユーロ、または確実に 10,000 ユーロを獲得できると提示された場合、多くの人は通常のコースを変更する保証を好むでしょう。リスク回避を補うために必要な追加収入の期待値は、金融用語ではリスクプレミアムと呼ばれます。保険に加入すること（強制ではない場合）も、リスク回避のために正当化されます。

したがって、主観的な効用の尺度を構築することは合理的です

これはゲインとリスクの関数です。
リスク中立性の基準を常に満たしており、
したがって、これは混合戦略利得表に対応します。

より一般的には、効用は、小さな変動よりも大きな変動の方が重要であるという事実を考慮します (私たちは喜んで宝くじやロトのチケットを購入しますが、その非常に低い価格は無視できるほどの損失に相当しますが、利益は大きくなります)。変動の重要性は減少します (たとえ毎回の差が 100万であっても、利得 1,000 と利得 1,001,000 の間の効用の差は、利得 1,001,000 と利得 2,001,000 の間よりも大きくなります。つまり、1 回につき 1 回)期待値が同じであるにもかかわらず、100 万を獲得する 100 の確率の方が、1000 万を獲得する 1000 分の 1 の確率よりも一般的に好まれます。)

逆に、リスクや恐怖を買いたいという欲求があるかもしれません。それが宝くじであれ、怖い映画であれ、興奮はそれ自体が価値に相当します。

つまり、宝くじやロトのチケットを購入したり、カジノでプレイしたりするという事実は、次の 2 つの要素によって動機付けられています。

アドレナリンの分泌（アクション映画を見に行ったり、危険なスポーツをしたりしたときなど）
以下の間の質的な違い:
- 気づかれない可能性のある損失、
- 確かに利益が得られる可能性は低いですが、質的な変化があれば得られるでしょう。この点は、エミール・ボレルによって科学アカデミーで擁護され（数学的期待値のみを効用関数として考慮する彼の時代の傾向に反発して）、それ以来、ギャンブルや持ち出しに関連する行動のより良い説明として一般に受け入れられてきました。保険証書。

数字ゲーム

ジョン・コンウェイは、囲碁のゲームを研究したいと考えて、特定のゲームの記法を設定し、これらのゲームの操作を定義しました。彼は、アイデアの驚くべき関連性から、数値特性を持つサブクラスを分離し、最終的に超現実的な数値の非常に一般的なクラスを定義しました。とはいえ、これらの発表された進歩にもかかわらず、現在 (2006 年) 国際プレーヤーと同等のパフォーマンスで囲碁をプレイできるコンピュータープログラムはありません。