Γράφτηκε από: CB Garcia και WI Zangwill

Καθηγητές της Διοικητικής Επιστήμης στο Booth School of Business (και οι δύο συνταξιούχοι)

Αναθεωρημένο Αύγουστο 18, 2018 από (Garcia και Zangwill [8, 9]).

Λέξεις-κλειδιά: Η θεωρία των παιχνιδιών, το δίλημμα των κρατουμένων, οι bayesian, οι υποκειμενικές πιθανότητες

Περίληψη: Von Neumann και Morgenstern (VNM), χρησιμοποιώντας την αναμενόμενη υπόθεση χρησιμότητας, υπό την προϋπόθεση ότι η θεμελιώδης διατύπωση του προβλήματος θεωρίας παιγνίων. Έως τώρα, ωστόσο, η διατύπωση αυτή ήταν δύσκολο να επιλυθεί χωρίς να επιβληθούν πρόσθετες υποθέσεις. Ο Nash έπρεπε να υποθέσει ότι οι παίκτες αποσυνδέθηκαν έτσι ώστε η πιθανότητα του παίκτη Α να αναλάβει δράση ήταν ανεξάρτητη από την πιθανότητα να παίξει ο παίκτης Β. Στην παρούσα εργασία εξαλείφουμε τις υποθέσεις του Nash, συμπεριλαμβανομένης της παραδοχής ότι οι στρατηγικές των παικτών είναι κοινή γνώση και προτείνουν ένα μοντέλο που είναι πλήρως ισοδύναμο με το γενικό πρόβλημα VNM. Η εύκολη λύση μας εξαλείφει μερικές από τις εγγενείς δυσκολίες με την προσέγγιση Nash, που συχνά προκαλούσαν αντιφατικά και αντίθετα αποτελέσματα, όπως για παράδειγμα το δίλημμα του κρατούμενου, το κοτόπουλο, το παράδοξο του Newcomb, το κυνήγι των ελάτων και πολλά άλλα παιχνίδια. Παραδείγματος χάριν, ρίχνοντας την αμοιβαία υπόληψη ανεξαρτησίας του Nash στο δίλημμα του φυλακισμένου, το πρότυπό μας καταδεικνύει ότι οι παίκτες είναι σε θέση να επιτύχουν ανώτερες απολαβές, και για να το επιτύχουν, δεν χρειάζεται να παίζουν συνεργατικά ή να επικοινωνούν, αλλά απλώς εφαρμόζουν θεώρημα Bayes, (Harsanyi [10], Kadane και Larkey [11]). Η προσέγγισή μας χωρίζει τον πιθανό χώρο σε δύο ημι-διαστήματα ή περιοχές, των οποίων το σχετικό μέγεθος εξαρτάται από τις αποδόσεις. Τώρα, δεν είναι απαραίτητο να εκτιμήσετε την πιθανότητα με ακρίβεια, αλλά να προσδιορίσετε μόνο την περιοχή στην οποία βρίσκεται. Αυτό προσφέρει σημαντικά πλεονεκτήματα, καθώς εάν μια περιοχή είναι σημαντικά μεγαλύτερη από την άλλη, αυτό αμέσως δίνει ουσιαστική εικόνα για το πώς να παίξετε το παιχνίδι. Η γενική μας λύση, η οποία δεν συσχετίζεται, λέει με την έννοια του Aumann [1], περιέχει τις ισορροπίες Nash ως ιδιαίτερες λύσεις. Σε αντίθεση με τις περιγραφικές λύσεις Nash, η λύση μας είναι ένα συντακτικό ζευγάρι ορθολογικών προσδοκιών καθαρών στρατηγικών, αποδίδοντας ένα νέο θεμέλιο για τη θεωρία των παιχνιδιών. Επεκτείνουμε την προσέγγισή μας στα γενικά παιχνίδια M-Person, όπως περιγράψαμε στο παιχνίδι ροκ-χαρτιού-ψαλιδιού και στο πρόβλημα του crow-bar.

Περίληψη αποτελεσμάτων.

Συνοψίζουμε τώρα ορισμένα αποτελέσματα, με βάση τις λεπτομέρειες και τις ρητές απολαβές που παρέχονται παρακάτω. Πιστεύουμε ότι αυτά τα αποτελέσματα καταδεικνύουν την αξία της προσέγγισής μας για τη διδασκαλία και την έρευνα, καθώς τα αποτελέσματα συχνά παρουσιάζουν νέες λύσεις.

Συντονιστικό παιχνίδι: The Nash assumption of independence misses the superior Bayesian approach we take. For the payoffs provided below, play the first strategy if you believe that the opponent’s probability of playing its first strategy is at least 1 / 3, else play the second strategy. Nash provides no insights about when to apply which strategy. Also, if the payoffs are changed, our approach provides revised probabilities. Battle of the sexes: Two parties differ on where they should go, but are not allowed to communicate. Both parties obtain a good payoff if they both go to the same choice, since at least they are both together. A given party will get a bonus if they both go to that party’s choice. Neither gets a good payoff if they go different places. Given the payoffs presented below, player A should play its desired strategy if it believes the other player will also select A’s desired choice with probability of at least 33%. In contrast, Nash provides three equilibria without any insight into which to play when and no analysis of the probabilities. Matching pennies: Two players, Even and Odd, simultaneously reveal a penny. If the pennies match, Even keeps both pennies; otherwise Odd keeps both pennies. The unique Nash equilibrium for this zero-sum game is for both players to play randomly. Given the payoffs below, Even should play heads if it believes that Odd will play heads with probability of at least 50%. On the other hand, Odd should play heads if it believes that Even will play heads with probability of at most 50%. Chicken game: Two cars are speeding towards each other and about to have a head-on crash. Nash suggests one car should swerve and the other go straight, but offers little insight into which should swerve. Given the payoffs below, our approach suggests you swerve if you believe that the opponent will swerve with probability of at most 90%, else go straight. Observe here that both players swerving (or both going straight) is not a Nash equilibrium but that both players swerving (or both going straight) in the expectation that the opponent will go straight (or swerve) is an equilibrium scenario. Also, if the payoffs are changed, our approach provides updated probabilities. Arms Race: each country initially stockpiles arms lest it be attacked. But as demonstrated below, diminishing returns on stockpiling arms materialize, opening an opportunity for a peace treaty. Nash does not identify the opportunity for the peace treaty. Stag hunt: hunt stag if you believe that the opponent will hunt stag with probability at least 50%, else hunt hare. (The pure Nash equilibria are for both to hunt stag, or for both to hunt hare). Newcomb’s problem: if Newcomb’s problem is posed as a prisoner’s dilemma, the solution to Newcomb’s problem can be arrived at in two ways: as the non-cooperative Nash equilibrium using the dominance principle, or as a cooperative solution using the expected utility hypothesis. Rock-paper-scissors game: The Nash equilibrium is for you to play a 3-sided die randomly. What appears to be a new strategy for this ancient game is for you to play rock if you believe that your opponent will play paper with probability of at most 33% and scissors with probability of at least 33%; to play paper if you believe that your opponent will play scissors with probability of at most 33% and rock with probability of at least 33%; else to play scissors. (Our approach can help you if say, you have data on your opponent’s previous plays of the game.) Bar-crowding game has 3 friends A, B, and C: Anyone who goes to the bar alone gets nothing – staying home is a better choice. If two friends go to the bar, that is the best option. If all three go, the bar throws all three out. The Nash equilibria are for all to stay home, or for all to play their first strategy with probability equal to 33%. But if you have any insight into your friends and can estimate the Bayesian probabilities of their behavior, our strategy can help.

Επίσης, επεκτείνουμε την προσέγγισή μας στο παιχνίδι M-person και αποκτούμε παρόμοιες γνώσεις. Παραδείγματος χάριν, παρουσιάζουμε την ολοκληρωμένη λύση για γενικά παιχνίδια 2-person και γενικά 3 πρόσωπα x παιχνίδια στρατηγικής 2.

Η αναμενόμενη υποθετική χρησιμότητα.

Σε ένα παιχνίδι 2-Person, αφήστε τους παίκτες Α και Β να έχουν στρατηγικές 2: A1 ή A2 για τον παίκτη Α και B1 ή B2 για τον παίκτη Β.

Η βάση για την θεωρία της αναμενόμενης χρησιμότητας είναι το θεώρημα χρησιμότητας von Neumann - Morgenstern (von Neumann και Morgenstern [20]): ας Aij και Bij είναι οι πληρωμές στους παίκτες Α και Β αντίστοιχα αν ο παίκτης Α παίζει Ai και ο παίκτης Β παίζει Bj , j = 1 ή 2. Η αναμενόμενη υπόθεση χρησιμότητας δηλώνει ότι οι παίκτες Α και Β πρέπει να μεγιστοποιήσουν τις αναμενόμενες πληρωμές τους1:

όπου pA (Ai και Bj) είναι η πιθανότητα του παίκτη Α ότι το Α παίζει Αϊ και Β παίζει Bj, και παρομοίως για τον παίκτη Β.

Υποθετικές Πιθανότητες[1].

Για την προσέγγισή μας, εμείς πτώση Η παραδοχή του Nash ότι οι πιθανότητες των παικτών είναι αμοιβαία ανεξάρτητες. Αυτό επιτρέπει στο πρόβλημά μας (1) να είναι πιο γενικό και να αποκτάμε περισσότερες λύσεις που ικανοποιούν την αναμενόμενη υπόθεση χρησιμότητας.

Ας είναι οι αναμενόμενες αποδοχές EP (A | Ai) και EP (B | Bj)[2],[3] των Α και Β αντίστοιχα δεδομένου ότι το Α παίζει Αϊ και Β παίζει Bj, για i, j = 1, 2:

Ας αρχίσουμε αποδεικνύοντας ένα στοιχειώδες "Bayesian" θεώρημα παιχνιδιών πράγμα που αποδεικνύει την ισοδυναμία της προσέγγισής μας στη διατύπωση VNM:

Θεώρημα 1[5]. Τα προβλήματα (3) παρακάτω είναι ισοδύναμα με προβλήματα (1)[6]:

Απόδειξη. Με το θεώρημα του Bayes,

Στη συνέχεια,

Η μέγιστη[7] από την παραπάνω εξίσωση είναι pA (A1) = 1 (δηλαδή, στρατηγική παιχνιδιού A1) εάν EP (A | A1) ≥ EP (A | A2) ή pA (A1) = 0 A | A2) EP (A | A2). Ως εκ τούτου, (3) ισχύει για τον παίκτη Α. Παρόμοιο επιχείρημα ισχύει και για τον παίκτη BQED

Περιφέρειες VNM.

Καθορίστε τις περιοχές VNM A1 και A2 ως τις κυρτές πολυτόπες:

Όπως φαίνεται παρακάτω, το Α πρέπει να παίξει στρατηγική A1 εάν αναμένει ότι το Β θα είναι στην περιοχή A1. Διαφορετικά, το A θα έπρεπε να παίξει το A2. Η γραμμή ισορροπίας

διαχωρίζει τον χώρο πιθανότητας στις δύο περιοχές και παρέχει ένα οπτικά χρήσιμο μέσο για την ανάλυση της κατάστασης[8].

Σημασία των Περιφερειών: Οι δύο περιφέρειες είναι σημαντικές πρακτικά, δεδομένου ότι τώρα δεν είναι απαραίτητο να εκτιμήσουμε την πιθανότητα ακριβώς, αλλά μόνο να καθορίσουμε ποια από τις δύο περιφέρειες είναι μέσα. Συχνά θα διαπιστωθεί ότι η πιθανότητα είναι πιθανό να είναι σε μια περιοχή , και η ταυτοποίηση αυτής της περιοχής είναι επαρκής πληροφορία για να υποδείξει το κατάλληλο παιχνίδι του παιχνιδιού. Για παράδειγμα, υποθέστε ότι η περιοχή A1 είναι σημαντικά μεγαλύτερη από την άλλη, οπότε η πιθανότητα είναι πολύ πιθανό να είναι στην περιοχή A1. Αυτό παρέχει συναρπαστικές πληροφορίες ότι ο παίκτης Α θα παίξει πιθανώς το A1.

Ανάλογα για το Β:

Οι περιοχές VNM εξαρτώνται από τις προηγούμενες κατανομές πιθανοτήτων των παικτών, οι οποίες συχνά ονομάζονται απλώς οι priors (Jaynes [13], Harsanyi [10], Kadane και Larkey [11]), οι οποίοι εκφράζουν τις πεποιθήσεις των παικτών σχετικά με την κατανομή πιθανότητας τον αντίπαλό τους. [9]

Απόρροια 2. Με δεδομένο το (3), το A παίζει στρατηγική A1 εάν και μόνο αν αναμένει ο παίκτης Β να είναι στην περιοχή VNM A1. Αλλιώς, η Α παίζει στρατηγική A2. Ομοίως, το Β παίζει στρατηγική B1 εάν και μόνο αν περιμένει ο παίκτης Α να είναι στην περιοχή VNM B1. Αλλιώς, το Β παίζει στρατηγική B2.

Απόδειξη. EP (A | A1) ≥ EP (A | A2) αν και μόνο αν το A11 pA (B1 | A1) + A12 pA (B2 | A1) ≥ A21 pA (B1 | A2) + A22 pA (B2 | A2) εάν και μόνο αν (A11 - A12) pA (B1 | A1) + (A21 - A22) pA (B2 | A2) + A12 - A21 ≥ 0.

Ομοίως, το EP (B | B1) ≥ EP (B | B2) αν και μόνο αν B11 pB (A1 | B1) + B21 pB (A2 | B1) ≥ B12 pB (A1 | B2)

+ B22 pB (A2 | B2) pB (A11 | B21) + B1 - B1 ≥ 12. (B22 - B2) QED

Από το Θεώρημα 1 και το Corollary 2, για τα σημεία στις περιοχές (5) και (7), ισχύει η αναμενόμενη υπόθεση χρησιμότητας, δηλαδή οι περιοχές VNM ορίζουν τη γενική λύση για το παιχνίδι 2-Person[10].

Ισορροπία Nash.

Εάν οι πιθανότητες των παικτών είναι αμοιβαία ανεξάρτητες, οι περιοχές VNM απλοποιούν:

Πρόταση 3. Υποθέστε ότι μια ισορροπία Nash (p (A1), p (B1)) βρίσκεται στην περιοχή VNM Ai και VNM περιοχή Bj αντίστοιχα, για μερικά i, j = 1, 2. Στη συνέχεια, ο παίκτης Α θα παίξει στρατηγική Ai και ο παίκτης Β θα παίξει στρατηγική

Bj.

Απόδειξη. Το πρόβλημα ισορροπίας του Nash είναι πρόβλημα (1), όπου pA (Ai και Bj) = pB (Ai και Bj) = p (Ai) p (Bj) ή πρόβλημα (3) ) και pB (Ai | Bj) = p (Ai), για i, j = 1, 2. Επομένως, ισχύει το Corollary 2, όπου οι περιοχές VNM ορίζονται από (8), για pA (B1) = p (B1) και pB (A1) = p (A1). QED

Θυμηθείτε ότι οι εξισώσεις ισορροπίας

διαχωρίζοντας τις περιοχές VNM, αποδίδοντας έτσι τη γενική λύση σε οποιοδήποτε παιχνίδι. Αυτές οι ίδιες εξισώσεις ισορροπίας, όπου pB (A1) = p (A1) και pA (B1) = p (B1), δίνουν την μικτή ισορροπία Nash11, όπως δείχνουμε στον παρακάτω πίνακα.

Πρόταση 4. Δεδομένου οποιουδήποτε παιχνιδιού A = [[A11, A12], [A21, A22]] και B = [[B11, B12], [B21, B22]], οι ισορροπίες Nash για το παιχνίδι υπολογίζονται από την κατάλληλη σειρά του Πίνακα 112.

Απόδειξη. Παρατηρούμε ότι (i, j) είναι μια καθαρή ισορροπία Nash αν και μόνο αν sgn (2i - 1) * (A11 - A21)> 0 και sgn (2j - 1) * (B11 - B12) = 0, 0. Χρησιμοποιώντας αυτό το γεγονός, για κάθε σειρά στον Πίνακα 1, απαριθμούμε όλα τα ζεύγη (i, j) που είναι καθαρή ισορροπία Nash.

Τέλος, για το ζεύγος (a, b) που ορίζεται από το (9) να είναι μια μικτή ισορροπία Nash, πρέπει να δείξουμε μόνο ότι 0 <a <1 και 0 <b <1. Αλλά σημειώστε ότι για τις σειρές 6, 7, 10 και 11 του πίνακα 1, ο αριθμητής και ο παρονομαστής a, 1 - a, b ή 1 - b είναι θετικοί ή και οι δύο αρνητικοί. άρα, τα 1 - a, b, 1 - b είναι όλα μεγαλύτερα από το 0. QED

Παράδειγμα επανάληψης κυριαρχίας[13].

Αφήστε το A = [[2, 2], [3, 1]] και B = [[0, 1], [0, 2]]. Το "Play A1 & B2" είναι η ισορροπία Nash.

Πρόταση 5. Με το A = [[2, 2]] και B = [3, 1], [0, 1]], τότε ο παίκτης Α θα παίξει το A0 και ο παίκτης Β θα παίξει το B2.

Απόδειξη. Η περιοχή VNM A1 είναι: pA (B2 | A2) ≥ 1 / 2 και η περιοχή VNM B2 είναι: pB (A2 | B2) ≥ -1. Ως εκ τούτου, ο παίκτης Β θα παίξει το B2. Ο παίκτης Α γνωρίζει επίσης ότι πρόκειται για την περίπτωση, επομένως pA (B2 | A2) = 1. Δεδομένου ότι το pA (B2 | A2) = 1 είναι ένα σημείο στην περιοχή VNM A1, ο παίκτης Α παίζει το A1. QED

Παράδειγμα συντονισμού.

Αφήστε το A = B = [[2, 0], [0, 1]]. Υπάρχουν σημεία ισορροπίας 3 Nash: "αναπαραγωγή A1 & B1", "αναπαραγωγή A2 & B2" και "αναπαραγωγή A1 (ή B1) με πιθανότητα 1 / 3". Η περιοχή VNM A1 είναι: 2pA (B1 | A1) ≥ pA (B2 | A2) και η περιοχή VNM B1 είναι: 2pB (A1 | B1) ≥ pB (A2 | B2). Με την ανάλυση αυτών των περιοχών VNM οπτικά, τα Α και Β θα επιλέξουν πιθανώς τις στρατηγικές A1 και B1 αντίστοιχα.

Πρόταση 6. Αν οι πιθανότητες των παικτών είναι αμοιβαία ανεξάρτητες, παίξτε την πρώτη στρατηγική εάν πιστεύετε ότι η πιθανότητα του αντιπάλου να παίξει την πρώτη του στρατηγική είναι τουλάχιστον 2 / 0, 0, 1, 1, 3, XNUMX, Το XNUMX, διαφορετικά παίζει τη δεύτερη στρατηγική.

Απόδειξη. Η περιοχή VNM A1 είναι: pA (B1) ≥ 1 / 3 και VNM περιοχή B1 είναι: pB (A1) ≥ 1 / 3. QED

Μάχη των φύλων Παράδειγμα.

Αφήστε το A = [[3, 1], [1, 2]] και B = [[2, 1], [1, 3]]. Υπάρχουν σημεία ισορροπίας 3 Nash: "παίξτε A1 & B1", "play A2 & B2" και "παίξτε A1 με πιθανότητα 2 / 3, παίξτε B1 με πιθανότητα 1 / 3". Η περιοχή VNM A1 είναι: 2pA (B1 | A1) ≥ pA (B2 | A2) και VNM περιοχή B1 είναι: pB (A1 | B1) ≥ 2pB (A2 | B2). Το Α θα προτιμούσε να επιλέγει το A1 και το B θα προτιμούσε να προτιμά το B2.

Πρόταση 7. Αν οι πιθανότητες των παικτών είναι αμοιβαία ανεξάρτητες, τότε: Παίξτε A3 αν pA (B1) είναι το A1, 2, 2, 1, 1, 3, 1, ) ≥ 1 / 1, αλλιώς να αναπαράγεται το A3. αναπαραγωγή B2 εάν pB (A1) ≥ 1 / 2, διαφορετικά παίζει B3.

Απόδειξη. Η περιοχή VNM A1 είναι: pA (B1) ≥ 1 / 3 και VNM περιοχή B1 είναι: pB (A1) ≥ 2 / 3. QED

Παράδειγμα αντιστοίχησης Pennies.

Αφήστε το A = [[1, -1], [-1, 1]] και B = [[-1, 1], [1, -1]]. Αυτό το παιχνίδι με μηδενικό άθροισμα έχει μια μικτή ισορροπία Nash: "παίξτε A1 με πιθανότητα 1 / 2, παίξτε B1 με πιθανότητα 1 / 2".

Πρόταση 8. Έχοντας A = [[1, -1], [-1, 1]] και B = [[-1, 1], [1, -1]], αν οι πιθανότητες των παικτών είναι αμοιβαία ανεξάρτητες, τότε: εάν pA (B1) ≥ 1 / 1, αλλιώς παίζει A2. αναπαραγωγή B2 εάν pB (A1) 1 / 2, διαφορετικά παίζουν B2[14].

Απόδειξη. Η περιοχή VNM A1 είναι: pA (B1) ≥ 1 / 2 και VNM περιοχή B1 είναι: pB (A1) 1 / 2. QED

Παράδειγμα παιχνιδιού κοτόπουλου (Sugden [19]).

Αφήστε το A = [[0, -1], [1, -10]] και B = [[0, 1], [-1, -10]]. Οι ισορροπίες Nash είναι "play A1 (swerve) & B2 (go straight)", "play A2 (go straight) & B1 (swerve)" και "play A1 (B1) με πιθανότητα 0.9".

Πρόταση 9. Στο παιχνίδι κοτόπουλου, εάν οι πιθανότητες των παικτών είναι αμοιβαία ανεξάρτητες, τότε: swerve εάν πιστεύετε ότι ο αντίπαλος θα μετατοπιστεί με πιθανότητα το πολύ 90%, αλλιώς πηγαίνετε ευθεία.

Απόδειξη. Η περιοχή VNM A1 είναι: pA (B1) + 11pA (B2) ≥ 2 ή pA (B1) ≤ 9 / 10. Ομοίως, η περιοχή VNM B1 είναι: pB (A1) ≤ 9 / 10. QED

Παρατηρήστε ότι εάν ο αντίπαλός σας δείχνει πάρα πολύ ενθουσιασμό (τουλάχιστον 90%) για να αποκατασταθεί, τότε θα πρέπει να πάτε ευθεία.

Προτιμώμενο σενάριο: Οι παίκτες είναι πιο πιθανό να ξεπεράσουν από το να πάνε κατ 'ευθείαν.

Πρόγραμμα κοτόπουλου: Υποθέστε pA (B1) = pB (A1) = 0. Και οι δύο παίκτες αναμένουν ότι ο άλλος παίκτης θα πάει ευθεία. Και οι δύο θα στρέψουν.

Σενάριο καταστροφής: Υποθέστε pA (B1) = pB (A1) = 1. Και οι δύο παίκτες περιμένουν τον άλλο παίκτη να μετατοπίσει. Και οι δύο θα πάνε ευθεία[15].

Στάδιο ισορροπίας Nash: Υποθέστε pA (B1) = 1 - pB (A1) και pB (A1) = 0 ή 1. Ο παίκτης που αναμένει ότι ο άλλος παίκτης θα πάει κατ 'ευθείαν θα αλλάξει και ο παίκτης που περιμένει τον άλλο παίκτη να μετατοπίσει θα πάει ευθεία.

Παράδειγμα αγώνα όπλων.

Στην πρόταση 9, αφήστε το A, [0, -x], [1, -10x]], B = [[0, 1], [-y, -10y]], για το x, y ≥ 0. Αφήστε το A1 ή B1 να "επιδιώξει την ειρήνη" και το A2 ή το B2 να είναι "πυρηνική επίθεση". Οι τιμές x και y υποδηλώνουν το απόθεμα όπλων των Β και Α αντίστοιχα.

Η χώρα Α αναζητά ειρήνη εάν η πιθανότητα ότι οι επιθέσεις της χώρας Β είναι μεγαλύτερες από την τιμή 1 / (9x + 1). αλλιώς επιθέσεις. Η καμπύλη πιθανότητας pA (B1) = 1 / (9x + 1) πέφτει γρήγορα, π.χ. pA (B1) = 1 / 2 στο x = 1 / 9, αλλά σύντομα ισοπεδώνει δραματικά: επίπεδο, θα υπάρξει μικρό όφελος για το Β για την αποθήκευση όπλων.

Και ομοίως για τη χώρα Β.

Συνοπτικά, κάθε χώρα αρχικά αποθηκεύει όπλα για να μην επιτεθεί. Αλλά οι ταχέως μειούμενες αποδόσεις των αποθεμάτων όπλων υλοποιούνται, ανοίγοντας μια ευκαιρία για αναζήτηση μιας ειρηνευτικής συνθήκης.

Ως παράδειγμα, εξετάστε το εκτιμώμενο παγκόσμιο πυρηνικό απόθεμα 2018[16] του πίνακα 2.

Με βάση τις παραπάνω απολαβές και τον Πίνακα 2, μια λογική Βόρεια Κορέα θα έπρεπε να επιδιώξει μια ειρηνευτική συνθήκη με τις Ηνωμένες Πολιτείες και τη Ρωσία.

Skyrms [16]).

Αφήστε το A = [[4, 1], [3, 2]] και B = [[4, 3], [1, 2]]. Οι ισορροπίες Nash είναι "play A1 (Stag) & B1 (Stag)", "αναπαραγωγή A2 (Hare) & B2 (Hare)" και "αναπαραγωγή A1 (B1) με πιθανότητα 0.5".

Πρόταση 10. Στο κυνήγι των ελάτων, εάν οι πιθανότητες των παικτών είναι αμοιβαία ανεξάρτητες, τότε: το κυνηγόσκυλο αν πιστεύετε ότι ο αντίπαλος θα κυνηγά ελάφι με πιθανότητα τουλάχιστον 50%, αλλιώς να κυνηγάει το λαγό.

Απόδειξη. Η περιοχή VNM A1 είναι: 3pA (B1) + pA (B2) ≥ 2 ή pA (B1) ≥ 1 / 2. Ομοίως, η περιοχή VNM B1 είναι: pB (A1) ≥ 1 / 2. QED

Το δίλημμα του φυλακισμένου[17].

Έστω A12 <A22 <A11 <A21 και αφήνουμε B να ισούται με τη μεταφορά του A. Από την A11 <A21 και A12 <A22, η χρήση της αρχής της κυριαρχίας αποδίδει την ισορροπία Nash, δηλαδή τη μη συνεργατική λύση " και B2 (ελάττωμα) ". Αλλά από τη στιγμή που A2 <A22, A και B είναι καλύτερα αν παίζουν και οι δύο τη συνεταιριστική λύση "παίζουν A11 (σιωπή) και B1 (σιωπή)".

Πρόταση 11. Στο δίλημμα του κρατουμένου, αν οι πιθανότητες των παικτών είναι αμοιβαία ανεξάρτητες, τότε οι παίκτες παίζουν μη συνεργατικά[18].

Απόδειξη. Εξετάστε την αριστερή πλευρά της περιοχής VNM A1:

(A11 - A12 - A21 + A22) σA(B1) + A12 - A22.

Εάν A11 - A12 - A21 + A22 ≤ 0, τότε (A11 - A12 - A21 + A22) pA(B1) + A12 - A22 ≤ A12 - A22 <0. Από την άλλη πλευρά, εάν A11 - A12 - A21 + A22> 0, τότε (A11 - A12 - A21 + A22) pA(B1) + A12 - A22 ≤ (A11 - A12 - A21 + A22) + A12 - A22 = A11 - A21 <0. Έτσι, για κάθε προηγούμενο για τον παίκτη Α, η περιοχή VNM A1 είναι η μηδενική ομάδα, επομένως πρέπει να παίξει στρατηγική 2.

Ομοίως, ο παίκτης Β πρέπει να παίξει στρατηγική 2. QED

Η πρόταση 11 δείχνει σαφώς ότι η υπόθεση της ανεξαρτησίας μας περιορίζει στην μη συνεργατική λύση.

Παράδειγμα διλημματικού κλασικού κρατούμενου.

Στο δίλημμα του κλασικού κρατουμένου, A = [[-1, -3], [0, -2]] και B = [[-1, 0], [-3, -2]].

Πρόταση 12. Στο δίλημμα του κλασικού κρατουμένου, αν οι πριμοδοτήσεις των παικτών είναι: pA (B1 | A1) + pA (B2 | A2) ≥ 3 / 2, pB (A1 | B1) οι παίκτες θα παίξουν τη συνεταιριστική λύση2.

Απόδειξη. Η περιοχή VNM A1 είναι: pA (B1 | A1) + pA (B2 | A2) ≥ 3 / 2 και η περιοχή VNM B1 είναι pB (A1 | B1) + pB (A2 | B2) ≥ 3 / 2. Ως εκ τούτου, για τους συγκεκριμένους κερδισμένους, οι παίκτες Α και Β πρέπει να παίξουν τη συνεταιριστική λύση. QED

Στην πρόταση 12, σημειώστε την υψηλή μπάρα που απαιτείται για να παίξετε τη συνεταιριστική λύση. Οι παίκτες θα προτιμούσαν να παίξουν τη μη συνεργάσιμη λύση.

Ένα παράδειγμα όπου η προσέγγιση Nash δεν εξετάζει το ενδεχόμενο να παίξει τη στρατηγική συνεργασίας.

Εξετάστε το δίλημμα του αιχμάλωτου όπου A11 - A12 = A21 - A22, A21 = A11 + m και A22 = A11 - M, όπου το m> 0 είναι μικρό και το M> 0 είναι πολύ μεγάλο. Για παράδειγμα, A = [[100, -3], [101, -2]]. Ανακαλέστε από την πρόταση 11 ότι εάν οι πιθανότητες των παικτών είναι αμοιβαία ανεξάρτητες, τότε οι παίκτες θα παίξουν μη συνεργατικά.

Προφανώς, θα ήταν ανόητο για τους παίκτες να μην σκεφτούν καν να παίξουν τη στρατηγική 1, γιατί εάν ένας παίκτης παίζει το 2, η πιθανότητα ότι ο άλλος παίκτης παίζει επίσης το 2 θα προκαλέσει σημαντική απώλεια, οπότε γιατί το ρισκάρετε. Είναι προφανές ότι η προσέγγιση Nash δεν εξετάζει το ενδεχόμενο να παίξει τη συνεταιριστική λύση ακόμα και όταν είναι προφανής η λύση - ένα πολύ σημαντικό σημείο, για παράδειγμα, συζητήσεις για τις κατανομές της αγοράς σε γενικά μοντέλα οικονομικής ισορροπίας.

Από την άλλη πλευρά, όπως δείχνει η επόμενη πρόταση, με την απόρριψη της υπόθεσης ανεξαρτησίας, η προσέγγισή μας θα παίξει τη συνεταιριστική λύση και όχι η μη συνεργατική λύση.

Η μαύρη γραμμή είναι η γραμμή αδιαφορίας για το δίλημμα του κλασικού κρατουμένου. Ένας παίκτης είναι πιο πιθανό να παίξει τη στρατηγική 2 λόγω της απίθανης πιθανότητας να είναι στην περιοχή για να παίξει στρατηγική

1.

Η πράσινη γραμμή είναι η γραμμή αδιαφορίας για αυτή την περίπτωση του διλήμματος του αιχμαλώτου: pA (B1 | A1) + pA (B2 | A2) = 1 + m / (M + m). Εδώ, το μέγεθος της περιοχής πιθανότητας για τη στρατηγική 1 είναι σχεδόν αυτό για τη στρατηγική 2. Η προσέγγισή μας συνιστά στους παίκτες να εξετάσουν το ενδεχόμενο να παίξουν τη στρατηγική 1.

Πρόταση 13. Δεδομένου του δίλημμα του αιχμάλωτου όπου A11 - A12 = A21 - A22, A21 = A11 + m και A22 = A11 - M, όπου το m> 0 είναι μικρό και το M> 0 είναι πολύ μεγάλο, οι παίκτες Α και Β θα παίξουν τη συνεταιριστική λύση20.

  • Επομένως, οι παίκτες δεν θα παίξουν τη μη συνεργάσιμη λύση.
  • (Aumann και Maschler [2], Acevedo και Krueger [4]), οι αναμενόμενες κοινές πιθανολογίες του A (A και Bj), A, καταλήγουν στο συμπέρασμα ότι, για να επιτευχθεί η συνεταιριστική λύση, Το pA (A1 και B1) πρέπει να βρίσκεται κοντά στο 1, επειδή οι Α και Β είναι πιθανό να παίξουν στρατηγική 1, όπου οι αποδόσεις τους είναι αρκετά υψηλές και μόνο μονάδες μικρότερες από τις μέγιστες.

Επομένως, το pA (B1 | A1) = pA (A1 και B1) / pA (A1) πρέπει επίσης να βρίσκεται κοντά στο 1.

Α καταλήγει επίσης στο συμπέρασμα ότι η pA (A2 και B2) pA (A2 και B1) δεδομένου ότι το B είναι πιό πιθανό να παίξει τη στρατηγική 2 εάν η Α είναι η στρατηγική παιχνιδιού 2. Επομένως pA (B2 | A2) = ρΑ (A2 και B2) / (ρΑ (A2 και B1) + ρΑ (A2 και B2)) 1 / 2. Α καταλήγει, χρησιμοποιώντας το Σχ. 1, ότι το Β είναι επαρκώς εντός της περιοχής VNM A1. Ομοίως, το Β θα παίξει τη στρατηγική 1. QED

Το παράδοξο του Newcomb ως έκδοση του δίλημμα του φυλακισμένου.

Στο διάσημο παράδοξο του Newcomb (Wolpert και Benford [21]) υπάρχει ένας προγνωστικός παράγοντας Β, ένας παίκτης Α και ένα κιβώτιο Χ. Ο παίκτης Α λαμβάνει την επιλογή να πάρει το κουτί X ή το κιβώτιο X συν $ 1,000. Πριν από τον A κάνει την επιλογή του, ο Β προβλέπει τι θα κάνει ο Α και οι προβλέψεις του Β είναι σχεδόν βέβαιο. Εάν το Β προβλέπει ότι το Α θα πάρει μόνο το κουτί Χ, τότε το Β βάζει $ 1,000,000 στο πλαίσιο Χ. Στην περίπτωση αυτή, καθώς το κουτί έχει $ 1,000,000 σε αυτό, το Α θα λάβει $ 1,000,000 ή $ 1,001,000 ανάλογα με το αν το A επιλέγει το κουτί X ή X συν $ 1,000. Από την άλλη πλευρά, αν ο Β προβλέπει ότι το Α θα πάρει το πλαίσιο X και το $ 1,000, τότε το Β δεν κάνει τίποτα στο πλαίσιο Χ. Στην περίπτωση αυτή, ανάλογα με την επιλογή του, το Α λαμβάνει είτε $ 1,000 είτε τίποτα.

Το παράδοξο του Newcomb είναι ότι δύο απόλυτα ορθολογικές αναλύσεις δίνουν αντιφατικές απαντήσεις στο πρόβλημα βελτιστοποίησης του παίκτη Α: κάτω από την αναμενόμενη υπόθεση χρησιμότητας, ο παίκτης Α θα πρέπει να πάρει μόνο το κουτί X, αφού η αναμενόμενη απόδοση του X είναι πολύ υψηλότερη. Από την άλλη πλευρά, σύμφωνα με την αρχή της δεσπόζουσας θέσης, ο παίκτης Α θα πρέπει να πάρει το κουτί X συν το $ 1,000.

Το παράδοξο είναι καλύτερα κατανοητό από ένα απόσπασμα στο (Wolpert και Benford [21]): "... Η Newcomb είπε ότι θα έπαιρνε ακριβώς το X? γιατί να πολεμήσουμε ένα όντας σαν τον Θεό; Ωστόσο, ο Nozick είπε: «Για σχεδόν όλους, είναι απολύτως σαφές και προφανές τι πρέπει να γίνει. Η δυσκολία είναι ότι αυτοί οι άνθρωποι φαίνεται να χωρίζουν σχεδόν ομοιόμορφα το πρόβλημα, με μεγάλους αριθμούς να πιστεύουν ότι το αντίθετο μισό είναι ακριβώς ανόητο.

Οι Wolpert και Benford επιλύουν το παράδοξο δείχνοντας ότι το πρόβλημα της Newcomb αντιπροσωπεύει στην πραγματικότητα δύο διαφορετικά παιχνίδια με διαφορετικά πιθανοτικά αποτελέσματα.

Σε αυτό το τμήμα, θα επιλύσουμε το παράδοξο θέτοντας το πρόβλημα του Newcomb ως δίλημμα του φυλακισμένου. Με τον τρόπο αυτό, η λύση στο πρόβλημα της Newcomb μπορεί να επιτευχθεί με δύο τρόπους: ως μη συνεργατική λύση (πάρτε το κουτί Χ συν $ 1,000) χρησιμοποιώντας την αρχή της κυριαρχίας ή ως συνεταιριστική λύση (πάρτε μόνο το κουτί X) υποθετική χρησιμότητα.

Ας υποθέσουμε ότι υπάρχει ένας πλούσιος ευεργέτης που υπόσχεται να χρηματοδοτήσει ένα matrix payoff για τον παράγοντα πρόβλεψης Β, αποδίδοντας το ακόλουθο παιχνίδι: A = [[$ 1,000,000, 0], [$ 1,001,000, $ 1,000]] και B = [[$ 1,000,000, $ 1,001,000 ], [0, $ 1,000]].

Αν το B προβλέπει σωστά, το Β παίρνει αυτό που παίρνει ο παίκτης Α. Αλλά αν ο B προβλέπει λανθασμένα, το B παίρνει $ 1,001,000 μείον αυτό που παίρνει το 21.

Από την πρόταση 13, οι παίκτες Α και Β θα παίξουν συνεργατικά σε αυτό το παιχνίδι.

Αν, όπως και ο Nash, ο παίκτης λύνει το πρόβλημα χρησιμοποιώντας την αρχή της κυριαρχίας, έτσι και ο προγνωστικός. Τόσο ο προγνωστικός όσο και ο παίκτης θα είναι στη μη συνεργατική λύση: πάρτε X συν $ 1,000. Εάν ο παίκτης επιλύσει το πρόβλημα χρησιμοποιώντας την αναμενόμενη υπόθεση χρησιμότητας, ο προγνωστικός παράγοντας και ο προγνωστικός και ο παίκτης θα είναι στη συνεταιριστική λύση: πάρτε μόνο X. Σε κάθε περίπτωση, η πρόβλεψη του προγνωστικού είναι

και Sadowski [6]) ή νέες μέθοδοι περιγράφονται, π.χ., tit-for-tat, συσχετισμένη ισορροπία (Axelrod [3], Aumann [1]).

21 Σημειώστε ότι θέτοντας το πρόβλημα του Newcomb ως πρόβλημα PD, ο προγνωστικός έχει λάβει ένα προσωπικό κίνητρο που λείπει από το πρόβλημα της Newcomb.

βέβαιος. Δεδομένου ότι από την πρόταση 13, οι παίκτες δεν θα παίξουν τη μη συνεργάσιμη λύση, συμφωνούμε με τη Newcomb ότι η συνεργασία είναι η προφανής στρατηγική που πρέπει να ακολουθήσουμε.

Σημείωση στο σχήμα 1, ωστόσο, η περιοχή συνεργασίας είναι αμελητέα μικρότερη από αυτή της μη συνεργασίας. Δεν μας προκαλεί έκπληξη το γεγονός ότι οι άνθρωποι διαιρούν ομοιόμορφα τη στρατηγική που πρέπει να ακολουθήσουμε.

Μια γενίκευση του δίλημμα του φυλακισμένου σε άτομα Μ.

Προκειμένου να κατανοήσουμε καλύτερα πώς μπορεί να καταρρεύσει η λύση Nash σε γενικά μοντέλα οικονομικής ισορροπίας, ας γενικεύσουμε το δίλημμα του κρατούμενου στα M-Persons, με κάθε παίκτη να έχει στρατηγικές 2, για το M 2.

Ας περιγράψουμε το παιχνίδι M-Person μέσω δυαδικών δέντρων.

Εικ. 2 είναι η πληρωμή δίλημμα του φυλακισμένου για τον παίκτη Α. Το δέντρο (2, 1) είναι το δυαδικό δέντρο με παίκτη Β (παίκτης 2) ως γονέας και ο παίκτης Α (φορέας 1) ως παιδί. Για να λάβετε την πληρωμή για τον παίκτη Β, απλά αλλάξτε τους ρόλους του γονέα και του παιδιού στο Tree (1, 2). Θυμηθείτε ότι για το δίλημμα του αιχμάλωτου, A12 <A22 <A11 <A21.

Στη συνέχεια, υποθέστε ότι το Tree (M - 1, M - 2, ..., 2, 1) δηλώνει την πληρωμή του παίκτη Α για ένα παιχνίδι (M - 1) 3. Κατασκευάστε το Δέντρο πληρωμής του παίκτη Α (M, M - 1, ..., 2, 1) για ένα παιχνίδι M-Person, επιτρέποντας στο δέντρο του παίκτη Α (M - 1, M - 2, ..., 2, 1) κλαδιά του γονικού παίκτη Μ.

Οι αριθμητικές τιμές της απολαβής στο δεξιό δευτερεύον δέντρο θεωρούνται διαφορετικές από αυτές στο αριστερό δευτερεύον δέντρο, εφόσον η σχέση A12 <A22 <A11 <A21 διατηρείται παντού στο δέντρο.

Τέλος, με το Tree (M, M - 1, ..., 2, 1, 1, 1, 3, 2, 2, 1, 1, 2, 1, 4) μητρική εταιρεία; (3, 3, 2, 1, 2, 3, 2, 1, 1, 2, 1) για τον παίκτη 2 κάνοντας το 3 το δεύτερο υψηλότερο γονέα, ... ) για τον παίκτη M - 1 κάνοντας το M - 1 το τρίτο μικρότερο παιδί, Tree (XNUMX, XNUMX, XNUMX, ..., M - XNUMX, M) για τον παίκτη Μ, κάνοντας το M - XNUMX το δεύτερο μικρό παιδί.

Αυτό ολοκληρώνει την περιγραφή των αποδόσεων των παικτών για το παιχνίδι δίλημμα του φυλακισμένου, με κάθε παίκτη να έχει στρατηγικές 2.

Θεώρημα 14. Για το δίλημμα του φυλακισμένου του M-Pers, ο Μ 2, χρησιμοποιώντας την αρχή της κυριαρχίας, η λύση Nash είναι για τους παίκτες να παίξουν τη στρατηγική 2.

Απόδειξη. Γνωρίζουμε ήδη ότι το θεώρημα ισχύει για το M = 2. Ας υποθέσουμε με επαγωγή ότι το θεώρημα ισχύει για το M - 1, για το M 3. Ας δείξουμε ότι το θεώρημα ισχύει για τον M.

Δεδομένου ότι το δέντρο (M, M - 1, ..., 2, 1, 1, 2) για τον παίκτη A, υπενθυμίζεται ότι κατά την κατασκευή, τα δέντρα δέντρων στο αριστερό και στο δεξί κλαδιά είναι της μορφής Tree (M - 2, M - 1, ... 1 , 1) για τον παίκτη 2, Tree (M, M - 2, ..., 2) για τον παίκτη 1, Tree (4, M, 3, 3, 2) , M - 2, M, M - 1) για τον παίκτη M - 1. Αυτά τα δευτερεύοντα δέντρα είναι πανομοιότυπα για τους παίκτες 1, 2, ..., M - 1, εκτός από την επισήμανση στους κόμβους των γονέων. Σημειώστε ότι η στρατηγική κάθε παίκτη 2 κυριαρχεί στη στρατηγική του 1 υπό οποιεσδήποτε συνθήκες. Με επαγωγή, χρησιμοποιώντας την αρχή της κυριαρχίας, οι παίκτες 1 στο M - 1 θα παίξουν στρατηγική 2.

Επομένως, αν ο M παίζει το 1, η πληρωμή για τον παίκτη M είναι b (ο δεύτερος δεξιός κόμβος του δέντρου), ενώ εάν ο M παίζει το 2, η απολαβή (1, 1, ..., M - 2, για τον παίκτη M είναι A22 (ο δεξιός κόμβος του δέντρου). Με την αρχή της κυριαρχίας, από το A12 <A22, ο παίκτης Μ θα παίξει επίσης στρατηγική 2. QED

Τώρα υποθέστε ότι οποιαδήποτε αποπληρωμή του τύπου A11 είναι πολύ μεγαλύτερη από οποιαδήποτε αποπληρωμή του τύπου A22. και ότι A21 = A11 + m, όπου οι πληρωμές A11 και A21 βρίσκονται σε γειτονικούς κόμβους.

Είναι προφανές ότι η προσέγγιση Nash δεν λαμβάνει υπόψη τη συνεταιριστική λύση "στρατηγική παιχνιδιού 1" ακόμα και όταν είναι η προφανής λύση για να παίξει.

Ακολουθώντας το επαγωγικό επιχείρημα του Θεωρήματος 14, μπορούμε επίσης να συμπεράνουμε ότι, δεδομένου ότι τα δευτερεύοντα δένδρα στα αριστερά και στα δεξιά κλαδιά είναι της μορφής Tree (M - 1, M - 2, ..., 2, 1) για τον παίκτη 1, Tree (1, ..., 2, MN, 2, 2, 2, 1, 4) για τον παίκτη 3, 3, M - 2) για τον παίκτη M - 2, με επαγωγή, χρησιμοποιώντας την αναμενόμενη χρησιμότητα, οι παίκτες 1 σε M - 1 θα παίξουν στρατηγική 1 όπου η πληρωμή είναι τύπου A1.

Επομένως, αν ο M παίζει το 1, η πληρωμή για τον παίκτη Μ είναι ένας (ο αριστερός κόμβος του δέντρου), ενώ εάν το M παίζει το 2, η πληρωμή για ο παίκτης M είναι A1 = A1 + m (ο δεύτερος αριστερός κόμβος του δέντρου). Από το A2 <A21, ο παίκτης Μ μπορεί να μπλέκεται στον πειρασμό να παίξει τη στρατηγική 11. Αλλά γιατί να διακινδυνεύσετε να παίξετε στρατηγική 11 για μονάδες m περισσότερο από A21, όταν θα μπορούσε να οδηγήσει σε αποπληρωμή του τύπου A2, μια πληρωμή σημαντικά μικρότερη από την A2;

Με την αναμενόμενη υπόθεση χρησιμότητας, ο παίκτης Μ πρέπει επίσης να παίξει τη στρατηγική 1.

Γενικά παιχνίδια M-person.

Τέλος, γενικεύουμε το Θεώρημα 1 για γενικά παιχνίδια M-person.

Έστω ότι υπάρχουν παίκτες M, όπου κάθε παίκτης έχει ni πιθανές στρατηγικές για κάθε i = 1, 2, ..., M. Δεδομένου του διανύσματος στρατηγικής (j1, j2, ..., jM), αφήστε την πληρωμή στον παίκτη να είναι Aij1j2 ... jM. Ας είναι μια μικτή στρατηγική για τον παίκτη i, δηλαδή μια στρατηγική xi όπου Σj xij = 1, xij 0, όλα j, και ας x = (xi, xi) υποδηλώνουν τις στρατηγικές όλων των παικτών. Το πρόβλημα του Nash είναι:

όπου EP (i | xi) είναι η αναμενόμενη πληρωμή για τον παίκτη i που δίνεται xi και όπου η άθροιση είναι πάνω από όλα τα jk και όλα τα k.

Μια στρατηγική x * είναι μια ισορροπία Nash αν xi * είναι μια λύση στο πρόβλημα του παίκτη i παραπάνω, δεδομένου xi *.

Για την προσέγγισή μας, αφήστε pij1, j2, ..., jM να είναι η αναμενόμενη πιθανότητα του παίκτη ότι ο παίκτης k παίζει jk, για όλα τα jk και όλα τα k. Η αναμενόμενη θεωρία χρησιμότητας του Von Neumann-Morgenstern αναφέρει ότι ο στόχος του παίκτη i είναι να μεγιστοποιήσει την αναμενόμενη πληρωμή του:

όπου η άθροιση είναι πάνω από όλα τα jk και όλα τα k.

Καθορίζω

όπου -i παίζει j-i σημαίνει ότι ο παίκτης k παίζει jk και όπου η άθροιση είναι πάνω από όλα τα jk, για όλα τα k i.

Θεώρημα 15. Προβλήματα (13) παρακάτω είναι ισοδύναμα με προβλήματα (11):

Απόδειξη.. Εξ ορισμού,

όπου η άθροιση είναι πάνω από όλες τις rk, για κάθε k i.

Ο παρονομαστής του (14) είναι η πιθανότητα pi (i plays ji). Ως εκ τούτου,

Από Σ pi (παίζω ji) = 1 και pi (παίζω ji) 0 για όλους, αυτό σημαίνει ότι ο παίκτης παίζει στρατηγική [arg maxji EP (i | i plays ji)]. QED

Μια μέθοδος για την εύρεση της καλύτερης στρατηγικής για τον παίκτη i έχει ως εξής: Για οποιοδήποτε ζευγάρι στρατηγικών για τον παίκτη i, ας πούμε στρατηγική r και στρατηγική s, υπολογίστε τον τόπο των πόντων όπου οι αναμενόμενες payoffs μου υπόκεινται στον παίκτη που παίζω είτε r είτε s είναι ίσοι . Αυτό ορίζει μια επιφάνεια αδιαφορίας που διαιρεί τον υπό όρους χώρο πιθανότητας στις περιοχές 2 VNM. Μια περιοχή VNM χαρακτηρίζεται r επειδή η στρατηγική επιλογής είναι r, και η άλλη περιοχή VNM είναι επισημασμένη επειδή η στρατηγική επιλογής είναι s.

Μετά τους παραπάνω υπολογισμούς, κάθε περιοχή VNM θα έχει επισημανθεί όσες φορές υπάρχουν ξεχωριστά ζεύγη στρατηγικών. Για οποιαδήποτε δεδομένη περιοχή VNM, λάβετε δύο από τις πολλαπλές ετικέτες και εξαλείψτε μία από αυτές με βάση την επιφάνεια αδιαφορίας που δημιουργείται από αυτό το ζεύγος ετικετών. Η διαδικασία λήγει όταν κάθε περιοχή VNM έχει μόνο μία ετικέτα.

Γενικά παιχνίδια 2-person.

Αφήστε τον παίκτη A να έχει στρατηγικές Ai, i = 1, 2, ... n1 και player B έχουν στρατηγικές Bj, j = 1, 2, ... n2. Υποθέστε ότι οι πιθανότητες των παικτών είναι αμοιβαία ανεξάρτητες. Πρόβλημα (13) είναι:

Επομένως, οι περιοχές VNM ορίζονται από κυρτούς πολυτόπους:

Όπως μπορεί να παρατηρηθεί στο (16), η εύρεση της λύσης που έχει οριστεί σε ένα γενικό παιχνίδι 2-person είναι απλή. Για παράδειγμα, σκεφτείτε το παιχνίδι ηλικίας πάνω από δύο χιλιάδων ετών Rock-Paper-Scissors, όπου η ισορροπία Nash είναι: Παίξτε οποιαδήποτε στρατηγική με 33% πιθανότητα:

Η στρατηγική A1 ή B1 (rock) χάνει στη στρατηγική A2 ή B2 (χαρτί) χάνει στη στρατηγική A3 ή B3 (ψαλίδι) χάνει σε ροκ.

Για τον παίκτη Α, γενικά έχουμε, όπου 0 pA (Bj) 1,

η οποία μειώνεται στο

Και ομοίως για τον παίκτη Β.

Αυτό που φαίνεται να είναι μια νέα στρατηγική για αυτό το αρχαίο παιχνίδι είναι: το ροκ παιχνιδιού αν πιστεύετε ότι ο αντίπαλός σας θα παίξει χαρτί με πιθανότητα το πολύ 33% και ψαλίδι με πιθανότητα τουλάχιστον 33%. παίζετε χαρτί εάν πιστεύετε ότι ο αντίπαλός σας θα παίξει ψαλίδι με πιθανότητα το πολύ 33% και ροκ με πιθανότητα τουλάχιστον 33%. αλλού παίζουν ψαλίδια22.

Παιχνίδια 3-person όπου κάθε άτομο έχει στρατηγικές 2.

Ας εφαρμόσουμε το Θεώρημα 15 για να βρούμε τη λύση που έχει οριστεί σε ένα παιχνίδι 3-person, όπου κάθε παίκτης A, B και C έχει στρατηγικές 2 Ai, Bi, Ci, για i = 1, 2 αντίστοιχα.

Υποθέστε ότι οι πιθανότητες των παικτών είναι αμοιβαία ανεξάρτητες. Για τον παίκτη Α, η εξίσωση (13) είναι

και ομοίως για τους παίκτες Β και C. Χρησιμοποιώντας το Θεώρημα 15, η λύση ορίζεται από:

Ας χρησιμοποιήσουμε τα παραπάνω για το παιχνίδι crow-bar[21]:

Εάν ο παίκτης είναι στο σπίτι, η πληρωμή του είναι 1. αν ο παίκτης είναι μόνος στο μπαρ, η πληρωμή του είναι 0. εάν ο παίκτης βρίσκεται στο μπαρ με άλλο άτομο, η πληρωμή του είναι 2. αλλού, η πληρωμή της είναι -1.

Έχουμε: A111 - A211 = -2, A112 - A212 = A121 - A221 = 1, A122 - A222 = -1, ως εκ τούτου, VNM περιοχή A1 είναι η περιοχή -3pA (B1) ΠΠ (C1) + 2pA (B1) + 2pA (C1) - 1 ≥ 0 ή ισοδύναμα την περιοχή[22] pA (B1) ≥ (1 - 2pA (C1)) / (2 - 3pA (C1)). Ομοίως, η περιοχή VNM B1 είναι η περιοχή pB (A1)) / (1 - 2pB (C1)) και η περιοχή VNM C2 είναι η περιοχή pC (B3) ≥ (1 - 1pC (A1)) / (1 - 2pC (A1)). Οι ισορροπίες Nash είναι p (A) = p (B) = p (C) = 2 και p (A) = p (B) = p (C) = 3 / 1.

Αναγνώριση.

Θα θέλαμε να ευχαριστήσουμε τον Al Roth και τον Todd Davies για τις πολύτιμες συμβουλές και οδηγίες τους στην προετοιμασία αυτής της εργασίας.

Υποσημειώσεις

[1] Για απλότητα, κάνουμε την κοινή υπόθεση ότι η χρησιμότητα είναι μια γραμμική συνάρτηση της πληρωμής (Starmer [18]). Ως εκ τούτου, η μεγιστοποίηση της αναμενόμενης χρησιμότητας είναι η ίδια με τη μεγιστοποίηση της αναμενόμενης απόδοσης.

[2] Η Bayesian προσέγγισή μας για τα παιχνίδια διαφέρει από την προηγούμενη Bayesian εργασία (για παράδειγμα, Acevedo και Krueger [4], Aumann [1], Daley και Sadowski [6], McKelvey και Palfrey [12], Quattrone και Tversky [15]). στο ότι, σε αντίθεση με τις άλλες προσεγγίσεις, η προσέγγισή μας συνδέει τις πιθανότητες υπό όρους χωρίς αμφιβολία με την αναμενόμενη υπόθεση χρησιμότητας, την οποία η λύση μας πάντα ικανοποιεί.

[3] Ο κριτικός δηλώνει ότι "οι λογικοί παίκτες δεν πρέπει και δεν πρέπει να εξετάσουν τις πιθανότητες υπό όρους ... Φανταστείτε έναν πράκτορα που ξέρει ότι η πιθανότητα βροχής είναι p. Η «λύση» σας φαίνεται να είναι ότι ο πράκτορας πρέπει να πάρει μαζί του ομπρέλα εάν βρέξει και αφήσει την ομπρέλα εάν δεν βρέχει ».
Το θεώρημα 1 δείχνει ότι η προηγούμενη κριτική είναι αδικαιολόγητη. Όσον αφορά την τελευταία κριτική, ας EP (πράκτορας | φέρει ομπρέλα) = p, και EP (πράκτορας | δεν φέρνουν ομπρέλα) = 1 - σελ. Η λύση μας θα ήταν τότε: να φέρουμε μια ομπρέλα αν p ≥ 1 / 2; μην φέρετε μια ομπρέλα εάν p ≤ 1 / 2.

[4] Οι πιθανές προϋποθέσεις του (2) δεν παραβιάζουν την αρχή του Spohn [17]: "Οποιοδήποτε επαρκές μοντέλο ποσοτικής απόφασης δεν πρέπει να περιέχει ρητά ή έμμεσα τυχόν υποκειμενικές πιθανότητες για πράξεις ..." Οι πιθανότητες υπόθεσης ενός παίκτη είναι υποκειμενικές πιθανότητες για τον αντίπαλο στρατηγικές, όχι για τις δικές της στρατηγικές.

[5] Αυτό το θεώρημα θα γενικευτεί σε ένα για παιχνίδια M-person.

[6] Δεν υπάρχει σηματοδότηση μεταξύ των παικτών.

[7] Οι ανεξάρτητες μεταβλητές pA (B1 | A1) και pA (B2 | A2) θεωρούνται δεδομένες στο πρόβλημα μεγιστοποίησης, μια απλοποίηση που αποφεύγει το πρόβλημα της άπειρης παλινδρόμησης (παρόμοια με την υπόθεση του Nash ότι ο p (B1) Α στη διατύπωση του προβλήματος της μεγιστοποίησης).

[8] Η ανισότητα (5) είναι η (ανακαλυφθείσα) λύση στο πρόβλημα (1) με τον ίδιο τρόπο που ο τετραγωνικός τύπος είναι η λύση σε μια γενική τετραγωνική εξίσωση.

[9] Οι πριμοδοτήσεις του παίκτη ενδέχεται να εξαρτώνται από μερικώς παρατηρήσιμα τυχαία γεγονότα, όπως ο καιρός. Για τη χρήση των priors σε παιχνίδια με ατελείς πληροφορίες που παίζουν οι Bayesian παίκτες, ανατρέξτε στο (Harsanyi [10]).

[10] Αυτή η γενική λύση περιέχει τις ισορροπίες Nash ως συγκεκριμένες λύσεις. Σε αντίθεση με τις περιγραφικές λύσεις Nash, η λύση μας είναι ένα ζευγάρι συνταγογραφικών ορθολογικών προσδοκιών καθαρών στρατηγικών. Επιπλέον, αν κατά λάθος ο παίκτης Α βρίσκεται στην περιοχή VNM A1 και παίζει το A2, το Corollary 2 αναφέρει ότι ο παίκτης Α θα έχει χαμηλότερη αναμενόμενη απόδοση.

[11] Είναι ενδιαφέρον να σημειώσουμε ότι σε μια μικτή ισορροπία Nash, η στρατηγική ενός παίκτη εξαρτάται από το να γνωρίζει τη λειτουργία πληρωμής του άλλου παίκτη.

[12] Οι μηδενικές ενδείξεις αγνοούνται στον πίνακα, αφού αυτές οι περιπτώσεις είναι εκφυλισμένες: ο παίκτης δεν μπορεί να επιλέξει μεταξύ των δύο στρατηγικών του. Επίσης, είναι ενδιαφέρον να σημειωθεί ότι κάθε ισορροπία Nash εμφανίζεται ακριβώς σε τέσσερις σειρές.

[13] Τα επόμενα παραδείγματα του 3 προσαρμόζονται από (Davies [7]) με τρόπο που μπορεί να χρησιμεύσει ως παιδαγωγική τεχνική για τους φοιτητές στη θεωρία των παιχνιδιών. Ο πίνακας 1 μπορεί να χρησιμοποιηθεί για να βρει γρήγορα την ισορροπία Nash για όλα τα παραδείγματα παιχνιδιών 2-person που περιγράφονται εδώ.

[14] Οι ενέργειες του Α δεν επηρεάζουν την επιλογή των ενεργειών της Β. Αυτό οφείλεται στο γεγονός ότι οι πεποιθήσεις του Α δεν σχετίζονται με τις πεποιθήσεις του Β. Από την άλλη πλευρά, αν οι πεποιθήσεις είναι συσχετισμένες, τότε οι πιθανότητες των δύο παικτών πρέπει να είναι ίσες με το 50%, αλλιώς, αν λένε ότι οι πιθανότητες των παικτών είναι και οι δύο> 50%, το A ξέρει ότι το Β θα παίξει τη στρατηγική 2 (ουρές) (κεφαλαία) δεν μπορεί να είναι μια σωστή συνταγή για το Α. Αν πούμε ότι η πιθανότητα Α είναι> 1% και η πιθανότητα Β είναι <50%, το Β ξέρει ότι το Α θα παίξει κεφάλια, επομένως τα κεφάλια δεν μπορούν να είναι σωστή συνταγή για το Α. μοναδική λύση είναι επομένως η ισορροπία Nash: παίζουν τυχαία και για τα δύο.

[15] Σημειώστε ότι το pA (B1) = pB (A1) = 0 ή το 1 είναι ένα σενάριο ισορροπίας: και οι δύο παίκτες στρέφονται (ή και οι δύο πηγαίνουν κατ 'ευθείαν) εάν οι δύο παίκτες περιμένουν τον άλλο παίκτη να πάει ευθεία. Αντίθετα, το p (A1) = p (B1) = 0 ή 1 δεν μπορεί να είναι ισορροπία Nash: Εάν το Β πηγαίνει ευθεία (ή swerve), το A θα μετατοπιστεί (ή θα πάει ευθεία).

[16] Πηγές: Σύνδεσμος Ελέγχου Όπλων, Ομοσπονδία Αμερικανών Επιστημόνων, Διεθνής Ομάδα για σχάσιμα υλικά, Υπουργείο Άμυνας των ΗΠΑ, Υπουργείο Εξωτερικών των ΗΠΑ και Διεθνές Ινστιτούτο Ερευνών για την Ειρήνη της Στοκχόλμης.

[17] Δεδομένου ότι το πρωτότυπο έγγραφο του Flood και του Dresher, χιλιάδες άρθρα έχουν δημοσιευθεί σχετικά με αυτό. Η αναζήτηση για το "δίλημμα του φυλακισμένου" από το Google Scholar αποφέρει αποτελέσματα 104,000 από αυτή τη γραφή. Συμπληρώστε (Kuhn [14]).

[18] Συνεπώς, οι παίκτες δεν θα παίξουν τη συνεταιριστική λύση.

[19] Αν ο αντίπαλός σας παίζει μη τυχαία, ο προηγούμενος μπορεί να επηρεαστεί από τα προηγούμενα παιχνίδια του αντιπάλου σας από αυτό το παιχνίδι.

[20] Ο τύπος μπορεί να επεκταθεί σε M-άτομα, για M> 3.

[21] Αυτό το παιχνίδι βασίζεται στο πρόβλημα της γραμμής El Farol (Arthur [5]).

[22] Ο τόπος της αδιαφορίας είναι μια τετραγωνική καμπύλη που διέρχεται από τα σημεία (pA (C1), pA (B1)) = (0.5, 0), (0.33, 0.33), (0, 0.5).

αναφορές

[1] Aumann RJ (1974) Υποκειμενικότητα και συσχέτιση σε τυχαίες στρατηγικές. Εφημερίδα της Μαθηματικής Οικονομίας 1: 67-96

[2] Aumann RJ, Maschler M (1995) Επαναλαμβανόμενα παιχνίδια με ελλιπείς πληροφορίες. MIT Press, Cambridge, Λονδίνο

[3] Axelrod R (1984) Η Εξέλιξη της Συνεργασίας. Βασικά βιβλία

[4] Acevedo M, Krueger JI (2005) Αποδεδειγμένη λογική στο δίλημμα του φυλακισμένου. Το αμερικανικό περιοδικό ψυχολογίας 118: 431-457

[5] Arthur WB (1994) Επαγωγική λογική και οριοθετημένη λογικότητα. Αμερικανική Οικονομική Επισκόπηση 84: 406-411

[6] Daley B, Sadowski P (2017) Μαγική σκέψη: Αποτέλεσμα της αντιπροσώπευσης. Θεωρητικά Οικονομικά 12: 909-956 24 Αυτό το παιχνίδι βασίζεται στο πρόβλημα του Bar Far (Arthur [5]). 25 Ο τόπος της αδιαφορίας είναι μια τετραγωνική καμπύλη που διέρχεται από τα σημεία (pA (C1), pA (B1)) = (0.5, 0), (0.33, 0.33), (0, 0.5).

[7] Davies T (2004) Θεωρία Χρησιμότητας και Θεωρία Παιγνίων. Σημειώσεις διάλεξης

[8] Garcia CB, Zangwill WI (2017) Μια νέα προσέγγιση για τον πόλεμο ή την ειρήνη. Χαρτί εργασίας

[9] Garcia CB, Zangwill WI (2018) Κυριαρχία, αναμενόμενο χρησιμότητα και δίλημμα του φυλακισμένου. Χαρτί εργασίας

[10] Harsanyi J (1967) Παιχνίδια με ατελείς πληροφορίες που παίζονται από τους "Bayesian" παίκτες I - III. J. Διαχείριση Επιστήμης 14 (3): 159-182

[11] Kadane JB, Larkey PD (1982) Υποκειμενική Πιθανότητα και Θεωρία των Αγώνων. Διαχείριση Επιστήμης 28 (2): 113-120

[12] McKelvey RD, Palfrey TR (1995) Κβαντική ισορροπία απόκρισης για παιχνίδια κανονικής φόρμας. Παιχνίδια και Οικονομική Συμπεριφορά 10: 6-38

[13] Jaynes ET (1968) Προηγούμενες πιθανότητες. IEEE Συναλλαγές στην Επιστήμη Συστημάτων και Κινητοποίησης 4 (3): 227-241

[14] Kuhn S (2017) Το δίλημμα του φυλακισμένου. Η Εγκυκλοπαίδεια της Φιλοσοφίας του Στάνφορντ

[15] Quattrone GA, Tversky A (1984) Αιτιώδης έναντι των διαγνωστικών απρόβλεπτων: Την αυτο-εξαπάτηση και την ψευδαίσθηση του ψηφοφόρου. Εφημερίδα της προσωπικότητας και της κοινωνικής ψυχολογίας 46: 237-248

[16] Skyrms B (2004) Το Κυνήγι του Σταδίου και η Εξέλιξη της Κοινωνικής Δομής. Cambridge University Press, Cambridge

[17] Spohn W (1977) Όπου οι Luce και Krantz γενικεύουν πραγματικά το μοντέλο απόφασης του Savage. Erkenntnis 11: 113-134

[18] Starmer C (2000) Εξελίξεις στη μη αναμενόμενη θεωρία χρησιμότητας: το κυνήγι μιας περιγραφικής θεωρίας επιλογής υπό κίνδυνο. Εφημερίδα της Οικονομικής Λογοτεχνίας 38: 332-382

[19] Sugden R (2005) Η οικονομία των δικαιωμάτων, της συνεργασίας και της ευημερίας. Palgrave MacMillan, έκδοση 2: 132

[20] Von Neumann J, Morgenstern O (1953) Θεωρία των Αγώνων και της Οικονομικής Συμπεριφοράς. Princeton University Press, New Jersey

[21] Wolpert DH, Benford G (2011) Το μάθημα του παραδόξου του Newcomb. Synthese 190: 1637-164