Tema 5 Turnirurile Lui Axelrod [625685]
Mot
ivul pentru acest lucru este posibil este acela că jucătorii sunt conștienți de posibilitatea ca jocul să se repete, deci
ca ei se se întâlnească și altă dată. (Desigur, probabilitatea de a ne întâlni cu ceilalți depinde de mulți factori. Dacă
locuiesc într-un sat, e mult mai probabil să mă întâlnesc cu cineva decât dacă locuiesc într-o metropolă: nu e de aceea
de miurare că oamenii care locuiesc în sat se salută, spre deosebire de cei dintr-o metropolă.) Cu alte cuvinte, alegerea
pe care o fac astăzi dobândește și un alt sens: ea nu numai că determină rezultatul dilemei jucate acum, ci și
influențează alegerile ulterioare ale jucătorilor. Viitorul dobândește astfel un rol esențial în modul în care aleg jucătorii
în prezent.
Considerații de tipul menționat aici au motivat cel puțin două mari tipuri de strategii de cercetare. Primele sunt
experimentale: este oare posibil să testăm empiric astfel de ipoteze privind felul în care oamenii se comportă în situații
precum dilema prizonierului? Putem deci construi modele care să fie supuse testului empiric? Strategiile de cercetare
de al doilea tip au produs modele mai complexe (care și ele, apoi, au fost testate empiric). Anume, ele s-au concentrat
asupra strategiilor complexe de comportament folosite de oameni atunci când se confruntă cu dileme repetate.
Să discutăm mai întâi foarte pe scurt primul tip de strategii de cercetare. Ne putem întreba: dacă punem membrii
unui grup de oameni într-o situație de dilemă repetată (fără ca ei să cunoască de câte ori este repetată aceasta), atunci ei
se vor comporta așa cum prezice teoria? Psihologii obținut au concluzii deosebit de interesante în acest sens. Bunăoară, să ne amintim că în clasica dilemă jucătorii erau izolați între ei (în două celule), nu puteau comunica. Se schimbă ceva dacă le permitem să comunice? Experimentele au confirmat intuiția: dacă jucătorii pot comunica, atunci frecvența cooperării crește: pe măsură ce se pot auzi, se pot vedea, se pot și vedea și auzi (Rapoport, Chammah: 1965). Sau: depinde felul în care oamenii se comportă de sexul lor, ori de cultura căreia îi aparțin
15?
Depinde felul în care oamenii
se comportă de modul în care este formulată problema în care se află? Astfel de experimente au fost realizate cu sutele, iar dilema repetată a prizonierului a devenit în anii 60' și 70', așa cum remarca acum două decenii R. Axelrod (1984: p. 28), un fel de E. coli a psihologiei sociale. Vom reveni în capitolele următoare la acest tip de abordări, în principal în
legătură cu chestiunea acțiunii colective, care – după mulți autori – poate modelată ca o dilemă cu n jucători.
Iată un exemplu clasic (Tversky, Kahneman: 1986): subiecților li s-au oferit informații statistice cu privire la tratamentul cancerului de plămâni. Unor subiecți statisticile le-au fost prezentate în termeni de rate de mortalitate, iar
altora în termeni de rate de supraviețuire. Apoi li s-a cerut să indice tratamentul pe care îl preferă. Informația era
următoarea:
1)Supraviețuire : dacă se aplică un tratament chirurgical , atunci din 100 de bolnavi 90 supraviețuiesc perioadei
postoperatorii, 68 sunt în viață după un an și 34 sunt în viață după cinci ani; dacă se folosește ca tratament
iradierea, atunci toți trăiesc în timpul tratamentului, 77 sunt în viață după primul an și 22 după cinci ani.
2)Mortalitate : dacă se aplică un tratament chirurgical , atunci din 100 de bolnavi 10 mor în perioad
ea
postope
ratorie, 32 mor până la sfârșitul primului an și 66 mor într-o perioadă de cinci ani; dacă se folosește
ca tratament iradierea, atunci nici unul nu moare în timpul tratamentului, 23 mor până la sfârșitul primulu i
a
n și 78 mor într-o perioadă de cinci ani.
Formularea diferită produce efecte foarte diferite în răspunsurile subiecților. În formularea care făcea apel la
suprav
iețuire doar 18% au favorizat terapia prin radiație, în timp ce în formularea care făcea apel la mortalitate
această terapie a fost favorizată de 44% dintre subiecți. Motivul e că în acest caz apărea evident riscul mic al unui morți imediate. Ceea ce e interesant, arată autorii, e că acest efect se constată nu numai în cazul pacienților, ci și în
cel al chirurgilor experimentați, ca și în cel al studenților în business, care au cunoștințe mai avansate de statistică.
Cea de-a doua strategie de cercetare a dilemei repetate (indefinit) a dobândit în anii '80 și '90 o celebritate
imensă, în special datorită turnirurilor lui Axelrod (1984; 1986; 1997). Să presupunem că avem doi jucători și că aceștia
se confruntă cu o interacțiune repetată între ei de tipul dilemei prizonierilor, iar ei știu acest lucru. Pentru fiecare jucător
se deschid două căi de a juca. Prima e aceea de a lua fiecare instanță a jocului în parte și de juca folosind strategia
aplicabilă astfel (am văzut că atunci echilibrul se atinge când fiecare defectează). Cea de-a doua este să își elaboreeze o
politică mai generală de a juca. Mai devreme am menționat un prim exemplu în acest sens: jucătorul va coopera în 51%
din cazuri dacă jucătorul celălalt cooperează mereu, și va defecta mereu în cazul în care jucătorul celălalt defectează cel
15
De exemplu, McClintock și McNeel (1966) au comparat felul în care se comportă belgienii și americanii când sunt puși în fața
unor astfel de situații. Belgienii s-au dovedit a fi mult mai competitivi, anume tindeau fie să maximizeze diferența dintre câștigul
lor și cel al celorlalți jucători, fie să aibă mai puțină încredere în cooperarea cu ceilalți. Miroiu, A. 2007, Fundamentele politicii vol 2: Rationalitate si alegere colectiva, Polirom
puțin o dată. Dar de bună seamă că putem imagina multe astfel de strategii sau politici de a juca în cazul unei dileme
repetate în mod indefinit. Unele pot fi foarte simple, altele mai mult sau mai puțin complicate. Iată câteva exemple:
Jucătorul cooperează întotdeauna.
Jucătorul defectează întotdeauna.
RANDOM: jucătorul alege în mod întâmplător dacă să coopereze sau nu.
TIT FOR TAT (TFT): în primul joc se cooperează; apoi se alege strategia jucată în jocul anterior de
celălalt jucător: dacă el a cooperat, cooperează; dacă el nu a cooperat, atunci nu cooperează
16
.
PAVLOV: în primul joc se cooperează; apoi se rămâne la aceeași strategie dacă în jocul anterior a
obținut unul din primele două rezultate: tentația T sau recompensa R, și schimbă strategia în celelalte
cazuri. Strategia se bazează pe „legea efectului”: câștigi – stai / pierzi – schimbi.
TIT FOR 2 TATS: în primul joc cooperează; apoi dacă în jocul anterior celălalt jucător a cooperat, el
cooperează; dacă nu a cooperat, atunci cooperează încă o dată; dacă nu a cooperat în ultimele două
jocuri, atunci nu cooperează.
TESTER: la prima mutare defectează; dacă celălalt jucător defectează la un moment dat, cooperează și
apoi joacă în continuare TIT FOR TAT; dacă celălalt continuă să coopereze, mai cooperează de două ori
apoi defectează mereu.
17
Când face apel la astfel de strategii sau politici de acțiune, jucătorul are în minte nu numai câștigul pe care îl a obține
când joacă acum dilema, ci și la câștigul ce poate fi obținut în urma jucării repetate a dilemei. Să presupunem că eu joc
mereu D, iar tu joci mereu C. Atunci de fiecare dată eu voi obține tentația T, iar tu vei obține valoarea F. Dar să ținem
seamă și de următorul lucru: de cele mai multe ori viitorul nu e atât de important ca prezentul; pentru mine faptul că
obțin acum 1000 de lei e poate mult mai important decât faptul că peste douăzeci de ani voi primi 50 000 de lei.
Câștigul viitor – deci cel obținut în urma jucării unor dileme viitoare – contează mai puțin decât cel prezent. Pentru a da
seamă de acest lucru, se introduce adesea un factor de actualizare w, care exprimă importanța sau greutatea pe care o
are următorul joc relativ la cel curent; el reprezintă gradul în care ponderăm valaorea câștigurilor viitoare relativ la cel
curent
18
. De exemplu să presupunem că w = ½, deci că importanța fiecărui joc va fi jumătate din cea a jocului anterior.
Atunci câștigul cumulativ pe care îl voi obține eu (când eu joc întotdeauna D iar tu joci întotdeauna C), dacă dilema se
va juca indefinit de mult, va fi T
.
(1 + ½ + ¼ + 1/8 …). Cum se știe, suma acestui șir este 2. În general, pentru un w
oarecare, valoarea cumulativă a șirului 1 + w + w
2
+ w
3
+ … este 1/(1 – w). De pildă, dacă valoarea următorului joc este
80% din cea a jocului prezent, atunci câștigul total pe care eu îl voi obține va fi T
.
1/(1 – 0,8) = T
.
1/ 0,2 = 5T. În
general, dacă valoarea lui w scade apropiindu-se de zero, atunci defectarea e o strategie mai bună – iar strategia indicată
de a juca devine aceea indicată pentru cazul standard în care dilema se joacă o singură dată; dacă însă valoarea lui w
crește spre unu, câștigul obținut prin defectare scade și deci a defecta mereu nu mai apare ca cea mai atractivă politică
de urmat.
Iar atunci apare o întrebare fundamentală: există o cea mai bună politică sau strategie de a juca pentru a obține
cele mai bune rezultate? Răspunsul nu pare să fie unul pe care îl putem formula în mod a priori: cu alte cuvinte, prin
formularea unei ipoteze și prin demonstrarea ei teoretică. Mai curând, răspunsul poate proveni prin testarea empirică a
acestor strategii posibile: facem experimente prin care jucătorii să aplice un număr destul de mare de ori diverse
strategii și apoi vom compara rezultatele obținute. Dar să ne gândim că numărul strategiilor posibile nu este deloc unul
mic. Apoi, ar trebui ca fiecare astfel de strategie să fie jucată cu oricare alta (inclusiv cu ea însăși – și anume de un
număr suficient de mare încât rezultatele să fie statistic relevante. De aceea, e puțin probabil că s-ar putea și
experimental să se răspundă la întrebarea: care e cea mai bună strategie de a juca? Mai degrabă răspunsul va avea o
altă formă: dată fiind o colecție de astfel de strategii, care dintre ele sunt cele mai bune? Și ce caracteristici au cele
care s-au dovedit cele mai bune?
16
Programul este deci unul de tipul „ochi pentru ochi, dinte pentru dinte”.
17
Aceaastă strategie se vede ușor că e mai bună când joacă contra lui TIT FOR 2 TATS: căci cel ce joacă această din urmă
strategie defectează numai după ce celălalt a defectat de două ori; or TESTER nu defectează de două ori la rând, de aceea TIT
FOR 2 TATS cooperează cu TESTER și deci este „exploatat” de acesta.
18
Din punct de vedere matematic, w ar putea fi interpretat și altfel, anume ca exprimând probabilitatea ca jocul următor să aibă
loc.
Cât de multe astfel de strategii sau politici există? Să luăm cel mai simplu caz, în care sunt doar doi jucători, fiecare
jucător are la dispoziție exact două alternatice, iar strategiile pe care le joacă fiecare sunt deterministe. Pentru fiecare
joc (sau: mutare) știm că sunt posibile patru rezultate. Dacă jocul a avut trei mutări până acum, înseamnă că sunt
posibile 4
4
4 = 64 istorii posibile diferite ale acestora. O strategie ar trebui să determine ce mutare se poate face în
fiecare din cele 64 de cazuri posibile. Strategia ar putea fi atunci specificată ca o funcție care atașează fiecăruia din
aceste cazuri o mutare ( D sau C). De pildă, dacă tu ai cooperat de trei ori, o strategie îmi spune dacă să colaborez sau
să defectez la a patra mutare. Câte astfel de strategii există? Numărul lor este uriaș: 2
64
, ceea ce este aproape 10
19
.
Dacă ar fi ca un computer să examineze toate aceste strategii, cu o viteză de 100 pe secundă, i-ar trebui cam 5,8
miliarde de ani pentru a încheia o astfel de sarcină.
Este evident deci că oamenii nu pot merge pur și simplu pe calea testării tuturor strategiilor posibile: ei au nevoie să
găsească alte modalități de a alege cum să se comporte.
O observație crucială este următoarea: fiecare astfel de strategie sau politică de a acționa în cazul unei dileme
repetate este un algoritm pe care un jucător îl poate adopta. Să presupunem că eu joc cu altcineva o astfel de dilemă
repetată. Nu l-am văzut niciodată pe adversarul meu, nu am interacționat direct niciodată. Pentru fiecare joc eu primesc
pe o hârtie care a fost mutarea lui, iar pe această bază eu îmi formez o imagine cu privire la felul în care joacă acesta –
ce politică urmează. Testându-l, văd că el a adoptat strategia pe care am numit-o mai devreme TIT FOR TAT. Știind
cum va reacționa, pentru mine e mai ușor să mă gândesc cum voi proceda la rândul meu. Dar eu am în față doar o
bucată de hârtie tipărită. Nu știu nimic despe celălalt jucător: cine este; ce pregătire are; ce sex are; din ce cultură
provine etc. În fond, tot ceea ce știu este că aplică un algoritm simplu:
Începe prin a coopera!
Dacă celălalt jucător a cooperat, în următorul joc cooperează!
Dacă celălalt jucător a defectat, în următorul joc defectează!
Plecând de aici, R. Axelrod (1984) a făcut observația crucială că în fond nu e important că eu joc cu o strategie
împotriva ta, care ai o (altă) strategie, ci că joacă între ele două astfel de strategii sau algoritmi de acțiune. De aceea,
experimentele cu subiecți umani ar putea fi înlocuite cu un alt tip de experimente – în care joacă între ele programe de
calculator.
Turnirurile lui Axelrod
La începutul anilor '80, R. Axelrod a făcut apel la computerele existente atunci pentru a pune să joace între ele
un număr de astfel de programe. El a realizat două astfel de turniruri, în care programele jucau următoarea dilemă
repetată:
Programul 2: D Programul 2: C
Programul 1: D P = 1
P = 1 F = 0
T = 5
Programul 1: C
T = 5
F = 0 R = 3
R = 3
Axelrod a invitat specialiști în teoria jocurilor să propună programe; au răspuns solicitării lui economiști, psihologi,
matematicieni, fizicieni, biologi, sociologi, specialiști în știința politică și în cea a computerelor. Specializările diferite
ale celor care au paricipat a reprezentat un factor important, căci a arătat pe de o parte cât de semnificativă e problema
pentru toate aceste specializări și, pe de altă parte, că se poate imagina un limbaj comun al problemelor cu care se
confruntă fiecare. Prima dată Axelrod a primit un număr de 14 programe, la care el a mai adăugat încă unul: programul
RANDOM, cel care alege în mod întâmplător dacă la următoarea mutare va coopera sau nu.
Fiecare program a jucat cu fiecare, și anume – pentru a obține o estimare mai mare a scorurilor pentru fiecare
pereche – de cinci ori, iar fiecare rundă a constat din 200 de mutări. Apelul la computere a permis depășirea limitelor
experimentelor cu subiecți umani. Căci în total s-au jucat doar în acest turnir 120 000 de mutări (sau de dileme), care ar
fi fost foarte greu să fie gestionate în experimentele obișnuite
19
. Programul care a câștigat turnirul a fost TIT FOR TAT,
propus de A. Rapoport, și care era cel mai scurt, deci cel mai simplu program. (E semnificativă, accentuează Axelrod,
diferența dintre situația analizată aici și cea a programelor de șah: în aceasta din urmă programele mai complexe sunt
mai bune.) În fiecare rundă era posibil ca un program să obțină un scor între 0 puncte și 1000; câștigătorul a obținut o
medie de 504 puncte.
19
În plus, se presupune că fiecare program e aplicat fără greșeli; există și studii în care programul e aplicat, dar cu erori.
Axelrod a formulat o serie de concluzii în legătură cu programele care au obținut scoruri mai bune și cu
proprietățile pe care acestea le aveau în comun. Apoi a solicitat să fie propuse din nou astfel de programe pentru a testa
care este mai bun. Acum, la al doilea turnir, nivelul de sofisticare a fost mai ridicat, iar cei care au răspuns lui Axelrod
au încercat și mai mult să producă acea colecție de programe care din punctul lor de vedere, ca specialiști, erau
candidații cei mai buni. Au fost primite 62 de programe, la care Axelrod a adăugat din nou pe RANDOM. Din nou
programele au jucat între ele și, din nou, câștigătorul a fost cel mai simplu dintre ele, anume același TIT FOR TAT.
Atenția multor cercetători s-a concentrat de aceea asupra câștigătorului. Dar este foarte important să reținem că
Axelrod nu s-a raportat numai la acesta, căci el a încercat să vadă ce proprietăți au programele care au avut rezultatele
cele mai bune și să tragă de aici concluziile. Căci turnirurile, așa cum am văzut, au avut ca participanți un număr foarte
mic de programe (deși erau cele considerate de specialiști ca fiind candidații cei mai buni!) dintre mult mai multele
posibile. De aceea, rezultatele turnirurilor nu spun care e programul optim de urmat, ci care e programul mai bun în
condițiile în care se confruntă cu anumite alte programe (și de un anumit număr de ori: căci evident numărul de mutări
ar fi putut fi diferit). Axelrod a argumentat că programele care în turnirurile sale au obținut cele mai bune rezultate au
următoarele proprietăți:
sunt “drăguțe”: încep prin a coopera;
sunt “reactive”: reacționează prin necooperare la necooperare;
sunt “iertătoare”: dacă adversarul reîncepe să coopereze, și ele cooperează;
nu sunt “complicate”: adversarul își poate da ușor seama de strategia folosită
20
.
TIT FOR TAT are are în chip exemplar aceste proprietăți. Spre deosebire de TEST, el începe prin a coopera și
este, deci, drăguț. Dar, spre deosebire de programul ALL C, care constă în a coopera întotdeauna, el este reactiv: se
răzbună pe cel care nu cooperează, și anume imediat (în acest sens, e mai răzbunător decât TIT FOR 2 TATS, care nu
e imediat reactiv și permite adversarului să defecteze de două ori înainte de a reacționa). Este, pe de altă parte, iertător,
iarăși imediat: dacă celălalt a cooperat, programul schimbă felul în care a acționat și cooperează din nou. În sfârșit, este
foarte simplu (de fapt, cel mai simplu). Avantajele acstei caracteristici se leagă de faptul că ceilalți jucători îl înțeleg
imediat și le este foarte ușor să prevadă cum va juca în viitor. (Pesemne că un raționament analog acestuia e la baza
atitudinii care face ca un joc precum cel de fotbal să fie atât de popular: regulile lui sunt foarte simple și de aceea jocul
poate fi extrem de ușor înțeles.)
Profilat ca învingător redutabil, programul TIT FOR TAT a apărut drept cea mai promițătoare cale de a ne
comporta în situații precum dilema repetată. Unele cercetări au indicat însă și alți candidați cu șanse mari de a produce
rezultate foarte bune. Iată două exemple în acest sens. Primul pornește de la faptul că în executarea unui plan jucătorii
pot face erori, deci pot să aplice în mod imperfect o strategie (Axelrod: 1997; Bendor: 1993; Bendor et. al: 1991). De
exemplu, dacă un jucător adoptă strategia ALL C, de a coopera mereu, în timp ce jucătorul celălalt adoptă strategia
ALL D, de a defecta mereu, câștigul primului jucător e F + e, unde e este un număr pozitiv a cărui valoare tinde spre
zero atunci când programul este executat fără eroare. Deoarece cunoaște structura jocului, fiecare jucător deduce cum a
jucat celălalt pe baza câștigului său. Dar dacă valoarea lui e este îndeajuns de mare, atunci ea produce perturbații care
fac ca deducțiile jucătorilor să nu mai fie corecte. De pildă, să presupunem că două copii ale programului TIT FOR
TAT joacă între ele, dar cu eroare. Atunci o eroare din partea uneia dintre copii va produce defectări din partea
celeilalte pentru un lung șir de mutări. Repetând turnirul în astfel de situații, TIT FOR TAT nu mai obține rezultate la
fel de bune; de pildă, programul DOWNING, care în turnirurile inițiale ale lui Axelrod nu era între primele 50%, îl
învinge pe TIT FOR TAT. DOWNING își bazează mutarea nouă pe o estimare a unei istorii mai mari decât face TIT
FOR TAT a mutărilor, ceea ce înseamnă că TIT FOR TAT este prea simplu. (Dar, argumentează Axelrod (1997),
urmând pe Nowak și Sigmund (1993), dacă modificăm pe TIT FOR TAT astfel încât să fie mai generos, adică să nu
reacționeze imediat la defectare, atunci performanțele sale devin mai bune.)
Un al doilea exemplu privește programul PAVLOV (Nowak, Sigmund: 1993; Macy: 1995). Experimentele
realizate par să dovedească superioritatea acestui program față de TIT FOR TAT
21
. Cele două programe, formal, diferă
20
Plecând de la aceste rezultate, Axelrod propune câteva reguli pentru succes atunci când ne confruntăm cu situații de tipul
dilemei iterate a prizonierului:
Nu fi invidios!
Nu fi primul care nu cooperează!
Răspunde atât la cooperare cât și la necooperare!
Nu fi prea deștept!
în următorul punct: PAVLOV cooperează cu o probabilitate mare când la mutarea anterioară avea fie ( C, C) fie ( D, D);
în rest cooperează cu o probabilitate mică. Dar TIT FOR TAT cooperează cu o probabilitate mare când la mutarea
anterioară a avut ( C, C) sau ( D, C) (celălalt a cooperat). PAVLOV are două avantaje
22
în raport cu TIT FOR TAT.
Primul este că, atunci când e aplicat cu erori, am văzut că TIT FOR TAT are probleme atunci când joacă cu o replică a
sa; în cazul lui PAVLOV, dacă o copie a sa defectează, atunci și cealaltă copie va reacționa, dar apoi ambele revin la
cooperarea mutuală și deci obțin rezultate mai bune. În al doilea rând, atunci când joacă cu programe precum ALL C,
cele două se comportă diferit: TIT FOR TAT pierde din avantaj, căci cooperează de la o mutare înainte și obține deci
doar câștigul R, în timp ce PAVLOV continuă fără regrete să defecteze și obține câștigul T (și știm că avem T > R).
Una dintre consecințele cele mai importante care decurg din această analiză este aceea că, în cazul unei dileme repetate,
probabilitatea cooperării crește. Că este așa se poate vedea și cu ajutorul următorului exemplu (Axelrod: 1984, cap. 4).
Pesemne că ne așteptăm foarte puțin ca și în cazul unui război să ia naștere cooperarea. Dar uneori e posibil să se
întâmple așa ceva. Axelrod are în vedere frontul de Vest în timpul primului război mondial. În prima sa fază, războiul a
fost mobil și foarte sângeros; dar după un anumit timp, liniile s-au stabilizat și armatele au stat față în față perioade mai
lungi, fără deplasări semnificative ale frontului. În aceste situații unitățile de luptă (de exemplu batalioanele – formate
din aproximativ o mie de oameni, dintre care jumătate erau în prima linie) se confruntau cu dileme ale prizonierului.
Pentru fiecare, cele două alternative erau: să tragi cu armele pentru a ucide sau să tragi încercând intenționat să eviți să
cauzezi pagube. Pe termen scurt – adică presupunând că dilema nu se repetă – e de preferat să produci pagube cât mai
mari adversarului. Cum amândouă unitățile aflate față în față vor adopta această strategie, pentru fiecare pagubele
(constând în pierderi umane) deveneau mari.
Dar între două unități care stăteau un timp mai îndelungat față în față situația devenea una de dilemă repetată indefinit.
Ca urmare, era posibil, așa cum face predicția teoria, să apară echilibre diferite de perechea ( D, D), deci de adoptarea
de către fiecare unitate a strategiei de a trage pentru a produce pagube. Chiar din toamna primului an de război, 1914,
au apărut astfel de acțiuni: focul înceta când pe ambele părți ale frontului se servea masa; de Crăciun a existat o largă
fraternizare. Cooperările directe, explicite nu se puteau însă realiza le larg și sistematic pe front: centrele de comandă
au luat măsuri ca micile unități să nu poată ajunge la astfel de acțiuni. Dar în timp au apărut strategii mai sofisticate,
bazate pe semnale neverbale. De exemplu, cooperările pe bază de reciprocitate erau posibile: soldații de pe ambele părți
ale frontului evaluau că nu se defecta necondiționat când era vorba de satisfacerea acelorași nevoi de bază (de pildă, nu
se trăgea când se făceau aprovizionări cu apă și alimente). Cooperarea era condițioată: iar fiecare încerca să arate
adversarului că putea produce pierderi mai mari decât cele obișnuite; de aceea, uneori se aplicau astfel de acțiuni (de
pildă, artileria trăgea uneori focuri bine plasate). Când apăreau defectări, cealaltă parte trebuia să se asigure dacă era e
vorba de o schimbare a strategiei; de aceea răspunsul nu era imediat (altfel zis, nu se aplica TIT FOR TAT, ci mai
curând ceva de genul TIT FOR 2 TATS, sau TIT FOR 3 TATS). Apariția unui sistem de cooperare ca acesta – „trăiește
și lasă-l și pe celălalt să trăiască!” – arată că pentru cooperare nu trebuie făcută supoziția existenței unor relații
personale (de prietenie de pildă) între cei care care interacționează; reciprocitatea este suficientă.
Sistemul din tranșeele primului război mondial a fost în timp distrus: unitățile erau rotate și nu apucau aceleași să stea
mult timp față în față; s-au folosit raiduri mici, pentru a omorâ sau a captura soldații din tranșeele adverse – mecanism
care a distrus reciprocitatea presupusă.
Abordarea evoluționistă a dilemei prizonierului (*)
Axelrod a conceput însă și un alt tip de mecanisme de testare empirică a diferitelor strategii de acțiune în situații
de genul dilemei prizonierilor – în fond, de situații în care resursele sunt limitate, iar cooperarea este mai avantajoasă
decât comportamentul egoist. Versiunile evoluționiste ale jocului au fost, din anii '80, cele mai atractive pentru
cerceători. Ideea este următoarea: mai mulți jucători folosesc strategii diferite pentru a juca între ei o dilemă iterată, la
fel ca și în turnirurile clasice pe care le-am discutat mai devreme. Dar să presupunem acum că jucătorii alcătuiesc o
populație (care va fi păstrată constantă ca mărime în toate iterările dilemei). În această populație o proporție de jucători
folosesc aceeași strategie, deci se presupune că au loc interacțiuni și între copii ale aceleiași strategii. Fiecare jucător
obține un număr de puncte. O sumă sub medie a punctelor obținute de copiile unei strategii face ca în următoarea rundă
21
Autorii au utilizat o abordare evoluționistă, de tipul celor pe care le vom discuta imediat. După o sută de mii de generații,
PAVLOV predomină.
22
Are și dezavantaje. Cel mai important este că poate produce comportamente care nu tind spre optim, ci spre satisficient (H.A.
Simon: 1997). Într-adevăr, el are tendința de a repeta comportamentul care a fost recompensat (să ne amintim de experimentul
originar al lui Pavlov privind formarea reflexului condiționat) și deci se poate fixa pe o alternativă care produce câștiguri mai
proaste decât alternativele disponibile.
proporția în populație a acestor copii să fie mai mică, în timp ce o sumă mai mare decât media face ca proporția în
populație a copiilor strategiei să fie mai mare. Spre deosebire de turnirurile celelalte ale lui Axelrod, acum fiecare
strategie va obține un scor mai mare confruntându-se în principal nu cu strategii necompetitive, ci cu strategii cu
succes. Intuitiv – iar aici este apelul la biologia evoluționistă – scorul obținut de o strategie într-o rundă e cel care
determină numărul de „urmași” (adică de copii ale strategiei) în runda următoare. Cum populația are mărime fixă,
înseamnă că nașteri mai multe de urmași ai unei strategii echivalează cu morți mai multe ale reprezentanților unei alte
strategii. Iarăși, în populația considerată nu apar copii ale tuturor strategiilor posibile, ci copii ale unei colecții
determinate de astfel de strategii.
Să formulăm mai riguros aceste observații: populația de la care se pleacă este o mulțime de perechi {( p
1
,
S
1
),…(p
n
, S
n
)}, unde S
1
, … S
1
sunt cele n strategii selectate, iar p
1
, … p
1
sunt proporțiile fiecărei strategii în cadrul
populației. În prima rundă se pleacă de la proporții egale, iar într-o rundă ulterioară proporția p
i
a strategiei S
i
este dată
de formula:
p
i
= H
i
/H
unde H
i
este scorul obținut de strategia S
i
în runda precedentă, iar H este scorul mediu. (Se poate nota că pentru o rundă
ulterioară proporția în populație a unei strategii ar putea să fie calculată și altfel; metoda folosită aici e cea a evoluției
conform cu regula „adaptării proporționale” – și, evident, rezultatele obținute sunt relative la această alegere.)
Dacă strategiile sunt deterministe, e interesant că într-un aranjament experimental evoluționist din nou TIT FOR
TAT se dovedește cel mai de succes program. După o mie de generații, el era deja dominant în populație și continua să
crească.
Și o altă întrebare e acum interesantă: dacă într-o populație există o singură strategie, dar intră în joc o copie a
unei alte strategii, ce se întâmplă? Reușește prima să se mențină, altfel zis să fie colectiv stabilă? Biologic, intuiția este
simplă: când în populație apare un mutant, problema este de a determina dacă acesta reușește să invadeze populația
nativă. Axelrod indică o serie de rezultate interesante (1984, capitolul 3):
TIT FOR TAT e stabil colectiv dacă și numai dacă w este îndeajuns de mare.
strategie care cooperează la prima mutare este stabilă colectiv numai atunci când w e suficient de mare.
Pentru ca o strategie drăguță să fie stabilă colectiv, ea trebuie să fie propovată de prima defectare a celuilalt
jucător.
ALL D e sabilă colectiv.
Strategiile care pot invada pe ALL D într-un mănunchi (când proporția interacțiunilor dintre copiile acestora
sunt minime) sunt cele care discriminează cel mai bine, precum TIT FOR TAT.
O strategie drăguță nu poate fi invadată nici de un singur individ, nici de un mănunchi de astfel de indivizi.
Experimentele evoluționiste ale lui Axelrod aveau mai multe tipuri de supoziții. Una este aceea că strategiile
erau deterministe, iar eroarea era considerată ca fiind zero. În al doilea rând, în rundele ulterioare ale turnirurilor
evoluționiste erau permise numai copii ale (supraviețuitorilor) programelor care începuseră turnirul; nu erau permise
programe noi, ori „mutante”. În al treilea rând, lista programelor admise era esențială pentru a trage concluziile; dar
dacă s-ar fi admis și alte strategii, nu e deloc limpede că aceleași concluzii ar fi fost disponibile. Or, fiecare din cele trei
supoziții e greu de acceptat: în viuața reală programele se joacă cu erori; mutanții apar; iar natura este extrem de
inventivă cu noi strategii de acțiune.
Plecând de aici, alți cercetători (de pildă, Nowak, Sigmund: 1993) au încercat să vadă ce se obține dacă sunt
relaxate unele dintre aceste supoziții. De pildă, dacă erorile sunt admise, un TIT FOR TAT mai generos are un succes
superior lui TIT FOR TAT
23
; în al doilea rând, dacă o strategie permite ca jucătorul să își întemeieze probabilitatea de a
coopera pe propria sa mutare anterioară
24
, ca și pe mutarea anterioară a oponentului său, atunci PAVLOV se dovedește
că are un succes mai mare. Dacă se face însă apel la strategii deterministe, rezultatele sunt diferite (Linster: 1992).
Chiar dacă nici un program nu devine dominant, unul – anume GRIM – ajunge să reprezinte totuși mai mult de 50%
din populație. Acest program, care în experimentele probabiliste (precum cele ale lui Nowak și Sigmund (1993) apărea
23
Strategiile luate în considerare în acest caz sunt cele „reactive”. Ele sunt definite astfel: fiecare strategie se joacă cu o
probabilitate p
1
de a coopera în prima rundă și cu o probabilitate p
2
de a coopera dacă celălalt jucător a defectat în runda
anterioară. Pentru TIT FOR TAT generos, p
2
= min{(1-(T-R)/(R-F)), (R-P)/(T-P)}.
24
În acest caz, fiecărei strategii i se atașează câte o probabilitate de a defecta dacă la mutarea anterioară s-a obținut unul dintre
rezultatele ( C, C), (C, D), (D, C) și (D, D), deci după ce jucătorul a primit una dintre cele patru câștiguri, respectiv R, F, T și P.
ca extrem de necompetitiv
25
, este foarte simplu: el cooperează până când oponentul a defectat prima dată, după care
defectează tot restul jocului. Iar alături de el obțin rezultate bune – deci supraviețuiesc într-o iterare evoluționistă a
dilemei – și programe precum PAVLOV, TIT FOR TAT și ALL C.
Aceste rezultate și ele întăresc ideea că în cazul unei dileme iterate indefinit nu există o singură strategie
optimă: ce înseamnă a avea succes depinde de context, de caracteristicile mediului.
Să încercăm să tragem câteva concluzii. E. Ostrom (1998) le sumarizează astfel:
În cele mai multe dileme sociale, cercetările au dovedit că există nivele ridicate de cooperare inițiale; totuși,
acest nivel nu este nici pe departe cel optimal.
Comportamentul actorilor în situații de dileme sociale repetate de un număr finit de ori nu satisface predicțiile
care decurg din argumentul inducției inverse.
Strategiile de echilibru de tip Nash nu sunt buni predictori ale comportamentului individual.
Atunci când sunt puși în fața unor dileme sociale repetate actorii învață să joace nu strategii de echilibru de tip
Nash, ci alte tipuri de comportamente.
Dacă așa stau lucrurile, înseamnă că pentru a înțelege cum se comportă oamenii puși în situații de tipul
dilemelor sociale va trebui să facem apel la alte tipuri de abordări ale acestora. În capitolele următoare le vom analiza
pe larg.
25
Motivul pentru care GRIM se comportă foarte prost în situațiile care admit eroarea este că se obțin rezultate slabe atunci când
joacă între ele două copii ale acestuia: într-adevăr, dacă o copie a defectat, atunci ambele joacă apoi numai D.
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: Tema 5 Turnirurile Lui Axelrod [625685] (ID: 625685)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
