S úctou ku koňom: Plány posilňovania

Pokusy na laboratórnych zvieratách teda ukázali, že na naučenie správania je najúčinnejšie pozitívne posilňovanie. Skinner si však pri pokusoch s holubmi všimol zvláštnu vec – keď boli odmeňované po každom jednom úspešnom pokuse – to je plán nepretržitého posilňovania – po niekoľkých opakovaniach začal počet pokusov postupne klesať. Vtáky jednoducho získali absolútnu istotu, že odmena príde vždy, keď stlačia páčku a „čaro hry“ sa vytratilo (viac o príčinách tohto javu v tomto článku). Už páčku používali, iba keď boli naozaj hladné a chceli sa nasýtiť. A tak Skinner začal experimentovať s tým, čo neskôr nazval plány, resp. režimy posilňovania (alebo po anglicky „schedules of reinforcement“; Plháková, 2003). Rozlišujeme štyri základné typy plánov posilňovania (môžu sa však aj kombinovať).

Plán fixného intervalu posilňovania

Alebo po anglicky „fixed interval schedule of reinforcement“ (FI). Posilnenie príde vždy po uplynutí určitého časového intervalu, za predpokladu, že počas neho zviera vykoná aspoň jeden správny pokus. Napr. potkan dostane burizón každých 5 sekúnd, ak počas nich aspoň raz stúpi na červený štvorček. Ak naň stúpi aj viac ráz, potrava nepríde skôr, ani nedostane viac burizónov. Zviera čoskoro zistí, že sa neoplatí snažiť viac, než je nevyhnutné a bude dávať minimum správnych odpovedí, a to výhradne ku koncu uplynutia fixného intervalu (pokles aktivity na začiatku intervalu sa nazýva „post reinforcement pause“ = PRP¹). Málo efektívny plán posilňovania, najmenej odolný voči vyhasnutiu správania, keď sa posilnenie odstráni (Plháková, 2003).

Plán fixného pomeru posilňovania

Alebo po anglicky „fixed ratio schedule of reinforcement“ (FR). Posilnenie príde vždy po určitom počte správnych pokusov, bez ohľadu na to, ako dlho to zvieraťu trvá. Napríklad koňa vždy odmeníme po 3 obcválaných kruhoch. Tiež málo efektívny plán, vedie k podobným dôsledkom ako odmeňovanie každého pokusu, s tým, že čím viac pokusov zviera delí od posilnenia, tým menej je motivované k správaniu¹. Oba fixné plány teda vedú k odkladaniu započatia činnosti, obzvlášť ak majú predviesť vysoký počet správaní, resp. jedno dlhé správanie alebo interval je príliš dlhý (u ľudí je to stará známa prokrastinácia, typická najmä pre pisateľov diplomových prác :-P; Plháková, 2003). Ak je FR = 1, ide o plán kontinuálneho posilňovania – zviera dostane za každý jeden úspešný pokus rovnaký typ a množstvo posilnenia.

Plán premenlivého intervalu posilňovania

Alebo po anglicky „intermittent / variable interval schedule of reinforcement“ (VI). Posilnenie príde vždy po uplynutí iného časového intervalu, ale iba za predpokladu, že zviera počas neho vykoná aspoň jeden správny pokus. Napríklad koňa odmeníme za dotyk nosa na kužeľ raz za 3 sekundy, raz za 5, za 2, za 4... Ale vždy sa za tú dobu musí kužeľa aspoň raz dotknúť. Efektívnejší plán posilňovania ako predošlé dva, no je tu riziko, že za vybranú dobu zviera správnu odpoveď nedá a tým nám môže celú premenlivosť posilňovania zrušiť – a donútiť nás tým predsa len dávať posilnenie pravidelne (čo zas zníži efektivitu učenia; Plháková, 2003). Inak tento plán prináša celkom stabilný výkon odolný voči vyhasnutiu¹.

Plán premenlivého pomeru posilňovania

Alebo po anglicky „intermittent / variable ratio schedule of reinforcement“ (VR). Posilnenie príde vždy po podaní iného počtu správnych odpovedí. Napríklad kôň cúvne o jeden krok, dostane odmenu, potom o tri kroky, odmena, o 2, o 5, o 6, o 1, o 10... Inou formou tohto plánu je premenlivosť druhu posilnenia (nepravidelné striedanie potravy, škrabkania a hry ako posilnení; rôzne množstvo a rôzne typy potravy; škrabkanie rôznou intenzitou, rôzne dlhú dobu a na rôzne atraktívnych častiach tela; rôzne hry) – pozor, nezamieňať s vyššie zmieneným plánom kontinuálneho posilňovania, kde sa typ a množstvo posilnenia nemení! Tento plán sa preukázal ako jednoznačne najefektívnejší. Výkon veľmi rýchlo rastie, správanie je stabilné a veľmi odolné voči vyhasnutiu¹. Obsahuje totiž prvok náhodnosti, ktorý zviera nemôže ovplyvniť a práve preto sa maximálne snaží – najtypickejším príkladom sú gembleri závislí na automatoch (príčina opäť tkvie v zákonitostiach fungovania nervovej sústavy živočíchov, viď posledný článok v sekcii Teória učenia; Plháková, 2003).

Graf znázorňujúci efektivitu rôznych plánov posilňovania – na osi x je čas, na osi y súčet správnych odpovedí zvieraťa, čiarky označujú momenty, keď sa objavila odpoveď¹.

Poznámka – tieto štyri základné plány posilňovania sa môžu rôzne kombinovať. Napríklad pri alternatívnych plánoch sa naraz používajú viaceré plány a stačí, aby zviera splnilo aspoň jeden z nich, aby dostalo posilnenie (napr. dať 5 správnych odpovedí alebo aspoň 1 správnu odpoveď v priebehu 10s). Pri konjunktívnych plánoch musí zviera splniť podmienky všetkých plánov, aby dostalo posilnenie (napr. dať 5 správnych odpovedí počas 1 minúty). Striedavé plány sa menia vždy po signále, ktorý indikuje, aký plán práve funguje. Zmiešané plány sa menia bez signálu. A existuje ešte mnoho ďalších, zložitejších – tie na nás pôsobia v bežnom živote a ani si to neuvedomujeme¹. Použiť ich však zámerne v tréningu je dosť náročné a pre naše účely asi aj zbytočné (chceme koňa naučiť bežnému ošetrovaniu, práci zo zeme, jazdeniu...), preto patria skôr do výskumu. Pre nás je najužitočnejší jednoduchý VR plán.

V tréningu pozitívnou motiváciou teda čo najskôr prechádzame z plánu kontinuálneho posilňovania (kým správanie učíme) na plán premenlivého pomeru posilňovania (keď je už správanie hotové a chceme ho len udržiavať). Je to najefektívnejší spôsob posilňovania, a to preto, že:

Udržiava dlhodobo záujem a snahu zvieraťa.
Umožňuje postupne obmedzovať množstvo primárnych posilnení.
Umožňuje formovať požadované správanie tak, ako potrebujeme, a to tým, že si vyberáme, ktoré pokusy posilníme a ktoré nie.

A práve ten posledný bod je absolútne kľúčový. Na tomto princípe je založená základná technika učenia v pozitívnom tréningu, tvarovanie (alebo po anglicky „shaping“, diferenciálne posilňovanie sukcesívnych aproximácií¹, podrobne si ho predstavíme v tomto článku). V podstate to pripomína detskú hru „teplo-zima“, iba s tým rozdielom, že „teplo“ je posilnenie a „zima“ je, keď posilnenie nepríde – zviera sa tak postupne po malých krokoch približuje k cieľovému správaniu. Pomer posilnení teda nie je náhodný, ale o tom, či zvieraťu posilnenie dáme, rozhoduje to, či pri vykonaní správania splní určité kritérium (alebo po anglicky „criterion“), čo je nejaká vlastnosť cviku, ktorý ho učíme (Pryor, 2011). Keď sú zviera aj tréner šikovní, môže to laickému pozorovateľovi pripadať, že tréner odmeňuje nepretržite každý jeden pokus – no pravda je taká, že odmeňuje iba stále lepšie a lepšie pokusy (len po maličkých krokoch).

Poznámka – prísne teoreticky vzaté, mali by sme rozlišovať diferenciálne posilňovanie pri tvarovaní nového správania a VR posilňovanie už hotového správania. Teoreticky by sme mali počas tvarovania odmeňovať kontinuálne (pokrok prichádza tým, že zviera prirodzene vykoná správanie zakaždým trochu inak a keď je to „inak“ smerom k nášmu cieľu, posilníme to – to je diferenciálne posilňovanie). Bežne sa však stáva, že zviera skúsi niečo, čo je celkom „mimo“ alebo my nestihneme na jeho správny pokus zareagovať – tým vzniká prirodzený VR plán posilňovania, aj keď by sme sa prísne teoreticky mali čo najviac držať kontinuálneho plánu. Tým vzniká u zvieraťa veľmi jemná frustrácia, troška neistoty, ktorá ho poženie k väčšej snahe. Je to nevyhnuteľná, prirodzená súčasť procesu učenia. Avšak používať počas tvarovania nového správania VR plán naschvál takým spôsobom, aby u zvieraťa vznikla veľká frustrácia – taká, čo vedie k výbuchu pred vyhasnutím – a následne ju využiť k posilneniu takto umelo zintenzívnených pokusov, podľa mňa nie je etické. U zvieraťa tým celkom zbytočne spôsobujeme negatívne emócie, distres, čo je v rozpore so základnými princípmi tréningu pozitívnou motiváciou – robiť to tak, aby bolo vždy dodržané maximálne možné welfare zvieraťa². Viac o zásadách tvarovania sa dočítate v tomto článku.

Príklad – rozhodneme sa dvojmesačné žriebätko naučiť zdvíhať nohy, lebo sa mu majú prvý raz ísť robiť korektúry kopýtok. Aby sme nemuseli použiť R– (tlak na zdvihnutie nohy), najprv odmeníme (škrabkaním hrivy) niekoľko ráz to, že sa dotkneme nohy žriebätka vo chvíli, keď ju spontánne zdvihne. Stanovíme si prvé kritérium – nechať si podržať nohu určitú dobu, napr. 2 minúty – a pomaličky sa k nemu približujeme – začneme od 0,5 sekundy a zvyšujeme najprv po sekundách, potom po 3 sekundách, 5, 2, 7, 4, 8, 3, 10... Kritérium nezvyšujeme lineárne, ale občas sa vrátime kúsok späť a odmeníme opäť aj ľahšiu variantu, obzvlášť ak sa nedarí postúpiť ďalej (pre pocit bezpečia, istotu úspechu). Po dosiahnutí prvého kritéria si môžeme stanoviť ďalšie, napr. výšku držania nohy – a opäť začneme od pár cm nad zemou a len pomaličky nohu dvíhame vyššie. Zároveň dočasne zľavíme z prvého kritéria (výdrže), aby to bolo zvládnuteľné. Po dosiahnutí druhého kritéria opätovne môžeme zdvihnúť hore aj prvé kritérium (už požadujeme aj dostatočne vysoké držanie nohy, aj opäť postupne zvýšime dobu držania). Ešte môžeme nacvičiť ďalšie kritériá, ako je akceptovanie ošetrenia kopýt škrabákom, kopytným nožom, rašpľou, kliešťami... Zároveň však musíme opäť dočasne zľaviť z výdrže a výšky držania kopýtka. Toto sa samozrejme nedá zvládnuť v jednej lekcii, obzvlášť nie u žriebäťa. Budeme potrebovať viac kratučkých, párminútových lekcií.

Poverčivé správanie

Keď Skinner experimentoval s plánmi posilňovania, napadlo ho, čo by sa stalo, keby zvieratá odmeňoval bez ohľadu na to, aké správanie vykonávajú (vo fixnom / premenlivom čase). Pri týchto pokusoch s holubmi získal prekvapivé výsledky – každý holub si časom vyvinul vlastné poverčivé správanie – to, ktoré robil tesne predtým, ako dostal potravu. A ako vieme, posilňované správanie je stále silnejšie. V tomto scenári je povera obzvlášť posilňovaná tým, že potrava prichádza nepredvídateľne. Ľudia sú majstri v poverčivosti, od smiešnych tikov športovcov, cez rôzne tradičné rituály, kulty a náboženstvá, až po obsesívne-kompulzívnu poruchu. V tréningu sa nám tiež môže stať, že nechtiac dáme zvieraťu posilnenie v nevhodnej chvíli – môže stačiť, že sa to stane 2-3x a povera je na svete. Bohužiaľ povery sú veľmi odolné voči vyhasnutiu, takže väčšinou sa musíme vrátiť niekoľko krokov dozadu, do úrovne správania pred vznikom povery a natvarovať ho odznova, čo môže nejaký čas trvať a zviera bude chvíľu frustrované (výbuch pred vyhasnutím povery). Takže si treba dávať dobrý pozor na to, čo, kedy a ako posilníme.

Použité zdroje a literatúra:

Plháková, A. (2003). Obecná psychologie. Praha: Academia.

Pryor, K. (2011). Svého psa nestřílejte. Praha: Práh.
1: en.wikipedia.org

2: clickertraining.com

Späť na Teóriu učenia

Späť na Tréning pozitívnou motiváciou