Pokusy na laboratórnych
zvieratách teda ukázali, že na naučenie správania je najúčinnejšie pozitívne
posilňovanie. Skinner si však pri pokusoch s holubmi všimol zvláštnu vec –
keď boli odmeňované po každom jednom úspešnom pokuse – to je plán nepretržitého posilňovania – po
niekoľkých opakovaniach začal počet pokusov postupne klesať. Vtáky jednoducho
získali absolútnu istotu, že odmena príde vždy, keď stlačia páčku a „čaro hry“
sa vytratilo (viac o príčinách tohto javu v tomto
článku). Už páčku používali, iba keď boli naozaj hladné
a chceli sa nasýtiť. A tak Skinner začal experimentovať s tým,
čo neskôr nazval plány, resp. režimy posilňovania (alebo po anglicky
„schedules of reinforcement“; Plháková, 2003). Rozlišujeme štyri základné typy
plánov posilňovania (môžu sa však aj kombinovať).
Plán fixného intervalu posilňovania
Alebo po anglicky „fixed
interval schedule of reinforcement“ (FI). Posilnenie príde vždy po uplynutí
určitého časového intervalu, za predpokladu, že počas neho zviera vykoná aspoň
jeden správny pokus. Napr. potkan dostane burizón každých 5 sekúnd, ak počas
nich aspoň raz stúpi na červený štvorček. Ak naň stúpi aj viac ráz, potrava
nepríde skôr, ani nedostane viac burizónov. Zviera čoskoro zistí, že sa
neoplatí snažiť viac, než je nevyhnutné a bude dávať minimum správnych
odpovedí, a to výhradne ku koncu uplynutia fixného intervalu (pokles
aktivity na začiatku intervalu sa nazýva „post reinforcement pause“ = PRP1).
Málo efektívny plán posilňovania, najmenej odolný voči vyhasnutiu správania,
keď sa posilnenie odstráni (Plháková, 2003).
Plán fixného pomeru posilňovania
Alebo po anglicky „fixed ratio
schedule of reinforcement“ (FR). Posilnenie príde vždy po určitom počte
správnych pokusov, bez ohľadu na to, ako dlho to zvieraťu trvá. Napríklad koňa
vždy odmeníme po 3 obcválaných kruhoch. Tiež málo efektívny plán, vedie
k podobným dôsledkom ako odmeňovanie každého pokusu, s tým, že čím
viac pokusov zviera delí od posilnenia, tým menej je motivované k správaniu1.
Oba fixné plány teda vedú k odkladaniu
započatia činnosti, obzvlášť ak majú predviesť vysoký počet správaní, resp.
jedno dlhé správanie alebo interval je príliš dlhý (u ľudí je to stará známa
prokrastinácia, typická najmä pre pisateľov diplomových prác :-P; Plháková,
2003). Ak je FR = 1, ide o plán
kontinuálneho posilňovania – zviera
dostane za každý jeden úspešný pokus rovnaký typ a množstvo posilnenia.
Plán premenlivého intervalu posilňovania
Alebo po anglicky „intermittent /
variable interval schedule of reinforcement“ (VI). Posilnenie príde vždy po
uplynutí iného časového intervalu, ale iba za predpokladu, že zviera počas neho
vykoná aspoň jeden správny pokus. Napríklad koňa odmeníme za dotyk nosa na
kužeľ raz za 3 sekundy, raz za 5, za 2, za 4... Ale vždy sa za tú dobu musí
kužeľa aspoň raz dotknúť. Efektívnejší plán posilňovania ako predošlé dva, no
je tu riziko, že za vybranú dobu zviera správnu odpoveď nedá a tým nám
môže celú premenlivosť posilňovania zrušiť – a donútiť nás tým predsa len
dávať posilnenie pravidelne (čo zas zníži efektivitu učenia; Plháková, 2003).
Inak tento plán prináša celkom stabilný výkon odolný voči vyhasnutiu1.
Plán premenlivého pomeru posilňovania
Alebo po anglicky „intermittent
/ variable ratio schedule of reinforcement“ (VR). Posilnenie príde vždy po
podaní iného počtu správnych odpovedí. Napríklad kôň cúvne o jeden krok,
dostane odmenu, potom o tri kroky, odmena, o 2, o 5, o 6,
o 1, o 10... Inou formou tohto plánu je premenlivosť druhu posilnenia (nepravidelné striedanie potravy,
škrabkania a hry ako posilnení; rôzne množstvo a rôzne typy potravy;
škrabkanie rôznou intenzitou, rôzne dlhú dobu a na rôzne atraktívnych
častiach tela; rôzne hry) – pozor, nezamieňať s vyššie zmieneným plánom
kontinuálneho posilňovania, kde sa typ a množstvo posilnenia nemení! Tento
plán sa preukázal ako jednoznačne najefektívnejší. Výkon veľmi rýchlo rastie,
správanie je stabilné a veľmi odolné voči vyhasnutiu1. Obsahuje totiž prvok náhodnosti,
ktorý zviera nemôže ovplyvniť a práve preto sa maximálne snaží –
najtypickejším príkladom sú gembleri závislí na automatoch (príčina opäť tkvie
v zákonitostiach fungovania nervovej sústavy živočíchov, viď posledný
článok v sekcii Teória učenia;
Plháková, 2003).
Graf znázorňujúci efektivitu rôznych plánov posilňovania –
na osi x je čas, na osi y súčet správnych odpovedí zvieraťa, čiarky označujú
momenty, keď sa objavila odpoveď1.
Poznámka
– tieto štyri základné plány posilňovania sa môžu rôzne kombinovať. Napríklad
pri alternatívnych plánoch sa naraz používajú viaceré plány a stačí, aby
zviera splnilo aspoň jeden z nich, aby dostalo posilnenie (napr. dať 5
správnych odpovedí alebo aspoň 1 správnu odpoveď v priebehu 10s). Pri
konjunktívnych plánoch musí zviera splniť podmienky všetkých plánov, aby
dostalo posilnenie (napr. dať 5 správnych odpovedí počas 1 minúty). Striedavé plány
sa menia vždy po signále, ktorý indikuje, aký plán práve funguje. Zmiešané
plány sa menia bez signálu. A existuje ešte mnoho ďalších, zložitejších –
tie na nás pôsobia v bežnom živote a ani si to neuvedomujeme1.
Použiť ich však zámerne v tréningu je dosť náročné a pre naše účely asi
aj zbytočné (chceme koňa naučiť bežnému ošetrovaniu, práci zo zeme, jazdeniu...),
preto patria skôr do výskumu. Pre nás je najužitočnejší jednoduchý VR plán.
V tréningu pozitívnou
motiváciou teda čo najskôr prechádzame
z plánu kontinuálneho posilňovania (kým správanie učíme) na plán premenlivého pomeru posilňovania (keď
je už správanie hotové a chceme ho len udržiavať). Je to najefektívnejší
spôsob posilňovania, a to preto, že:
- Udržiava dlhodobo záujem a snahu zvieraťa.
- Umožňuje postupne obmedzovať množstvo primárnych posilnení.
- Umožňuje formovať požadované správanie tak, ako potrebujeme, a to tým, že si vyberáme, ktoré pokusy posilníme a ktoré nie.
A práve ten posledný bod je
absolútne kľúčový. Na tomto princípe je založená základná technika učenia
v pozitívnom tréningu, tvarovanie
(alebo po anglicky „shaping“, diferenciálne posilňovanie sukcesívnych aproximácií1,
podrobne si ho predstavíme v tomto
článku). V podstate to pripomína detskú hru „teplo-zima“, iba
s tým rozdielom, že „teplo“ je posilnenie a „zima“ je, keď posilnenie
nepríde – zviera sa tak postupne po malých krokoch približuje k cieľovému správaniu.
Pomer posilnení teda nie je náhodný, ale o tom, či zvieraťu posilnenie
dáme, rozhoduje to, či pri vykonaní správania splní určité kritérium (alebo po anglicky „criterion“), čo je nejaká vlastnosť
cviku, ktorý ho učíme (Pryor, 2011). Keď sú zviera aj tréner šikovní, môže to
laickému pozorovateľovi pripadať, že tréner odmeňuje nepretržite každý jeden
pokus – no pravda je taká, že odmeňuje iba stále lepšie a lepšie pokusy
(len po maličkých krokoch).
Poznámka
– prísne teoreticky vzaté, mali by sme rozlišovať diferenciálne posilňovanie
pri tvarovaní nového správania a VR posilňovanie už hotového správania. Teoreticky
by sme mali počas tvarovania odmeňovať kontinuálne (pokrok prichádza tým, že
zviera prirodzene vykoná správanie zakaždým trochu inak a keď je to „inak“
smerom k nášmu cieľu, posilníme to – to je diferenciálne posilňovanie). Bežne
sa však stáva, že zviera skúsi niečo, čo je celkom „mimo“ alebo my nestihneme
na jeho správny pokus zareagovať – tým vzniká prirodzený VR plán posilňovania,
aj keď by sme sa prísne teoreticky mali čo najviac držať kontinuálneho plánu.
Tým vzniká u zvieraťa veľmi jemná frustrácia, troška neistoty, ktorá ho
poženie k väčšej snahe. Je to nevyhnuteľná, prirodzená súčasť procesu
učenia. Avšak používať počas tvarovania nového správania VR plán naschvál takým
spôsobom, aby u zvieraťa vznikla veľká frustrácia – taká, čo vedie k výbuchu
pred vyhasnutím – a následne ju využiť k posilneniu takto umelo
zintenzívnených pokusov, podľa mňa nie je etické. U zvieraťa tým celkom
zbytočne spôsobujeme negatívne emócie, distres, čo je v rozpore so
základnými princípmi tréningu pozitívnou motiváciou – robiť to tak, aby bolo
vždy dodržané maximálne možné welfare zvieraťa2. Viac o zásadách
tvarovania sa dočítate v tomto
článku.
Príklad – rozhodneme sa dvojmesačné
žriebätko naučiť zdvíhať nohy, lebo sa mu majú prvý raz ísť robiť korektúry
kopýtok. Aby sme nemuseli použiť R– (tlak na zdvihnutie nohy), najprv odmeníme (škrabkaním
hrivy) niekoľko ráz to, že sa dotkneme nohy žriebätka vo chvíli, keď ju
spontánne zdvihne. Stanovíme si prvé kritérium – nechať si podržať nohu určitú
dobu, napr. 2 minúty – a pomaličky sa k nemu približujeme – začneme
od 0,5 sekundy a zvyšujeme najprv po sekundách, potom po 3 sekundách, 5, 2,
7, 4, 8, 3, 10... Kritérium nezvyšujeme lineárne, ale občas sa vrátime kúsok
späť a odmeníme opäť aj ľahšiu variantu, obzvlášť ak sa nedarí postúpiť
ďalej (pre pocit bezpečia, istotu úspechu). Po dosiahnutí prvého kritéria si
môžeme stanoviť ďalšie, napr. výšku držania nohy – a opäť začneme od pár
cm nad zemou a len pomaličky nohu dvíhame vyššie. Zároveň dočasne zľavíme
z prvého kritéria (výdrže), aby to bolo zvládnuteľné. Po dosiahnutí
druhého kritéria opätovne môžeme zdvihnúť hore aj prvé kritérium (už požadujeme
aj dostatočne vysoké držanie nohy, aj
opäť postupne zvýšime dobu držania). Ešte môžeme nacvičiť ďalšie kritériá, ako
je akceptovanie ošetrenia kopýt škrabákom, kopytným nožom, rašpľou,
kliešťami... Zároveň však musíme opäť dočasne zľaviť z výdrže a výšky
držania kopýtka. Toto sa samozrejme nedá zvládnuť v jednej lekcii,
obzvlášť nie u žriebäťa. Budeme potrebovať viac kratučkých, párminútových
lekcií.
Poverčivé správanie
Keď Skinner experimentoval s plánmi
posilňovania, napadlo ho, čo by sa stalo, keby zvieratá odmeňoval bez ohľadu na
to, aké správanie vykonávajú (vo fixnom / premenlivom čase). Pri týchto
pokusoch s holubmi získal prekvapivé výsledky – každý holub si časom
vyvinul vlastné poverčivé správanie – to, ktoré robil tesne predtým, ako dostal
potravu. A ako vieme, posilňované správanie je stále silnejšie. V tomto
scenári je povera obzvlášť posilňovaná tým, že potrava prichádza
nepredvídateľne. Ľudia sú majstri v poverčivosti, od smiešnych tikov
športovcov, cez rôzne tradičné rituály, kulty a náboženstvá, až po obsesívne-kompulzívnu
poruchu. V tréningu sa nám tiež môže stať, že nechtiac dáme zvieraťu posilnenie
v nevhodnej chvíli – môže stačiť, že sa to stane 2-3x a povera je na
svete. Bohužiaľ povery sú veľmi odolné voči vyhasnutiu, takže väčšinou sa
musíme vrátiť niekoľko krokov dozadu, do úrovne správania pred vznikom povery a natvarovať
ho odznova, čo môže nejaký čas trvať a zviera bude chvíľu frustrované
(výbuch pred vyhasnutím povery). Takže si treba dávať dobrý pozor na to, čo,
kedy a ako posilníme.
Použité zdroje a literatúra:
Plháková,
A. (2003). Obecná psychologie. Praha:
Academia.
Späť na Teóriu
učenia
Späť na Tréning pozitívnou
motiváciou