V ďalších článkoch v sekcii
Teória učenia sa budeme venovať
predovšetkým jednému druhu učenia – operantnému podmieňovaniu (ale spomenieme
aj ďalšie druhy učenia, ktoré nevyhnuteľne pri tréningu prebiehajú tiež).
Schéma operantného podmieňovania:
Správanie – dôsledok, spätná väzba – vyhodnotenie
s využitím minulej skúsenosti – opakovanie / zmena správania.
Ako sme si už povedali, pri
operantnom podmieňovaní sa zviera učí z dôsledkov svojho správania –
a opakuje to správanie, ktoré mu už v minulosti prinieslo úžitok,
úľavu, uspokojenie (pozitívne emócie). Naopak to správanie, ktoré sa ukáže ako
neužitočné či dokonca poškodzujúce (negatívne emócie), časom prestane opakovať.
Hovoríme, že sa riadi spätnou väzbou,
ktorú po každom správaní dostáva (z prostredia, z vlastného tela).
Spätná väzba môže byť teda pozitívna (zviera získa, čo chce alebo sa zbaví
toho, čo nechce) alebo negatívna (zviera dostane niečo, čo nechce alebo mu je
naopak odobrané niečo, čo chce). Pozor však, odlišujeme pozitívnu / negatívnu
spätnú väzbu a motiváciu! O pozitívnu
motiváciu sa jedná iba v prípade, že zviera správaním získa niečo, čo
chce. Ak sa ním zbaví niečoho, čo nechce, dostane niečo, čo nechce alebo je mu
odobraté niečo, čo chce, ide o negatívnu motiváciu! Poďme si to teraz
trochu sprehľadniť a vysvetliť na praktických príkladoch.
Kvadranty operantného podmieňovania.
Poznámka
– aby to bolo ešte komplikovanejšie, tu máme opäť trochu iný význam slov
„pozitívny“ a „negatívny“. V tomto konkrétnom kontexte – trestov
a posilnení – majú výhradne
matematický význam. „Pozitívny“ tu má znamienko „+“ a znamená pridanie
niečoho. „Negatívny“ má znamienko „–“ a znamená odobratie niečoho. Nič
viac. Neoznačuje to pozitívnu / negatívnu spätnú väzbu (tá je v obrázku
rozlíšená zeleným a červeným orámovaním kvadrantov), ani pozitívnu /
negatívnu motiváciu (tá je v obrázku zas vyznačená zelenou a červenou
výplňou kvadrantov).
Pozitívne posilnenie (R+)
Alebo po anglicky „positive
reinforcement“, odtiaľ skratka „R+“. Je to pozitívna spätná väzba pri
operantnom podmieňovaní, pozitívna motivácia. Toto je kvadrant, ktorý vyšiel
z vedeckých štúdií ako najúčinnejší spôsob motivovania zvierat aj ľudí
(Pryor, 2011). Logicky ho v tréningu pozitívnou motiváciou využívame
najviac. Ak ide o pozitívne posilnenie, zviera svojím správaním získa
niečo, čo chce. To uňho vyvolá príjemné emócie a preto sa snaží správanie
vedúce k úspechu zopakovať (Plháková, 2003). Iba R+ je
z neuropsychologického hľadiska pre koňa naozaj odmenou (podrobne sa touto stránkou učenia zaoberám v tomto
článku). Zákon učenia hovorí, že
ak sa správanie opakuje, resp. zintenzívňuje, niečo ho posilňuje (to je už
spomínaný Thorndikov zákon efektu; Plháková, 2003). To si treba uvedomovať nielen
pri učení nových, žiadúcich správaní (ak sa nám nedarí správanie naučiť, nie je
dostatočne posilňované – dávame málo posilnení alebo sme zvolili odmenu, ktorá pre
zviera nie je odmenou), ale aj pri odúčaní správaní nežiadúcich (ak sa nám
nedarí nejaké správanie odučiť, znamená to, že ho stále niečo posilňuje)
(Pryor, 2011).
Príklad z tréningu – kôň sa
dotkne nosom kužeľa a my mu za to dáme koliesko mrkvy alebo ho poškrabkáme
(moment R+; predpokladom pre to, aby to bolo R+, je však samozrejme to, že kôň
má zrovna na mrkvu chuť alebo má rád škrabkanie). Iný príklad, z bežného
života – kôň kopne do dverí boxu vo chvíli, keď sa mu nesie vedro s ovsom,
ošetrovateľ si to nevšimne a vedro mu dá (moment R+). V oboch
príkladoch je veľmi pravdepodobné, že išlo o R+, ak sa správanie začne opakovať
stále častejšie – kôň sa bude dotýkať kužeľa vždy, keď ho uvidí, kopať do dverí
vždy v čase kŕmenia.
Schéma operantného podmieňovania pozitívnym posilňovaním:
Neutrálny podnet (kužeľ), neutrálny emočný stav – správanie
(dotyk kužeľa nosom) – R+, pozitívna spätná väzba (odmena žrádlom) –
vyhodnotenie, pozitívny emočný stav (mňamí) – pozitívny emočný stav, opakovanie
správania (keď sa dotknem kužeľa, dostanem mňamku, kužele sú super!), atď..
Poznámka
– na tomto mieste vás musím dôrazne upozorniť, že úplatok NIE JE pozitívne posilnenie!!! Keď teda niekto povie, že
odmeňovanie koňa za prácu je uplácanie, tak tým hovorí akurát to, že vôbec
nerozumie princípom tréningu pozitívnou motiváciou. Úplatky samozrejme nefungujú. Ani v ľudskom svete, ani
v tom zvieracom. Najprv niečo dať a potom za to očakávať určité
správanie, ide úplne proti akejkoľvek logike a hlavne proti zákonom
učenia. Naopak, najprv potrebujem nejaké správanie a až potom ho môžem
posilniť. Keď to urobíme opačne, zviera tým zväčša stratí motiváciu snažiť sa
o lepšie a lepšie predvedenie cviku – načo by aj, keď svoju odmenu už
dostalo. Resp. sa čoskoro naučí, že ak zaváha, ponúkneme mu viac...
a viac... až napokon dostane úplne všetko a nespraví vôbec nič!
Úplatky teda s tréningom pozitívnou motiváciou nemajú nič spoločné.
Podobne je to aj s lákaním na jedlo
– to tiež nie je R+ a je neefektívne (podrobnejšie sa o lákaní
a jeho úskaliach dočítate v tomto
článku).
Negatívne posilňovanie (R–)
Alebo po anglicky „negative
reinforcement“, odtiaľ skratka „R–“. Je to pozitívna spätná väzba pri
operantnom podmieňovaní, negatívna motivácia. Zviera sa svojím správaním zbaví
niečoho, čo nechce, teda averzívneho podnetu (Plháková, 2003). Tento kvadrant
sa využíva vo výcviku koní už celé tisícročia, tak v tom tradičnom, ako aj
v „prirodzenom“ (prirodzená komunikácia, natural horsemanship, partnership,
Hempflingov prístup, atď.). V tréningu čisto pozitívnou motiváciou nemá
miesto. Sú však aj tréneri, ktorí kombinujú R+ s R–. Záleží na spôsobe
prevedenia a na konkrétnom koňovi, či bude toto kombinovanie vhodné.
Obecne sa dá povedať, že veľmi premotivovaným koňom to môže prospieť, naopak
koňom málo motivovaným, so zlými skúsenosťami s ľuďmi, by som to určite
neodporučila. V NHS sa R– označuje ako „používanie tlaku a uvoľnenia“
– najprv na koňa zapôsobia averzívnym podnetom (ktorý kôň subjektívne musí
vnímať ako nepríjemný, inak by to nefungovalo) a keď vykoná požadované
správanie (uhne tlaku), odstránia ho. Je to efektívny spôsob motivácie, no vždy
najprv obsahuje moment trestu (viď nižšie, P+), čo je veľké riziko. Zviera sa
ľahko dostane do negatívneho emočného stavu, a to nechceme. Dokonca aj pri
správnom používaní R– (tlak sa dávkuje veľmi opatrne, jemne a s dokonalým
načasovaním sa uvoľňuje, postupuje sa po malých krokoch, kôň sa neuvádza do
stresu) toto učenie kôň neprežíva subjektívne príjemne – je to pre neho skôr úľava, návrat z negatívneho
prežívania (spôsobeného P+) do neutrálneho. Najväčšia chyba je, ak cvičiteľ
odstráni nepríjemný podnet neskoro alebo vôbec – to už potom nie je vôbec R–,
ale (s)prosté trestanie so všetkými negatívnymi dôsledkami (viď napr. okopané
kone na verejných jazdiarňach, ktoré absolútne nereagujú na pomôcky holeňami). Bohužiaľ
na svete je len minimum ľudí, ktorí dokážu R– používať správne (a nie, tí
najznámejší horsemani medzi nich teda rozhodne nepatria).
Príklady z tréningu –
napneme oťaže a tým vyvinieme zubadlom nepríjemný tlak na citlivé ďasná
a jazyk koňa (moment P+); aby sa ho zbavil, zastaví (želané správanie)
a vtedy oťaže povolíme (moment R–). Predpokladom pre to, aby to bolo R–,
je to, že subjektívne vnímaná nepríjemnosť tlaku oťaží preváži nad motiváciou
pokračovať v pohybe (napr. cválať za ostatnými koňmi). Ďalším typickým
príkladom použitia R– je naháňanie v kruhovej ohrade. Kôň je bezdôvodne
potrestaný núteným pohybom (P+) a až keď začne vykazovať známky distresu
(olizovať sa, žuť naprázdno, skláňať hlavu... to je považované za želané
správanie, „podriadenie sa“, „rešpekt“), cvičiteľ mu dovolí zastaviť. Ak kôň
k nemu príde a nasleduje ho (ďalšie želané správanie, „dobrovoľné
nasledovanie vodcu“), nemusí ďalej behať (R–). Ak nenasleduje, je opäť
potrestaný behaním (P+). Akonáhle kôň zistí, že nasledovaním človeka sa zbaví
naháňania, bude ho nasledovať stále častejšie. Nie je to teda vôbec
o nadviazaní „prirodzeného vzťahu“, je to prosté učenie negatívnym
posilňovaním. Tento proces sa dá dokonca zreplikovať aj s použitím
obyčajného autíčka na diaľkové ovládanie. Príklad z bežného života – koňa s letnou
vyrážkou všetko svrbí (P+), človek mu do výbehu umiesti veľkú masážnu kefu pre
dobytok, kôň sa o ňu skúsi poškrabať a svrbeniu tým uľaví (R–). Kefa sa veľmi
rýchlo stane vyhľadávaným objektom.
Schéma operantného podmieňovania negatívnym posilňovaním:
Neutrálny emočný stav, pasivita (kôň len tak stojí) – P+,
negatívny emočný stav (kôň je odohnaný bičom) – správanie, negatívny emočný stav (kôň sa
vyľaká, beží, až kým nezačne prejavovať známky stresu, upokojujúce signály) –
R–, pozitívna spätná väzba (vtedy ho človek prestane odháňať) – vyhodnotenie,
neutrálny emočný stav (keď prídem k človeku, prestane ma naháňať, to je
úľava) – pasivita (kôň čaká na podnet zo strany človeka), atď..
Pozitívny trest (P+)
Alebo po anglicky „positive
punishment“, odtiaľ skratka „P+“. Je to negatívna spätná väzba pri operantnom
podmieňovaní, negatívna motivácia. Pozitívne tresty majú bohužiaľ vo výcviku
koní rovnako dlhú tradíciu ako negatívne posilňovanie a v podstate
vždy s nimi idú ruku v ruke – pretože aj keď sa snažíme používať R–
tak jemne a nestresovo, ako sa len dá, ten moment trestu tam jednoducho
vždy musí byť, aby mal kôň snahu niečo urobiť (aby sa ho zbavil). Na druhej
strane je však R– vždy o niečo „lepšie“ než len prosté P+, pretože dáva
zvieraťu šancu nájsť z nepríjemnej situácie východisko (opäť zmienim holene
– pri R– prestane holeň tlačiť ihneď, keď kôň zvýši rýchlosť pohybu; ak však
stále rytmicky koňa „pobádame“, čiže okopávame, kôň nemá z nepríjemných
pocitov žiadnu cestu von, je to P+ a časom sa naučí na holeň vôbec
nereagovať – lebo mu to neprináša žiadnu úľavu). Pri pozitívnom treste kôň
svojím správaním získa niečo, čo nechce. Zákon učenia – trest znižuje
pravdepodobnosť výskytu určitého správania (Plháková, 2003). Kôň sa teda trestaním neučí vhodné správanie – trest mu nehovorí
nič o tom, čo by mal robiť namiesto neželaného správania. Tiež je tu veľký
problém s tým, že trest musí prísť presne vo chvíli, keď zviera vykonáva
správanie, ktoré chcete potrestať – už pri 3-sekundovom oneskorení si zviera
trest s predošlým správaním nespojí. Zato si ho klasickým podmieňovaním
spoľahlivo spojí s vašou osobou, resp. aj s inými okolnosťami (čas,
miesto, nejaký predmet...) a začne sa týmto okolnostiam vyhýbať. A aj keď to stihnete
včas, tak keď tieto okolnosti nebudú prítomné, správanie sa s veľkou
pravdepodobnosťou zopakuje (typicky domáci miláčikovia kradnú jedlo a devastujú
domácnosť iba v neprítomnosti majiteľa). A napokon, trest so sebou
vždy prináša negatívne emočné pozadie, ktoré sa časom môže prehlbovať
a zovšeobecňovať, až zviera upadne buď do naučenej bezmocnosti (pri
systematickom trestaní), alebo do generalizovanej úzkosti či nekontrolovateľnej
obrannej agresie (pri nepredvídateľnom trestaní). Najhoršie na tom je však to,
že bohužiaľ pre trestajúceho je akt trestania pozitívnym posilnením – pre daný
moment nad zvieraťom „zvíťazí“, a tak má následne tendenciu trestať znova
a znova, intenzívnejšie (Plháková, 2003)...
Príklad z tréningu – kôň si
na prechádzke nedovolene odtrhne trs trávy a dostane za to cuknutie do
papule (moment P+). Žranie je v tej chvíli síce prerušené, ale všetci
dobre vieme, že o chvíľu sa kôň zrejme pokúsi o „akciu“ znova. Naučí sa
však bleskovo vyletieť s hlavou hore, keď sa napriahnete, aby ste ho
potiahli – vyhýbať sa trestu. Iný príklad zo života – prehodíte koňovi cez box
deku, on vás však nevidel a náhleho pohybu sa zľakne, vyskočí a udrie
si do niečoho hlavu (P+). Je dosť možné, že od tej chvíle sa bude deky báť. Typicky
týraný kôň sa bojí čohokoľvek, čo pripomína bič, zdvihnutej ruky, lopaty, atď.
Schéma operantného podmieňovania pozitívnym trestaním:
Neznámy emočný stav, správanie
(kôň vystrčí hlavu z boxu) – P+,
negatívna spätná väzba (okoloidúci sa po ňom s krikom zaženie) –
vyhodnotenie, negatívny emočný stav (au, to bolelo, bojím sa) – zastavenie
správania (kôň sa stiahne do boxu), neutrálny emočný stav / možné pretrvávanie
negatívneho emočného stavu – správanie??? (kôň sa nenaučil, ako sa má k okoloidúcim
správať; možno sa už nevystrčí, ale možno sa práveže začne preventívne
zaháňať on na nich...).
Samozrejme, tresty sa v tréningu
(ale aj v bežnom živote) môžu vyskytnúť aj napriek tomu, že ich zámerne
použiť nechceme. Preto treba mať na pamäti aj opačnú formuláciu zákona efektu –
ak sa správanie vyskytuje stále menej,
niečo ho zrejme trestá (alebo je málo posilňované). Ak sme si istí, že
správanie posilňujeme dostatočne, musíme sa poobzerať po možnom „punisher-i“
(teda po niečom, čo zviera „nechtiac“ za správanie trestá a tým ho odrádza
od toho, aby ho opakovalo)1.
Negatívny trest (P–)
Alebo po anglicky „negative
punishment“, odtiaľ skratka „P–“. Je to negatívna spätná väzba v operantnom
podmieňovaní, negatívna motivácia. V tradičnom aj „prirodzenom“ výcviku
koní sa používa často. V tréningu pozitívnou motiváciou sa mu bohužiaľ
tiež nevyhneme, no snažíme sa situácie nastavovať vždy tak, aby sme jeho
použitie mohli čo najviac minimalizovať. Pri negatívnom treste kôň svojím
správaním príde o niečo, čo chce (Plháková, 2003). Sú tu prítomné všetky
riziká ako aj pri P+, teda negatívne emócie, riziko zlého načasovania, spojenie
s nesprávnymi podnetmi, vyhýbavé správanie.
Príklad z tréningu – kôň,
ktorý začína s tréningom pozitívnou motiváciou, ešte nevie, ako sa slušne
správať pri odmeňovaní, takže aby sme nemuseli použiť P+ (alebo dokonca prísť
k úrazu), postavíme sa najprv za ohradu a vo chvíli, keď sa kôň
pokúsi získať odmenu nasilu, jednoducho ustúpime mimo jeho dosah (moment P–).
Keď s nevhodným správaním prestane, odmenu mu dáme (moment R+), spočiatku
napr. do vedra alebo z naberačky, až neskôr z ruky. Príklad zo života
– typicky kôň zažíva P– pri odstavovaní od matky, odvádzaní od ostatných koní z výbehu,
sťahovaní do nového ustajnenia. Tieto zážitky sú sprevádzané silnými
negatívnymi emóciami a môžu vyústiť až do separačnej úzkostnej poruchy.
Schéma operantného podmieňovania negatívnym trestaním:
Neznámy emočný stav, správanie
(kôň sa „zaksichtí“, keď sa mu nesie večera) – P–, negatívna spätná väzba
(ošetrovateľ mu vedro nedá) – vyhodnotenie, negatívny emočný stav (hej, som
hladný, daj to sem!) – zastavenie správania, neutrálny emočný stav / možné
pretrvávanie negatívneho emočného stavu (kôň sa po čase stiahne do boxu) –
správanie??? (kôň sa možno na ďalší pokus už na ošetrovateľa nezaksichtí, ale možno
práve naopak ho bude chcieť ešte viac zastrašiť alebo začne netrpezlivo hrabať).
V tréningu
pozitívnou motiváciou teda používame primárne R+, ostatným kvadrantom sa podľa
možnosti vyhýbame (predchádzame nutnosti ich použitia) a keď už musíme,
použijeme ich čo najkorektnejšie. Aký je najefektívnejší spôsob používania
pozitívneho posilňovania, si povieme v nasledujúcom článku.
Použité zdroje a literatúra:
Plháková,
A. (2003). Obecná psychologie. Praha:
Academia.
Späť na Teóriu učenia
Späť na Tréning pozitívnou
motiváciou