Kvadranty operantného podmieňovania

V ďalších článkoch v sekcii Teória učenia sa budeme venovať predovšetkým jednému druhu učenia – operantnému podmieňovaniu (ale spomenieme aj ďalšie druhy učenia, ktoré nevyhnuteľne pri tréningu prebiehajú tiež).
  

Schéma operantného podmieňovania:
Správanie – dôsledok, spätná väzba – vyhodnotenie s využitím minulej skúsenosti – opakovanie / zmena správania.

Ako sme si už povedali, pri operantnom podmieňovaní sa zviera učí z dôsledkov svojho správania – a opakuje to správanie, ktoré mu už v minulosti prinieslo úžitok, úľavu, uspokojenie (pozitívne emócie). Naopak to správanie, ktoré sa ukáže ako neužitočné či dokonca poškodzujúce (negatívne emócie), časom prestane opakovať. Hovoríme, že sa riadi spätnou väzbou, ktorú po každom správaní dostáva (z prostredia, z vlastného tela). Spätná väzba môže byť teda pozitívna (zviera získa, čo chce alebo sa zbaví toho, čo nechce) alebo negatívna (zviera dostane niečo, čo nechce alebo mu je naopak odobrané niečo, čo chce). Pozor však, odlišujeme pozitívnu / negatívnu spätnú väzbu a motiváciu! O pozitívnu motiváciu sa jedná iba v prípade, že zviera správaním získa niečo, čo chce. Ak sa ním zbaví niečoho, čo nechce, dostane niečo, čo nechce alebo je mu odobraté niečo, čo chce, ide o negatívnu motiváciu! Poďme si to teraz trochu sprehľadniť a vysvetliť na praktických príkladoch.
  

Kvadranty operantného podmieňovania.

Poznámka – aby to bolo ešte komplikovanejšie, tu máme opäť trochu iný význam slov „pozitívny“ a „negatívny“. V tomto konkrétnom kontexte – trestov a posilnení – majú výhradne matematický význam. „Pozitívny“ tu má znamienko „+“ a znamená pridanie niečoho. „Negatívny“ má znamienko „–“ a znamená odobratie niečoho. Nič viac. Neoznačuje to pozitívnu / negatívnu spätnú väzbu (tá je v obrázku rozlíšená zeleným a červeným orámovaním kvadrantov), ani pozitívnu / negatívnu motiváciu (tá je v obrázku zas vyznačená zelenou a červenou výplňou kvadrantov).

Pozitívne posilnenie (R+)

Alebo po anglicky „positive reinforcement“, odtiaľ skratka „R+“. Je to pozitívna spätná väzba pri operantnom podmieňovaní, pozitívna motivácia. Toto je kvadrant, ktorý vyšiel z vedeckých štúdií ako najúčinnejší spôsob motivovania zvierat aj ľudí (Pryor, 2011). Logicky ho v tréningu pozitívnou motiváciou využívame najviac. Ak ide o pozitívne posilnenie, zviera svojím správaním získa niečo, čo chce. To uňho vyvolá príjemné emócie a preto sa snaží správanie vedúce k úspechu zopakovať (Plháková, 2003). Iba R+ je z neuropsychologického hľadiska pre koňa naozaj odmenou (podrobne sa touto stránkou učenia zaoberám v tomto článku). Zákon učenia hovorí, že ak sa správanie opakuje, resp. zintenzívňuje, niečo ho posilňuje (to je už spomínaný Thorndikov zákon efektu; Plháková, 2003). To si treba uvedomovať nielen pri učení nových, žiadúcich správaní (ak sa nám nedarí správanie naučiť, nie je dostatočne posilňované – dávame málo posilnení alebo sme zvolili odmenu, ktorá pre zviera nie je odmenou), ale aj pri odúčaní správaní nežiadúcich (ak sa nám nedarí nejaké správanie odučiť, znamená to, že ho stále niečo posilňuje) (Pryor, 2011).

Príklad z tréningu – kôň sa dotkne nosom kužeľa a my mu za to dáme koliesko mrkvy alebo ho poškrabkáme (moment R+; predpokladom pre to, aby to bolo R+, je však samozrejme to, že kôň má zrovna na mrkvu chuť alebo má rád škrabkanie). Iný príklad, z bežného života – kôň kopne do dverí boxu vo chvíli, keď sa mu nesie vedro s ovsom, ošetrovateľ si to nevšimne a vedro mu dá (moment R+). V oboch príkladoch je veľmi pravdepodobné, že išlo o R+, ak sa správanie začne opakovať stále častejšie – kôň sa bude dotýkať kužeľa vždy, keď ho uvidí, kopať do dverí vždy v čase kŕmenia.


Schéma operantného podmieňovania pozitívnym posilňovaním:
Neutrálny podnet (kužeľ), neutrálny emočný stav – správanie (dotyk kužeľa nosom) – R+, pozitívna spätná väzba (odmena žrádlom) – vyhodnotenie, pozitívny emočný stav (mňamí) – pozitívny emočný stav, opakovanie správania (keď sa dotknem kužeľa, dostanem mňamku, kužele sú super!), atď..

Poznámka – na tomto mieste vás musím dôrazne upozorniť, že úplatok NIE JE pozitívne posilnenie!!! Keď teda niekto povie, že odmeňovanie koňa za prácu je uplácanie, tak tým hovorí akurát to, že vôbec nerozumie princípom tréningu pozitívnou motiváciou. Úplatky samozrejme nefungujú. Ani v ľudskom svete, ani v tom zvieracom. Najprv niečo dať a potom za to očakávať určité správanie, ide úplne proti akejkoľvek logike a hlavne proti zákonom učenia. Naopak, najprv potrebujem nejaké správanie a až potom ho môžem posilniť. Keď to urobíme opačne, zviera tým zväčša stratí motiváciu snažiť sa o lepšie a lepšie predvedenie cviku – načo by aj, keď svoju odmenu už dostalo. Resp. sa čoskoro naučí, že ak zaváha, ponúkneme mu viac... a viac... až napokon dostane úplne všetko a nespraví vôbec nič! Úplatky teda s tréningom pozitívnou motiváciou nemajú nič spoločné. Podobne je to aj s lákaním na jedlo – to tiež nie je R+ a je neefektívne (podrobnejšie sa o lákaní a jeho úskaliach dočítate v tomto článku).

Negatívne posilňovanie (R–)

Alebo po anglicky „negative reinforcement“, odtiaľ skratka „R–“. Je to pozitívna spätná väzba pri operantnom podmieňovaní, negatívna motivácia. Zviera sa svojím správaním zbaví niečoho, čo nechce, teda averzívneho podnetu (Plháková, 2003). Tento kvadrant sa využíva vo výcviku koní už celé tisícročia, tak v tom tradičnom, ako aj v „prirodzenom“ (prirodzená komunikácia, natural horsemanship, partnership, Hempflingov prístup, atď.). V tréningu čisto pozitívnou motiváciou nemá miesto. Sú však aj tréneri, ktorí kombinujú R+ s R–. Záleží na spôsobe prevedenia a na konkrétnom koňovi, či bude toto kombinovanie vhodné. Obecne sa dá povedať, že veľmi premotivovaným koňom to môže prospieť, naopak koňom málo motivovaným, so zlými skúsenosťami s ľuďmi, by som to určite neodporučila. V NHS sa R– označuje ako „používanie tlaku a uvoľnenia“ – najprv na koňa zapôsobia averzívnym podnetom (ktorý kôň subjektívne musí vnímať ako nepríjemný, inak by to nefungovalo) a keď vykoná požadované správanie (uhne tlaku), odstránia ho. Je to efektívny spôsob motivácie, no vždy najprv obsahuje moment trestu (viď nižšie, P+), čo je veľké riziko. Zviera sa ľahko dostane do negatívneho emočného stavu, a to nechceme. Dokonca aj pri správnom používaní R– (tlak sa dávkuje veľmi opatrne, jemne a s dokonalým načasovaním sa uvoľňuje, postupuje sa po malých krokoch, kôň sa neuvádza do stresu) toto učenie kôň neprežíva subjektívne príjemne – je to pre neho skôr úľava, návrat z negatívneho prežívania (spôsobeného P+) do neutrálneho. Najväčšia chyba je, ak cvičiteľ odstráni nepríjemný podnet neskoro alebo vôbec – to už potom nie je vôbec R–, ale (s)prosté trestanie so všetkými negatívnymi dôsledkami (viď napr. okopané kone na verejných jazdiarňach, ktoré absolútne nereagujú na pomôcky holeňami). Bohužiaľ na svete je len minimum ľudí, ktorí dokážu R– používať správne (a nie, tí najznámejší horsemani medzi nich teda rozhodne nepatria).

Príklady z tréningu – napneme oťaže a tým vyvinieme zubadlom nepríjemný tlak na citlivé ďasná a jazyk koňa (moment P+); aby sa ho zbavil, zastaví (želané správanie) a vtedy oťaže povolíme (moment R–). Predpokladom pre to, aby to bolo R–, je to, že subjektívne vnímaná nepríjemnosť tlaku oťaží preváži nad motiváciou pokračovať v pohybe (napr. cválať za ostatnými koňmi). Ďalším typickým príkladom použitia R– je naháňanie v kruhovej ohrade. Kôň je bezdôvodne potrestaný núteným pohybom (P+) a až keď začne vykazovať známky distresu (olizovať sa, žuť naprázdno, skláňať hlavu... to je považované za želané správanie, „podriadenie sa“, „rešpekt“), cvičiteľ mu dovolí zastaviť. Ak kôň k nemu príde a nasleduje ho (ďalšie želané správanie, „dobrovoľné nasledovanie vodcu“), nemusí ďalej behať (R–). Ak nenasleduje, je opäť potrestaný behaním (P+). Akonáhle kôň zistí, že nasledovaním človeka sa zbaví naháňania, bude ho nasledovať stále častejšie. Nie je to teda vôbec o nadviazaní „prirodzeného vzťahu“, je to prosté učenie negatívnym posilňovaním. Tento proces sa dá dokonca zreplikovať aj s použitím obyčajného autíčka na diaľkové ovládanie. Príklad z bežného života – koňa s letnou vyrážkou všetko svrbí (P+), človek mu do výbehu umiesti veľkú masážnu kefu pre dobytok, kôň sa o ňu skúsi poškrabať a svrbeniu tým uľaví (R–). Kefa sa veľmi rýchlo stane vyhľadávaným objektom.


Schéma operantného podmieňovania negatívnym posilňovaním:
Neutrálny emočný stav, pasivita (kôň len tak stojí) – P+, negatívny emočný stav (kôň je odohnaný bičom)  – správanie, negatívny emočný stav (kôň sa vyľaká, beží, až kým nezačne prejavovať známky stresu, upokojujúce signály) – R–, pozitívna spätná väzba (vtedy ho človek prestane odháňať) – vyhodnotenie, neutrálny emočný stav (keď prídem k človeku, prestane ma naháňať, to je úľava) – pasivita (kôň čaká na podnet zo strany človeka), atď..

Pozitívny trest (P+)

Alebo po anglicky „positive punishment“, odtiaľ skratka „P+“. Je to negatívna spätná väzba pri operantnom podmieňovaní, negatívna motivácia. Pozitívne tresty majú bohužiaľ vo výcviku koní rovnako dlhú tradíciu ako negatívne posilňovanie a v podstate vždy s nimi idú ruku v ruke – pretože aj keď sa snažíme používať R– tak jemne a nestresovo, ako sa len dá, ten moment trestu tam jednoducho vždy musí byť, aby mal kôň snahu niečo urobiť (aby sa ho zbavil). Na druhej strane je však R– vždy o niečo „lepšie“ než len prosté P+, pretože dáva zvieraťu šancu nájsť z nepríjemnej situácie východisko (opäť zmienim holene – pri R– prestane holeň tlačiť ihneď, keď kôň zvýši rýchlosť pohybu; ak však stále rytmicky koňa „pobádame“, čiže okopávame, kôň nemá z nepríjemných pocitov žiadnu cestu von, je to P+ a časom sa naučí na holeň vôbec nereagovať – lebo mu to neprináša žiadnu úľavu). Pri pozitívnom treste kôň svojím správaním získa niečo, čo nechce. Zákon učenia – trest znižuje pravdepodobnosť výskytu určitého správania (Plháková, 2003). Kôň sa teda trestaním neučí vhodné správanie – trest mu nehovorí nič o tom, čo by mal robiť namiesto neželaného správania. Tiež je tu veľký problém s tým, že trest musí prísť presne vo chvíli, keď zviera vykonáva správanie, ktoré chcete potrestať – už pri 3-sekundovom oneskorení si zviera trest s predošlým správaním nespojí. Zato si ho klasickým podmieňovaním spoľahlivo spojí s vašou osobou, resp. aj s inými okolnosťami (čas, miesto, nejaký predmet...) a začne sa týmto okolnostiam vyhýbať. A aj keď to stihnete včas, tak keď tieto okolnosti nebudú prítomné, správanie sa s veľkou pravdepodobnosťou zopakuje (typicky domáci miláčikovia kradnú jedlo a devastujú domácnosť iba v neprítomnosti majiteľa). A napokon, trest so sebou vždy prináša negatívne emočné pozadie, ktoré sa časom môže prehlbovať a zovšeobecňovať, až zviera upadne buď do naučenej bezmocnosti (pri systematickom trestaní), alebo do generalizovanej úzkosti či nekontrolovateľnej obrannej agresie (pri nepredvídateľnom trestaní). Najhoršie na tom je však to, že bohužiaľ pre trestajúceho je akt trestania pozitívnym posilnením – pre daný moment nad zvieraťom „zvíťazí“, a tak má následne tendenciu trestať znova a znova, intenzívnejšie (Plháková, 2003)...

Príklad z tréningu – kôň si na prechádzke nedovolene odtrhne trs trávy a dostane za to cuknutie do papule (moment P+). Žranie je v tej chvíli síce prerušené, ale všetci dobre vieme, že o chvíľu sa kôň zrejme pokúsi o „akciu“ znova. Naučí sa však bleskovo vyletieť s hlavou hore, keď sa napriahnete, aby ste ho potiahli – vyhýbať sa trestu. Iný príklad zo života – prehodíte koňovi cez box deku, on vás však nevidel a náhleho pohybu sa zľakne, vyskočí a udrie si do niečoho hlavu (P+). Je dosť možné, že od tej chvíle sa bude deky báť. Typicky týraný kôň sa bojí čohokoľvek, čo pripomína bič, zdvihnutej ruky, lopaty, atď.


Schéma operantného podmieňovania pozitívnym trestaním:
Neznámy emočný stav, správanie (kôň vystrčí hlavu  z boxu) – P+, negatívna spätná väzba (okoloidúci sa po ňom s krikom zaženie) – vyhodnotenie, negatívny emočný stav (au, to bolelo, bojím sa) – zastavenie správania (kôň sa stiahne do boxu), neutrálny emočný stav / možné pretrvávanie negatívneho emočného stavu – správanie??? (kôň sa nenaučil, ako sa má k okoloidúcim správať; možno sa už nevystrčí, ale možno sa práveže začne preventívne zaháňať on na nich...).

Samozrejme, tresty sa v tréningu (ale aj v bežnom živote) môžu vyskytnúť aj napriek tomu, že ich zámerne použiť nechceme. Preto treba mať na pamäti aj opačnú formuláciu zákona efektu – ak sa správanie vyskytuje stále menej, niečo ho zrejme trestá (alebo je málo posilňované). Ak sme si istí, že správanie posilňujeme dostatočne, musíme sa poobzerať po možnom „punisher-i“ (teda po niečom, čo zviera „nechtiac“ za správanie trestá a tým ho odrádza od toho, aby ho opakovalo)1.

Negatívny trest (P–)

Alebo po anglicky „negative punishment“, odtiaľ skratka „P–“. Je to negatívna spätná väzba v operantnom podmieňovaní, negatívna motivácia. V tradičnom aj „prirodzenom“ výcviku koní sa používa často. V tréningu pozitívnou motiváciou sa mu bohužiaľ tiež nevyhneme, no snažíme sa situácie nastavovať vždy tak, aby sme jeho použitie mohli čo najviac minimalizovať. Pri negatívnom treste kôň svojím správaním príde o niečo, čo chce (Plháková, 2003). Sú tu prítomné všetky riziká ako aj pri P+, teda negatívne emócie, riziko zlého načasovania, spojenie s nesprávnymi podnetmi, vyhýbavé správanie.

Príklad z tréningu – kôň, ktorý začína s tréningom pozitívnou motiváciou, ešte nevie, ako sa slušne správať pri odmeňovaní, takže aby sme nemuseli použiť P+ (alebo dokonca prísť k úrazu), postavíme sa najprv za ohradu a vo chvíli, keď sa kôň pokúsi získať odmenu nasilu, jednoducho ustúpime mimo jeho dosah (moment P–). Keď s nevhodným správaním prestane, odmenu mu dáme (moment R+), spočiatku napr. do vedra alebo z naberačky, až neskôr z ruky. Príklad zo života – typicky kôň zažíva P– pri odstavovaní od matky, odvádzaní od ostatných koní z výbehu, sťahovaní do nového ustajnenia. Tieto zážitky sú sprevádzané silnými negatívnymi emóciami a môžu vyústiť až do separačnej úzkostnej poruchy.


Schéma operantného podmieňovania negatívnym trestaním:
Neznámy emočný stav, správanie (kôň sa „zaksichtí“, keď sa mu nesie večera) – P–, negatívna spätná väzba (ošetrovateľ mu vedro nedá) – vyhodnotenie, negatívny emočný stav (hej, som hladný, daj to sem!) – zastavenie správania, neutrálny emočný stav / možné pretrvávanie negatívneho emočného stavu (kôň sa po čase stiahne do boxu) – správanie??? (kôň sa možno na ďalší pokus už na ošetrovateľa nezaksichtí, ale možno práve naopak ho bude chcieť ešte viac zastrašiť alebo začne netrpezlivo hrabať).

V tréningu pozitívnou motiváciou teda používame primárne R+, ostatným kvadrantom sa podľa možnosti vyhýbame (predchádzame nutnosti ich použitia) a keď už musíme, použijeme ich čo najkorektnejšie. Aký je najefektívnejší spôsob používania pozitívneho posilňovania, si povieme v nasledujúcom článku.

Použité zdroje a literatúra:
Plháková, A. (2003). Obecná psychologie. Praha: Academia.
Pryor, K. (2011). Svého psa nestřílejte. Praha: Práh.
1: clickertraining.com


Späť na Teóriu učenia