Reinforcement Learning (RL) inapewa mfumo wa thawabu na adhabu. Mafunzo ya kuimarisha ni mapana zaidi kuliko mafunzo ya kufuatiliwa au yasiyosimamiwa ili kufikia lengo au kupata tu kutoka kwa motisha na adhabu kutokana na kuwasiliana na mazingira.
Ni aina gani ya zawadi na adhabu hutolewa kama mrejesho?
Ya kwanza ni maoni ya tathmini kama uimarishaji, ambapo zawadi na adhabu hutumiwa kuunda tabia ya mwanafunzi kupitia mbinu za ujifunzaji za kuimarisha.
Aina gani za malipo na adhabu?
Sasa hebu tuunganishe maneno haya manne: uimarishaji chanya, uimarishaji hasi, adhabu chanya, na adhabu hasi (Jedwali 1). Kitu kinaongezwa ili kuongeza uwezekano wa tabia. Kitu kinaongezwa ili kupunguza uwezekano wa tabia fulani.
Ni aina gani ya mafunzo ambayo yanatokana na mbinu ya malipo na adhabu?
Kwa hakika, bila kuchakata kwa uangalifu, watu binafsi hujifunza kuhusu zawadi na thamani ya adhabu ya kila muktadha na shughuli. Michakato hii ya mafunzo associative, kwa upande wake, huathiri uwezekano kwamba watu binafsi watashiriki tena katika shughuli kama hizo au kutafuta muktadha huo.
Zawabu na adhabu huathiri vipi kujifunza?
Kwa ujumla, tumeona athari ndogo ya zawadi kwa kujifunza au kubaki. Adhabu haikuwa na athari kwa uhifadhi wa ujuzi, lakini ilikuwa na maana,athari zinazotegemea kazi katika kujifunza. Katika adhabu ya SRTT kasi iliyoboreshwa yenye athari ndogo kwenye usahihi. Kinyume chake, utendakazi uliharibika wa adhabu kwenye FTT.