Kurekebisha ni muhimu wakati data yako ina mizani tofauti na algoriti unayotumia haileti mawazo kuhusu usambazaji wa data yako, kama vile majirani wa k-karibu zaidi na neural bandia. mitandao. Kusawazisha kunadhania kuwa data yako ina usambazaji wa Gaussian (kengele curve).
Tunapaswa kurekebisha data wakati gani?
Data inapaswa kusawazishwa au kusawazishwa ili kuleta viambajengo vyote kwa uwiano baina ya nyingine. Kwa mfano, ikiwa kigezo kimoja ni kikubwa mara 100 kuliko kingine (kwa wastani), basi modeli yako inaweza kuwa na tabia bora zaidi ikiwa utarekebisha/kusawazisha viambajengo viwili kuwa takriban sawa.
Kuna tofauti gani kati ya kuhalalisha na kusanifisha?
Kurekebisha kwa kawaida humaanisha kupunguza thamani katika safu ya [0, 1]. Kusawazisha kwa kawaida humaanisha uondoaji data kuwa wastani wa 0 na mkengeuko wa kawaida wa 1 (unit variance).
Ni lini na kwa nini tunahitaji urekebishaji wa data?
Kwa maneno rahisi, urekebishaji wa kawaida huhakikisha kuwa data yako yote inaonekana na inasomwa kwa njia ile ile kwenye rekodi zote. Urekebishaji utasawazisha uga ikijumuisha majina ya kampuni, majina ya wasiliani, URL, maelezo ya anwani (mitaa, majimbo na miji), nambari za simu na vyeo vya kazi.
Je, unachagua vipi kuhalalisha na kusawazisha?
Katika ulimwengu wa biashara, "ukawaida" kwa kawaida humaanisha kuwa anuwai ya maadili"ikawaida kuwa kutoka 0.0 hadi 1.0". "Usanifu" kwa kawaida humaanisha kwamba anuwai ya thamani "huwekwa sanifu" ili kupima ni mikengeuko mingapi ya kawaida ambayo thamani imetoka kwa wastani wake.