Urekebishaji ni hutumika kuondoa data isiyohitajika na kuhakikisha kuwa makundi bora yanatolewa ambayo yanaweza kuboresha ufanisi wa kuunganisha algoriti. Kwa hivyo inakuwa hatua muhimu kabla ya kuunganishwa kama umbali wa Euclidean ni nyeti sana kwa mabadiliko ya tofauti[3].
Je, tunahitaji kuhalalisha data ya kuunganisha kwa njia za K?
Kama ilivyo katika mbinu ya k-NN, sifa zinazotumika kwa nguzo lazima zipimwe kwa vitengo vinavyolinganishwa. Katika kesi hii, vitengo sio suala kwani sifa zote 6 zinaonyeshwa kwa mizani ya alama 5. Kusawazisha au kusawazisha si lazima.
Je, unatayarishaje data kabla ya kuunganisha?
Maandalizi ya Data
Ili kufanya uchanganuzi wa nguzo katika R, kwa ujumla, data inapaswa kutayarishwa kama ifuatavyo: Safu mlalo ni uchunguzi (watu binafsi) na safu wima ni viasili. Thamani yoyote inayokosekana katika data lazima iondolewe au ikadiriwe. Data lazima isawazishwe (yaani, kuongezwa alama) ili kufanya vigeu vilingane.
Je, data inapaswa kuongezwa kwa mikusanyiko?
Katika kuunganisha, unakokotoa ulinganifu kati ya mifano miwili kwa kuunganisha data yote ya vipengele kwa mifano hiyo hadi thamani ya nambari. Kuchanganya data ya vipengele kunahitaji kwamba data iwe na mizani sawa.
Kwa nini ni muhimu Kurekebisha vipengele kabla ya kuunganishwa?
Kusawazisha ni hatua muhimu ya Datakuchakata mapema.
Kama ilivyofafanuliwa katika karatasi hii, k-njia hupunguza hitilafu kwa kutumia algoriti ya Newton, yaani algoriti ya uboreshaji kulingana na gradient. Kurekebisha data huboresha muunganisho wa algoriti kama hizo.