Mašinsko učenje (ML, eng. Machine Learning) predstavlja oblast veštačke inteligencije koja se bavi sposobnošću računara da uče iz podataka, odnosno da automatski uvide obrasce u njima.
Postoje dva ključna aspekta inteligencije:
Logika (Sposobnost dedukcije) – Ovo je sposobnost izvođenja zaključaka na osnovu postojećih informacija. Matematika i matematička logika precizno i formalno definišu ovu oblast. Mašinsko učenje nije usmereno ka logičkom rezonovanju, već ka sledećem aspektu:
Učenje iz iskustva (Sposobnost indukcije) – Ovde se fokusiramo na otkrivanje obrazaca na osnovu podataka, što je srž mašinskog učenja. Podaci se smatraju oblikom iskustva koje mašinska inteligencija koristi za formiranje zaključaka.
Jedan od glavnih razloga za primenu mašinskog učenja je obrada velike količine podataka koju čovek ne može efikasno obraditi u realnom vremenu. Takođe, postoje problemi koji su intuitivno jasni ljudima (npr. prepoznavanje objekata na slikama), ali ih je gotovo nemoguće opisati matematički ili algoritamski. Na primer, klasifikacija slika prema tome da li se na njima nalazi mačka može delovati jednostavno, ali precizno formalizovanje tog procesa kroz pravila je veoma kompleksno.
Postoji bliska veza između mašinskog učenja i statistike, jer obe discipline imaju za cilj da izvuku zaključke iz podataka. U statistici koristimo podatke da bismo izvukli zaključke o populaciji, dok u mašinskom učenju koristimo podatke kako bismo napravili predviđanja ili otkrili obrasce.
Mnogi modeli mašinskog učenja su zapravo statistički modeli koji se
optimizuju standardnim statističkim metodama, kao što je metoda
maksimalne verodostojnosti (MMV).
Mnogi jednostavni modeli (Linearna regresija, Logistička regresija,
Mešavina normalnih raspodela, …) su čisti statistički modeli. Postoji i
veliki broj kompleksinijih statističkih modela, koji se koriste u razne
svrhe (Skriveni Markovljevi modeli, Latentna alokacija Dirihlea,
…).
Čak i najsloženiji modeli, poput dubokih neuronskih mreža, nastaju tako
što se nadograđuju na jednostavnije statističke modele i koriste osnovne
statističke i verovatnosne principe pri optimizaciji.
Mi ćemo se na kursu fokusirati na jednostavnijim modelima, sa fokusom na razumevanju modela i savladavanju svih koraka u opštem procesu pravljenja modela mašinskog učenja.
Postoji nekoliko osnovnih pristupa u mašinskom učenju:
Regresija - ciljna promenljiva je numeričkog tipa, najčešće
neprekidna.
Klasifikacija - ciljna promenljiva je kategoričkog tipa.
Primer nadgledanog učenja: Vršimo klasifikaciju rukom pisanih cifara. Prediktore predstavljaju svi pikseli na slici, dok je ciljna promenljiva kategorička sa 10 kategorija.
Primer: Vršimo klasterizaciju (odvajanje podataka u grupe) slika mačaka i pasa, bez podataka o tome koja se životinja nalazi na kojoj slici. Ovde su podaci pikseli sa slike i cilj je da se izdvoje dve grupe slika sa različitim pravilnostima u pikselima.
Standardni proces u mašinskom učenju obuhvata nekoliko koraka:
Jedna od osnovnih metoda u nadgledanom učenju je regresija. Cilj regresije je predviđanje numeričkog tipa.
Mere kvaliteta regresionih modela se koriste pri evaluaciji modela. Kako je osnovni cilj precizna predikcija, prirodno ove meru koriste razliku predviđanja i stvarnih vrednosti. Predviđanje modela nadalje označavamo sa f(X), što ćemo zvati i regresionom funkcijom. Standardne mere kvaliteta regresionog modela uključuju:
Pored MSE, u literaturi se koriste i ekvivalentne mere:
Standardni proces optimizacije regresionog modela, a i generalno modela nadgledanog učenja, jeste minimizacija funkcije gubitka (eng. loss function). Za funkciju gubutika se najčešće koristi MSE. Optimizacija modela preko MAE je otežana zbog činjenice da mera nije diferencijabilna i ne daje jedinstvene minimume.
Jedan od najjednostavnijih i najčešće korišćenih modela u nadgledanom učenju je linearna regresija. Forma modela je:
\[ f(X) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_p x_p \]
U ovom izrazu, \(x_1, x_2, ..., x_p\) predstavljaju prediktore, dok su \(\beta_0, \beta_1, ..., \beta_p\) parametri modela koje treba oceniti. Važno je napomenuti da regresija ostaje linearna čak i kada između prediktora postoji veza, na primer ako je jedan prediktor kvadrat drugog (\(x_2 = x_1^2\)). Ovo je zato što je model linearan u odnosu na parametre (\(\beta_0, \beta_1,\dots,\beta_p\)), a ne nužno u odnosu na prediktore.
Kada imamo samo jedan prediktor, model se naziva prostom linearnom regresijom. U ovom slučaju, regresiona funkcija je oblika:
\[ f(X) = \beta_0 + \beta_1 x_1 \]
Prosta linearna regresija se u praksi mnogo manje koristi. Njena najbitnija osobina jeste lako grafičko predstavljanje modela.
Kao i kod drugih regresionih modela, linearna regresija se optimizuje minimizovanjem srednje kvadratne greške (MSE). Cilj je da se pronađu vrednosti parametara β koje minimizuju zbir kvadrata razlika između predviđenih i stvarnih vrednosti ciljne promenljive.