Klasterovanje je najčešće prvi korak u istraživanju obimnih podataka (eng. big data). Veliki značaj i primenu pronalazi u obradi složenih podataka koji su karakteristični za finansijske berze. U ovom radu je izvršena klaster analiza na desetogodišnjim istorijskim kretanjima cena akcija 100 kompanija iz 10 privrednih sektora. Na odabrani skup podataka primenjen je algoritam K-means, kojim su kompanije sa sličnim osobinama grupisane u klastere. Rezultati klasterovanja upoređeni su sa pripadnošću kompanija po sektorima kako bi se utvrdilo da li se kompanije iz istog sektora slično ponašaju na tržištu. Drugi deo eksperimentalne analize posvećen je primeni rezultata istraživanja u diverzifikaciji rizika. Pokazano je da se raspoređivanjem investicija po klasterima može ostvariti viši prinos.
UVOD
Klasterovanje ili segmentacija je zadatak koji se ne nadzire tj. ni jedan atribut se ne koristi za vođenje trening procesa već se svi atributi tretiraju kao ulazni. Većina algoritama za klasifikaciju gradi model podataka kroz određen broj iteracija i zaustavlja iteracije kada model konvergira tj. kada se granice ovih segmenata stabilizuju. Klaster analiza vrši se raznim algoritmima koji se razlikuju značajno u njihovoj ideji šta predstavlja klaster i kako efikasno da ih pronađemo. U radu je prikazan algoritam za klaster analizu: K-means.
Osnovni skup podataka za eksperiment su kompanije iz 10 različitih privrednih grana (energetika, osnovni materijali, industrija, potrošna dobra, nepotrošne usluge, finansije, zdravstvo, tehnologija, telekomunikacije, usluge) . U okviru svake privredne grane posmatrano je po 10 vodećih kompanija. Odabir je izvršen prema prinosu. Podaci za svaku kompaniju su desetogodišnje vremenske serije kretanja cena akcija vodećih kompanija u privrednoj grani.
Cilj primene klaster analize u prvom delu istraživačkog rada je utvrđivanje stepena sličnosti između kompanija koje pripadaju istom sektoru. Analizirali smo koje kompanije su se grupisale u klasterima. Drugi deo eksperimenta sproveli smo na osnovu izvršene podele kompanija u klastere – grupe. Vršili smo izbor akcija koje kreiraju portfolio. Donošenje investicionih odluka nije ni malo jednostavan posao i zbog toga naučnici istražuju i razvijaju nove metode.
Nastoji se primenom tehnika za klasterovanje ostvariti veći stepen uspešnosti investicionih odluka uz manja odstupanja, tj. greške modela. Polazi se od hipoteze da se raspodelom ulaganja u akcije kompanija po klasterima u odnosu na modele sa slučajnim tehnikama za izbor ulaganja, ostvaruje diverzifikacija rizika i kreira optimalni portfolio. Eksperimentalni rezultati dobijeni su korišćenjem alata:Python skript jezik za procesiranje podataka i K-means algoritma za klasifikaciju kompanija u klastere.Sledeće poglavlje posvećeno je pregledu relevantne literature. U okviru trećeg poglavlja opisana je klaster analiza i mere za normalizaciju podataka. Eksperimentalni rezultati izloženi su u četvrtom poglavlju.
Istorijski razvoj klaster analize započet je 1939. godine. Kao pionir razvoja navodi se Trion, koji je prvi put upotrebio klasterovanje u analizama podataka. Termin klaster analiza obuhvata niz različitih algoritama i metoda za grupisanje objekata sličnog tipa u odgovarajuće kategorije. Stalni razvoj nauke, informatike, značaja klasifikacije u istraživanjima doprineli su razvoju i porastu značaja ove metode. Značajnija literatura se razvija šezdesetih godina.
Brojne publikacije imaju značajan doprinos u razvoju tehnika klasterovanja i dobijaju široku razmeru u naučnim krugovima, u statistici, analizama podataka i praktičnoj primeni.Postoje različiti načini primene klaster analiza i algoritama za klasterovanje. U svom radu [2] Hartigan je detaljno opisao k-means algoritam. Mogućnosti koje ove tehnike pružaju u analizama su ogromne. Naročito su primenu pronašle statistici, ekonometriji i drugim ekonomskim disciplinama. Naučnik Nanda, Mahnaty i Tiwari predstavili su mogućnosti primene data mininga-a u oblasti ekonomije. Izvršili su grupisanje akcija u klastere. Nakon formiranih klastera akcije su mogle biti odabrane za portfolio.
Cilj rada je bila diverzifikacija rizika. Rezultati analize su pokazali da K-means klaster analiza gradi kompaktnije skupove u odnosu na Kohonenove samoorganizujuće mreže (SOM) i Fuzzy Cmeans algoritam za klasterovanje akcija. Po uzoru na prethodno navedene radove, urađeno je istraživanje opisano u ovom radu. U ekonomiji u oblasti investicionih ulaganja postoji velika količina složenih podataka. Rizik je neizostavni deo berzanskog posla. S tim razlogom se razvija i nauka u pravcu povećanja sigurnosti ulaganja i mogućnosti ostvarenja višeg prinosa od ulaganja.
U našem radu proučavamo dve metode - klasterovanje i slučajni izbor. Na osnovu dve metode se vrši odabir akcija koje će formirati portfolio hartija od vrednosti i vrši se njihovo poređenje sa stanovišta ostvarenog prosečnog prinosa od divdende. Cilj je da se analizom primene klasterovanja dokaže polazna hipoteza o diverzifikaciji rizika berzanskih ulaganja i kreiranju optimalnog portfolia.
Svaki klaster predstavljen je centroidom i svaki objekat se pridružuje najbližem centroidu. Početni izbor centroida je slučajan, a u narednim iteracijama oni se računaju kao aritmetička sredina pripadajućih objekata. Broj klastera se zadaje kao ulazni podatak. Za meru rastojanja korišćeno je Euklidsko rastojanje. U formuli (1), standardna euklidska udaljenost dva objekta X i Y se računa kao kvadratni koren iz sume kvadratnih razlika za sva obeležja Xi, Yi respektivno. Što je manje Euklidsko rastojanje veća je i sličnost posmatranih obeležja – cena akcija kompanija.
Da bi analize mogle da se rade, potrebno je prvo izvršiti uređivanje (preprocesiranje) podataka. Transformacija podataka predstavlja normalizaciju koja ima za cilj da omogući upotrebu ulaznih podataka. Mere za normalizaciju koje su korišćene u radu su: Zero-one, Mean i Init.