GMDH algoritmi za Weka-u, paket za strojno učenje
Suvremeni informacijski sustavi omogućuju brzu akviziciju ogromnih količina podataka. Relevantne informacije često su skrivene iza kompleksnih i neočitih zakonitosti u podacima. Otkrivanje znanja u bazama podataka (engl. data mining) je netrivijalna ekstrakcija prethodno nepoznatih i potencijalno korisnih informacija iz podataka, sa brojnim primjenama. Naime, na otkrivenim odnosima i obrascima temelji se donošenje odluka u sve širem području ljudske djelatnosti: poslovnom i proizvodnom sektoru (npr. makroekonomskim projekcijama, gospodarskim predikcijama, marketingu, market basket analysis), znanosti (npr. bioinformatika, medicina) i inženjerstvu (npr. biomedicina, analiza prometa, text mining, Web mining). Weka je skup alata za strojno učenje razvijen u Java programskom jeziku koji je zbog svojeg opsega, open-source filozofije i platformske portabilnosti izgradio zavidno veliku zajednicu korisnika i u akademskoj i u komercijalnoj domeni te je time de facto postao standard za otkrivanje znanja. Primarni cilj projekta je upotpuniti Weka-inu kolekciju regresijskih algoritama (neuronske mreže, SVM, regresijska stabla) GMDH algoritmima (Group Method of Data Handling) [Ivakhnenko (1967)]. Izvorna GMDH mreža niskoparametarska je, sa svojstom samoorganiziranja strukture te se može algebarski reprezentirati rekurzivno, u obliku ugnježđenih polinoma. GMDH algoritmi bit će implementirani u skladu sa arhitekturom Weka programskog paketa te će operirati nad Weka standardnim tipovima podataka i datoteka. Dodatno, razvit ćemo programski paket za interaktivnu vizualizaciju GMDH mreže, radi jednostavnije prezentacije rezultata, kao i približavanja internih mehanizama GMDH algoritama korisniku. Na Web stranici projekta, uz teorijske i sadržaje vezane uz razvijene pakete, bit će dostupni i primjeri, primjene GMDH paketa na stvarne regresijske probleme iz dvaju raznorodnih područja - termodinamike i računalne kemije.