BIG DATA VELIKA I VAŽNA TEMA

Business&IT | Business&IT-br.2 | Offtopic

Volumen digitalnih sadržaja koji zasipaju savremeno preduzeće i pojedinca raste takvom brzinom da se pitanje prikupljanja, klasifikacije, skladištenja i statističke obrade tih sadržaja postavlja kao prvorazredan poslovni, a ne samo tehnički problem

Važnost ovog problema za poslovanje proističe iz činjenice da su za preduzeće svi ti prikupljeni sadržaji potencijalno korisni. Zapravo, oni predstavljaju jedan od osnovnih resursa koji preduzeću omogućava pouzdano planiranje i upravljanje poslovanjem. Koncept upravljanja na osnovu podataka i njihove statističke obrade odavno je trijumfovao nad prethodno korišćenim intuitivnim tehnikama (pri tome ne sumnjamo u vrednost intuicije edukovanog menadžera!). S obzirom na uvodnu konstataciju o porastu volumena, moglo bi se pomisliti da preduzeće samim rastom obima sadržaja koje obrađuje postaje „bogatije“. Možda bi ova tvrdnja imala nekog smisla da se ovo ne događa svima – hteli ne hteli. Korist za sebe iz ove digitalne revolucije mogu da izvuku samo oni koji su sposobni da ovim sadržajima efikasno upravljaju i da iz njih izvuku zaključke koji vode ispravnim poslovnim odlukama. Da bi se preduzeće (i pojedinac!) osposobilo za ovo novo doba, neophodno je da savlada nove tehnike prikupljanja, obrade i postupaka izvlačenja korisnih i pouzdanih zaključaka korišćenjem statističkih metoda i alata. Takođe, da u potrazi za korisnim sadržajima „zaviri“ izvan granica sopstvenog preduzeća: na internet. A tamo tek počinju stvarni problemi…

Zašto tehnički? Da citiramo [druga] Lenjina: kvantitet je sam po sebi kvalitet. Dakle, ne možete naraslim volumenom raznovrsnih digitalnih sadržaja upravljati korišćenjem starih tehnika i alata. Nije dovoljno da proširite, na primer, sistem za skladištenje podataka novim diskovima (uzgred rečeno, danas vrlo jeftinim).

Problem kroz primere

Jedno od vodećih proizvodnih preduzeća u Srbiji naručilo je od COMING‑a analizu sadržaja kojim mora da upravlja, predlog implementacije platforme za upravljanje i predikciju rasta u narednih nekoliko godina. Rezultati: volumen sadržaja se od 1992. godine do danas povećao više od 100.000 puta (!) – na preko 100 TB. Komentar: ništa se u tom preduzeću u poslednjih 20 godina nije uvećalo po toj stopi! Više od 80% sadržaja je nestrukturirano ili polustrukturirano – pre dvadesetak godina bilo je obrnuto. Multimedijalni sadržaji rastu daleko najbrže, a pre dvadesetak godina ih praktično nije bilo… Zaključak: postojeće tehnike neadekvatne su, pre svega u domenu „izvlačenja“ korisnih informacija iz prikupljenih sadržaja. Takođe, izuzetno je teško upravljati životnim ciklusom podataka (sadržaja) i obezbediti poštovanje rastućeg broja zakona i drugih akata koji regulišu postupke, prava korišćenja, verodostojnost i rokove čuvanja sadržaja.

Prethodno navedeni primer se, pri tom, nije bavio najbrže rastućim izvorom sadržaja: podacima automatski prikupljenim sa senzora (proizvodnih mašina, logističkih uređaja i sl.), iz drugih uređaja (log‑fajlovi – dnevnici), ponašanja korisnika internet sajtova (tzv. click stream analiza). Uključivanje ovih podataka u standardni set sadržaja više nije samo potrebno već u mnogim slučajevima i obavezno (na primer: dokazivanje sledljivosti u proizvodnji, poštovanja/narušavanja prava pristupa i slično).

Drugi primer: COMING‑ov projekat implementacije nove aplikacione/informacione infrastrukture u jednom od vodećih ruskih maloprodajnih lanaca, specijalizovanih za modnu industriju. Obim transakcija na nivou godine u POS sistemu (na kasama u prodavnici): 150.000.000 računa s prosečno 3 kupljena proizvoda – 500.000.000 prodatih jedinica u toku godine! Ukupno oko 300.000 SKU! Pri tom sve transakcije moraju ostati zapamćene, ne samo u toku finansijske godine veće stalno (na neograničeno vreme!). Ovaj sadržaj koristi se za planiranje nabavke i snabdevanja prodavnica i mora da funkcioniše u realnom vremenu. Dakle, sposobnost preduzeća da planira i izvršava logističke operacije bez kašnjenja uslov je daljeg razvoja, ako ne i opstanka biznisa – konkurencija radi isto.

Naravno, ovo nisu nikakvi izuzeci. Navedeni problem uočen je globalno pre više godina, a tehnike njegovog savlađivanja danas se opštim imenom nazivaju: Big Data – prevod nije nužan.

Šta umesto tradicionalnih rešenja?

Sam pojam je vrlo širok i ovde se nećemo baviti njegovim definisanjem. Ukazaćemo samo na neke aspekte i tehnike koje mogu da donesu značajne koristi onima koji ih praktikuju.

Prvi primer, koji ukazuje na rast volumena nestrukturiranih sadržaja i sadržaja koji se automatski prikupljaju sa raznih uređaja i interneta, zapravo je povezan s tehnikama obrade koje su se poslednjih godina pojavile: baze podataka za nestrukturirane saržaje i njihovu obradu. Uobičajeno je da se takve tehnike nazivaju NoSQL, mada se često kombinuju sa standardnim alatima za obradu koji su u upotrebi već više desetina godina (SQL) i nazivaju se NewSQL. Takođe, alati su prilogođeni, kako zbog ogromnog volumena i zahtevanih performansi, tako i zbog potrebe de se obezbedi otpornost prema otkazivanju, takozvanoj distribuiranoj obradi podataka (Google map‑reduce paradigma i Hadoop kao otvorena platforma). Ove nove tehnike postavile su brojne izazove pred tradicionalno korišćene proizvode, koji nisu u stanju da pruže odgovor u pogledu volumena i performansi (a da ne govorimo o ceni!). S druge strane, od korisnika se zahtevaju nova znanja i investicije. Nije čudo što se kao odgovor pojavio čitav niz isporučilaca koji usluge obrade i čuvanja podataka pružaju u oblaku računara (o ovoj paradigmi pisali smo detaljno u prethodnom broju). Na ovaj način se u ogromnoj meri smanjuje volumen novih znanja kojima preduzeće‑korisnik mora da ovlada i potpuno se eliminišu početne investicije. Naravno, ove usluge imaju svoju cenu, koja, rekli bismo, pod pritiskom konkurencije postaje sve razumnija i sve privlačnija.

Drugi primer ukazuje na ogroman volumen strukturiranih sadržaja (POS transakcije). Tradicionalna rešenja ni ovde nisu dovoljno dobra. S jedne strane, ona vode složenoj arhitekturi rešenja (čitaj: visokoj ceni implementacije i održavanja), a s druge strane ne obezbeđuju mogućnost upravljanja poslovanjem u realnom vremenu. Drugim rečima: daj mi rezultat odmah, u roku od nekoliko sekundi! Možda ovo nije neophodno, pod uslovom da je konkurencija još sporija od vas. Tehničkim žargonom rečeno, ovde se radi o konvergenciji OLTP (transakcionih) i analitičkih sistema (OLAP) u jedinstvenu platformu, sposobnu da obezbedi bilo koji tip obrade podataka u realnom vremenu.

Jedno radikalno novo rešenje/platforma koja se pojavila kao odgovor na rastući volumen transakcionih i polustrukturiranih (tekstualnih) podataka je SAP HANA – koja koristi niz standardnih industrijskih servera kao osnovu za upravljanje bazama podatka (veličine koja se meri stotinama terabajta) i njihovu statističku obradu (integracija sa otvorenom statističkom plaformom „R“). SAP je HANA platformu napravio tako što je iz temelja izgradio novo rešenje.

Naravno, ni konkurencija ne ostaje dužna – pomenućemo samo novo izdanje Microsoft SQL Server 2014 platforme i mogućnost upravljanja bazama podataka potpuno uskladištenim u operativnoj memoriji servera. O HANA plaformi i drugim naprednim tehnikama biće reči u narednim brojevima, jer radi se o temeljnim promenama paradigme, poput virtuelizacije i cloud computing‑a.

Naučna obrada podataka

Da bi se nove platforme koje korisnicima stoje na raspolaganju (kao sopstvene ili iznajmljene u oblaku računara) mogle uspešno koristiti, neophodan je još jedan sastavni element: statistički način razmišljanja (staistical thinking/learning). Drugim rečima, korišćenje naprednih alata (ili najam usluga statističke obrade) koji omogućavaju klasifikaciju i izvlačenje korisnih informacija iz ogromnih skupova podataka (data mining), korišćenje stabala odlučivanja, klasterizacije, nadgledanog i nenadgledanog učenja, regresione analize i drugih manje egzotičnih tehnika.

Srećom, nije neophodno da zaposleni u preduzeću postanu profesionalni statističari (iako se sve više traži novo zanimanje: data scientist). Sve je više alata koji su, iako statistički napredni, jednostavni za rukovanje i daju razumljive i odmah upotrebljive rezultate. Pomenuli smo „R“, a dodaćemo i HANA biblioteku za prediktivnu analizu podataka, paket za analitičku obradu podataka iz SAP ERP (AF).

Ovim člankom smo samo zagrebali po površini i otvorili čitav niz tema kojima ćemo se ubuduće baviti, samo s jednim ciljem na umu: da korisnicima prikažemo mogućnosti koje im stoje na raspolaganju u ovladavanju lavinom digitalnih sadržaja koji im se svakodnevno sručuju na glavu. Pri tome nije važno samo preživeti (sačuvati i potom pronaći neki sadržaj) već i postati pametniji – izvući iz raspoloživih sadržaja zaključke korisne za upravljanje poslovanjem i pobedu nad konkurentima.

Miroslav Kržić