Data mining: Cesta od vyzobávání rozinek k těžbě zlata | EkonTech.cz


Data mining: Cesta od vyzobávání rozinek k těžbě zlata

Technik / big data / data mining
7. 11. 2018 - 12:03

Rozvoj počítačové techniky ve 20. století přinesl nejen nové technologické novinky, ale i nové způsoby sběru dat. Když se získaná data dají do těch správných souvislostí, mohou poskytovat informace, které budou mít cenu zlata. Jenže tak velké množství různorodých dat nešlo zpracovávat dosud známými způsoby statistického zpracování. Proto vznikl nový obor – data mining.

Nejrychleji se rozvíjející technologie v podnikání je data mining

První náznaky aktivit, které dnes označujeme jako data mining, se objevily v 60. letech 20. století a souvisely s rozmachem počítačové techniky. V osmdesátých letech došlo k rozvoji statistických metod, databázových aplikací a umělé inteligence spolu s nárůstem rychlosti a paměti počítačů. Byly to předpoklady, které umožnily v sedmdesátých a osmdesátých letech první systematická využití data miningové metodologie v praxi. Data mining v té době představoval spíše „vyzobávání rozinek” z nepřeberného a nesouvislého množství informací.

Obrat přišel až počátkem 90. let. Vznik nových metod zpracování dat souvisel s potřebou komerčních společností získat cenné informace pro rozvoj svého byznysu. Firmy měly velké objemy cenných dat, ale vzhledem k jejich různorodosti je neuměly zpracovat klasickými metodami. S využitím výpočetní síly počítačů bylo potřeba najít struktury, pravidla a asociace mezi velmi nesourodými daty.

Data mining se tak stal samostatným oborem aplikované vědy s širokým využitím v komerční praxi.  

Data mining neboli dolování dat představuje velmi propracované soubory metod, které pomocí matematických funkcí analyzují velké objemy dat a hledají v nich skryté souvislosti.
V roce 1991 napsal první definici data miningu Andy Frawley (ředitel mezinárodní marketingové agentury EPSILON): „Data mining je netriviální získávání předtím neznámé a potenciálně užitečné informace ukryté v datech.”
Data mining je uznávaným oborem na křižovatce mezi byznysem, matematikou a ademickým výzkumem.

Data mining nemá hranice

Největší uplatnění v praxi získal data mining v komerční sféře. Jeho výsledky slouží například velkým pojišťovnám, supermarketům nebo mobilním operátorům.

Metody data miningu mohou však také sloužit vědeckému výzkumu, například v medicíně, biochemii, genetice a jiných oborech. A dnes se už využívá i v jiných oblastech, třeba při monitorování aktivit na internetu s cílem odhalit činnost potenciálních škůdců a teroristů.

Chaos vyžaduje metodu

Na zpracování Big Dat se používá mnoho různých modelů. Model, tedy způsob zpracování dat, však pro opravdu kvalitní analýzu nestačí.

Vzhledem k riziku chybovosti zpracování u tak velkých a rozličných dat bylo potřeba také sjednotit postup jejich zpracování. V rámci evropského výzkumného projektu s cílem navrhnout univerzální postup, který bude použitelný v nejrůznějších komerčních aplikacích, vznikl CRoss-Industry Standard Proces for Data Mining (CRISP-DM). Jde o standardizovaný proces zpracování Big Dat bez ohledu na obor, z něhož informace pocházejí. Vytvoření metodiky umožnilo řešit rozsáhlé úlohy dobývání dat rychleji, efektivněji, spolehlivěji a s nižšími náklady.

Metodologie popisuje data mining v následujících šesti krocích:

  1. Pochopení problému: porozumění požadavkům zákazníka, jasné stanovení cíle, návrh a tvorba plánu řešení
  2. Porozumění datům: sběr a posouzení dat, vytváření prvních hypotéz, které se v průběhu celého procesu snažíme potvrdit nebo vyvrátit.
  3. Příprava dat: integrace více datových zdrojů, čištění a úprava dat do podoby, kterou vyžadují analytické nástroje a metody.
  4. Modelování: testování vhodných metod a nastavení jejich parametrů pro řešení definovaného problému
  5. Hodnocení: selekce získaných informací, ověření správnosti navržených řešení a vyhodnocení splnění cílů formulovaných při zadání úlohy
  6. Nasazení: výstupy z data miningu se použijí pro řešení problému v praxi. Vzhledem k proměnlivosti získaných dat je třeba výstupy stále aktualizovat a celý proces stále cyklicky opakovat.