Home Credit analyzuje Big Data díky nejmodernějším technologiím i s pomocí studentů

27. 11. 2018 - 10:37

Mnozí z vás si možná myslí, že Home Credit je malá česká firma, která se zabývá jen nudnými úvěrovými operacemi a pro technicky založené lidi není dost cool, nepředstavuje žádnou výzvu. O tom, že jde o velký omyl, jsme si povídali s ředitelem R&D týmu v pražském sídle skupiny Home Credit Lubomírem Hanuskem a studentem Yigitem Kayabasim, účastníkem HC net programu pro studentské talenty.

Skupina Home Credit působí už globálně: v Evropě, Asii, ale také v USA. Jde však o českou firmu, s českými vlastníky a českým podnikatelským duchem. Sami sebe nazývají technologicky drajvovanou firmou, protože hodně investují, aby byli na špičce v oblasti technologií. Dobře si totiž uvědomují, že technologický náskok nakonec rozhodne o jejich dlouhodobé úspěšnosti.

Ve výzkumu a vývoji v oblasti Big Dat chceme být nejlepší

Co pro Home Credit znamenají Big Data?

Daloby se říci, že Big Data pro nás mají dvě dimenze. Za prvé zpracováváme desítky milionů záznamů, neboť za jediný měsíc naše společnost poskytne několik milionů úvěrů (většinu, aspoň prozatím, v Číně). Druhou dimenzí jsou informace, které máme ke každému úvěru k dispozici. V Číně třeba vedle interních dat nakupujeme dalších padesát externích datových zdrojů, z nichž ten největší je nám schopen dodat ke každému úvěru téměř padesát tisíc atributů. Jsou to anonymizovaná nestrukturovaná data, ale když si s nimi poradíte, umožní vám daleko přesněji identifikovat schopnost klienta splácet, a tedy řídit rizikovost poskytovaných úvěrů.

Na jakých projektech dnes pracujete?

Jedním z těch nejdůležitějších je vyhledávání nových datových zdrojů. Vizí je, aby klient dodal pouze své identifikační údaje, a my si už sami poradíme s tím, co potřebujeme ke schválení úvěru. Odpadne tak zdlouhavé vyplňování uvěrových žádostí. Rozhodnutí o schválení je pak už otázkou minut. Vše probíhá digitálně, automaticky.

Dalším velmi zajímavým projektem je tzv. „Automated Feature Engineering“, tj. algoritmus, který je schopen analyzovat data v jejich původní podobě, aniž by je musel náš analytik („data cruncher“) manuálně transformovat do podoby vhodné pro statistické nástroje. Očekáváme od toho výrazné zkrácení doby vývoje modelu pro hodnocení bonity klientů, a to až o několik týdnů, zvláště u nových datových zdrojů. Dalším očekáváním je pak výrazně vyšší prediktivní schopnost našich modelů (tzv. „scoringu“). Projekt je velmi inovativní, zkoušíme i využití tzv. konvolučních neuronových sítí. Samozřejmostí u nás v týmu je testování nových prediktivních algoritmů a softwarů. Tým se snaží být ve výzkumu a vývoji prediktivních modelů nejlepší na světě. Nejsme zas až tak přehnaně sebevědomí; máme o tom důkazy...

Pro takové projekty je jistě třeba dobrá infrastruktura. Jaké technologie používáte pro správu dat?

Jako datové úložiště naše skupina nově zavádí technologie postavené nad Hadoopem, které kromě vyšší škálovatelnosti umožní uchovávat i nestrukturovaná data (skeny dokumentů, záznamy hovorů z call center...). Některé algoritmy pak vyžadují i speciální HW, který je vybaven jednotkami GPU (grafické karty – pozn. redakce). Pro rychlou vizualizaci dat jsme si vybrali Tableau, které v reálném čase umožní interaktivně analyzovat miliardy záznamů. Velice podstatné je pro nás mít infrastrukturu pro rychlou implementaci nových algoritmů přímo v zemích, kde působíme. Zde sami vyvíjíme řešení, které je nadstavbou Hadoopu a je postaveno na technologiích Spark, Nifi, Kafka a HBase. Cílem je uzavřít celý cyklus vývoje modelu od přípravy dat po implementaci do jednoho měsíce.

Je nějaký projekt, na který jste opravdu hrdí?

My se fakt snažíme být na světové špičce. Pro inspiraci jsme vyhlásili soutěž o „nejpřesnější prediktivní model“ na největší datascience platformě „Kaggle”. To je ten projekt s Google. Přihlásilo se 7 200 týmů ze 108 zemí světa, což byl rekord za celou existenci této platformy a podle Googlu už teď vstoupí do učebnic. Asi si dovedete představit, jak obrovské know-how a jaký zájem data scientistů pracovat u nás nám taková soutěž přinesla.

Co chystáte do budoucna?

Do budoucna chceme přidat do modelů scoringu i analýzu nestrukturovaných dat. Například skenů dokumentů či záznamů hovorů klientů s našimi call centry. Pokročilé algoritmy jako „deep learning“, „voice recognition“ či „text mining“ postavené nad těmito daty jsou schopny automaticky odhalit další informace důležité pro automatizované rozhodování o úvěrech. Z takových výstupů se dá například už předem rozpoznat podvodné jednání.

Firma Home Credit má svoji DNA

Jak byste popsal lidi, kteří v Home Creditu pracují?

U nás pracují lidé, kteří mají odvahu zkoušet nové věci. Umí pracovat v týmu a dobře komunikují. Jsou nadšení z práce spojené s cestováním do deseti zemí. Hodí se k nám ti, kteří vystudovali obory zaměřené na statistiku, strojové učení či umělou inteligenci. To byste u „úvěrářů“ asi nečekali, že ne? Uplatnění u nás najdou absolventi ekonomických i technicky zaměřených škol.

Ještě bych doplnil, že DNA firmy Home Credit charakterizuje především řešení „out of the box“. Dále také flexibilita a projektová a geografická pestrost práce.

Lubomír Hanusek

Vystudoval magisterské a doktorské studium statistiky na Vysoké škole ekonomické v Praze.

Ve společnosti Home Credit International působí jako Group Risk Research & Development manager.

Tři roky žil v Číně a Hong Kongu. Má rovněž praktické zkušenosti ze všech zemí skupiny (Rusko, Indonésie, Vietnam, Indie, USA, Kazachstán, Filipíny, Česko a Slovensko).

Ve své předchozí práci byl data mining analytikem ve významné konzultační firmě.

Svůj volný čas tráví převážně se svými čtyřmi dětmi a hrou na piano.

Studenti jsou u nás vítáni

Ve skupině Home Credit nabízejí také zajímavou příležitost pro čerstvé absolventy škol. Jde o HC net program pro mladé talenty. V programu se účastníci po dobu dvou let podílejí na zajímavých projektech, třeba těch, o nichž už tady byla řeč. Po jeho absolvování se pak posunou na vyšší, často manažerskou pozici a zároveň také do jiné země.

Yigit Kayabasi pracuje na centrále skupiny Home Credit v Praze jako účastník programu HC net. (Pozn. redakce – rozhovor jsme přeložili z angličtiny.)

Jak jste se o programu HC net dozvěděl?

Bylo to na veletrhu pracovních míst, kde měly stánky desítky inovativních a respektovaných firem. Nabídka skupiny Home Credit se jevila jako jasná kariérní příležitost pro můj rozvoj.

Proč jste si vybral zrovna skupinu Home Credit?

Chtěl jsem se dále věnovat machine learningu ve finanční instituci. A Home Credit je finanční instituce, která má velké zkušenosti z oblasti Data Science a hodně investuje do R&D. Takže to pro mě byla perfektní příležitost. Na veletrhu mě pro tuhle práci nadchnul Kirill Odintsov, manažer vývoje scoringových modelů, který je teď mým vedoucím.

Na jakém projektu pracujete?

Pracuji na vylepšení modelování prostřednictvím Machine Learning algoritmů. Věnuji se hlavně oblasti Deep Learningu.