Návrh ETL pipeline, ktorý vydrží rast

Adam Suchodolsky
Apr 5
5 min read

Prvý problém zvyčajne nie je v reporte. Je o dve vrstvy nižšie. Keď firma cíti, že čísla nesedia, spracovanie trvá pridlho alebo každý tím používa inú verziu pravdy, návrh ETL pipeline je často miesto, kde sa rozhoduje o tom, či budú dáta reálne pomáhať biznisu, alebo len vytvárať ďalšiu prevádzkovú záťaž.

Dobrý ETL návrh nie je len technická disciplína. Je to architektonické rozhodnutie s priamym dopadom na reporting, plánovanie kapacít, náklady na cloud a dôveru v dáta. Preto sa oplatí riešiť ho skôr, než sa z provizórneho riešenia stane kritický systém.

Čo má vyriešiť návrh ETL pipeline

V praxi sa ETL pipeline často podceňuje, pretože na začiatku funguje aj jednoduchý skript, naplánovaný job alebo ručný export. To stačí dovtedy, kým objem dát rastie, pribúdajú zdroje a od reportingu sa začne očakávať presnosť v konkrétnom čase.

Návrh ETL pipeline má vyriešiť tri veci naraz. Po prvé, ako dostať dáta zo zdrojov spoľahlivo a opakovateľne. Po druhé, ako ich transformovať do podoby, ktorá je použiteľná pre analytiku a rozhodovanie. Po tretie, ako to celé prevádzkovať bez toho, aby každý incident znamenal manuálny zásah seniorného človeka.

Ak niektorá z týchto častí chýba, firma to pocíti rýchlo. Reporting mešká, historické dáta sa nedajú spätne vysvetliť, integrácie sú krehké a zmena v jednom systéme rozbije tri ďalšie. To už nie je problém IT oddelenia. To je problém výkonu firmy.

Kde sa návrh ETL pipeline najčastejšie pokazí

Najčastejšia chyba je, že sa pipeline navrhuje podľa aktuálneho stavu, nie podľa očakávaného vývoja. Tím vyrieši dnešné tabuľky, dnešný objem a dnešné reporty. O šesť mesiacov neskôr pribudne nový ERP modul, CRM, marketingové dáta a potreba častejšej obnovy. Zrazu je architektúra plná obchádzok.

Druhá chyba je miešanie vrstiev. Keď sa business logika, čistenie dát a prezentačné úpravy robia v jednom kroku, pipeline sa stáva netransparentnou. Pri chybe nikto presne nevie, či je problém v extrakcii, transformácii alebo v samotnom reporte.

Tretí častý problém je absencia prevádzkovej disciplíny. Bez logovania, monitoringu, alertov a zrozumiteľného retry správania nie je pipeline produkčný systém. Je to len automatizovaný pokus. Kým ide všetko dobre, vyzerá to lacno. Keď nastane chyba, náklady narastú veľmi rýchlo.

Dobrá ETL pipeline stojí na vrstvách, nie na skriptoch

Pri návrhu sa oplatí rozmýšľať vo vrstvách. Zdrojová vrstva rieši pripojenie na systémy a spôsob odberu dát. Surová vrstva uchováva dáta v čo najpôvodnejšej podobe pre audit, spätné spracovanie a kontrolu. Transformačná vrstva vykonáva čistenie, mapovanie a výpočty. Konzumná vrstva pripravuje dáta pre reporting, analytiku alebo downstream aplikácie.

Tento prístup má praktickú výhodu. Keď sa pokazí business pravidlo, nemusíte znova sťahovať zdrojové dáta. Keď sa zmení štruktúra zdroja, viete presne, ktorú vrstvu upraviť. A keď vedenie potrebuje dohľadať, odkiaľ vzniklo konkrétne číslo, existuje jasná dátová stopa.

Pre menšie firmy nemusí byť každá vrstva technologicky oddelená. Dôležité je, aby bola oddelená logicky. Aj jednoduchšie riešenie môže byť dobre navrhnuté, ak sa v ňom dá orientovať, testovať ho a bezpečne meniť.

Batch alebo near real-time? Záleží na obchodnej potrebe

Jedna z prvých otázok pri ETL návrhu znie, ako často majú byť dáta aktualizované. Odpoveď nebýva technická, ale obchodná. Finančný reporting raz denne má iné nároky ako monitoring objednávok každých päť minút.

Firmy často automaticky žiadajú real-time spracovanie, pretože znie modernejšie. V skutočnosti je však drahšie na implementáciu, náročnejšie na monitoring a citlivejšie na kvalitu zdrojových systémov. Ak rozhodovanie v biznise nepotrebuje sekundové oneskorenie, pravidelný batch býva rozumnejší a lacnejší.

Naopak, ak pipeline napája operatívu, SLA pre zákazníkov alebo detekciu incidentov, pomalé dávky môžu byť slabým miestom. Správne rozhodnutie tu nie je univerzálne. Musí vychádzať z dopadu na procesy, nie z technologických preferencií tímu.

Kvalita dát sa nezačína v dashboarde

Ak sa kontrola kvality dát rieši až vo vizualizácii, je už neskoro. Návrh ETL pipeline má obsahovať validačné pravidlá od začiatku. To znamená kontrolu schémy, povinných polí, rozsahov hodnôt, duplicitných záznamov aj vzťahov medzi tabuľkami.

Rovnako dôležité je rozhodnúť, čo sa má stať pri chybe. Niektoré dáta sa majú zastaviť, iné označiť a posunúť ďalej. Niekde je správna tvrdá validácia, inde tolerancia a následná korekcia. Ak tento model nie je definovaný, pipeline produkuje buď ticho poškodené dáta, alebo zbytočne vysoký počet výpadkov.

Pre business je najdôležitejšie jedno - vedieť, či je dataset dôveryhodný a v akom stave prišiel. Bez toho rastie počet manuálnych kontrol a spomaľuje sa rozhodovanie.

Výkon, náklady a škálovanie treba riešiť naraz

Pipeline, ktorá funguje pri 5 miliónoch riadkov, sa môže správať úplne inak pri 500 miliónoch. Preto by mal návrh počítať s rastom dát aj so zmenou frekvencie spracovania. Nejde len o výkon databázy alebo výpočtového enginu. Ide aj o spôsob partitioningu, inkrementálne načítanie, paralelizáciu a obmedzenie zbytočných transformácií.

Tu vzniká dôležitý kompromis. Najlacnejšia implementácia na začiatku nemusí byť najlacnejšia po roku prevádzky. A naopak, príliš komplikovaná architektúra pre malý rozsah vie projekt zbytočne predražiť. Rozumný návrh ETL pipeline preto hľadá rovnováhu medzi dnešnou potrebou a realistickým rastom.

Cloud tento problém neruší. Len mení jeho povahu. Namiesto nákupu serverov riešite spotrebu, orchestrace, storage tiers a prevádzkové náklady za každé spracovanie. Bez disciplíny sa účet vie nafúknuť aj pri technicky správnom riešení.

Governance a bezpečnosť nie sú doplnok

Keď pipeline pracuje s obchodnými, finančnými alebo osobnými údajmi, bezpečnostné rozhodnutia musia byť súčasťou architektúry. Prístupové práva, šifrovanie, masking citlivých polí a audit zmien sa nedajú pohodlne dorobiť až po spustení.

To isté platí pre dátovú governance. Vlastník dát, definície metrík, naming conventions a lineage síce neznejú atraktívne, ale práve ony oddeľujú použiteľnú dátovú platformu od prostredia, kde sa každý report spochybňuje. Ak má ETL pipeline slúžiť viacerým tímom, bez týchto pravidiel sa kvalita prostredia rýchlo zhorší.

Ako pristúpiť k návrhu v praxi

Najlepší výsledok zvyčajne neprichádza z výberu nástroja ako prvého kroku. Najprv treba pomenovať zdroje dát, cieľové použitie, požadovanú frekvenciu, kritické metriky a toleranciu výpadkov. Až potom má zmysel rozhodovať, či je vhodnejší cloud-native prístup, tradičné ETL riešenie alebo kombinácia s ELT modelom.

V praxi sa osvedčuje navrhnúť pilot na jednej doméne, kde je jasne merateľný prínos. Napríklad financie, predaj alebo prevádzka. Na takomto scenári sa overí kvalita dát, výkon, prevádzkový model aj zrozumiteľnosť pre business. Následné rozšírenie je potom menej rizikové.

Dôležité je tiež určiť, kto pipeline vlastní po spustení. Ak ostane medzi IT, externým dodávateľom a business tímom bez jasnej zodpovednosti, problémy sa budú len presúvať. Prevádzka potrebuje konkrétneho vlastníka, definované SLA a proces pre zmeny.

Práve tu býva rozdiel medzi projektom, ktorý sa len odovzdá, a riešením, ktoré dlhodobo podporuje rast firmy. Aj preto má zmysel pracovať s partnerom, ktorý rozumie nielen architektúre, ale aj implementácii a reálnej prevádzke. Na tom je postavený aj prístup Adam Suchodolsky IT & Data Consulting.

Kedy je čas ETL pipeline prepracovať

Ak sa nové zdroje pripájajú pomaly, ak každá zmena reportu vyžaduje zásah do viacerých častí spracovania, ak tím pravidelne opravuje dáta ručne alebo ak cloudové náklady rastú bez viditeľného prínosu, nejde o drobné prevádzkové nedostatky. To sú signály, že architektúra prestáva zodpovedať potrebám firmy.

Prepracovanie neznamená vždy všetko zahodiť. Často stačí oddeliť vrstvy, zaviesť inkrementálne načítanie, doplniť monitoring a presunúť časť logiky z reportov do dátovej vrstvy. Inde však dáva väčší zmysel cielene modernizovať celé riešenie, najmä ak má firma ambíciu škálovať analytiku alebo prejsť na modernejšiu cloud platformu.

Silný návrh ETL pipeline nevzniká preto, aby dobre vyzeral v architektonickom diagrame. Má znížiť prevádzkové trenie, zvýšiť dôveru v dáta a pripraviť firmu na rast bez toho, aby každá ďalšia zmena bolela viac než predchádzajúca. Keď je dátový základ postavený správne, business to spozná rýchlo - na rýchlosti rozhodovania, kvalite reportingu aj na tom, koľko energie už netreba míňať na opravy toho, čo malo fungovať od začiatku.