Open source business intelligence – Pentaho: ETL

V minulé části jsme se naučili vytvářet Transformace a nyní si z nich vytvoříme úlohu, která již bude představovat plnohodnotné ETL.

Obsah

Výchozí znalosti a předpoklady

Job

Úloha, Job, je takovým managerem transformací. Umožňuje jejich spouštění, ovládání a obsluhování vstupních a výstupních souborů. Ze dvou a více transformací vytváří workflow (sériové nebo paralelní), do kterého můžete zařadit i podúlohy. Do workflow můžete vkládat scripty (SQL, JavaScript, Shell) pro komplexnější transformace. Dílčí transformace ovládá přes parametry, které se dědí z úlohy směrem dolu. Transformace naopak mohou nastavovat i proměnné v úloze, čímž komunikují s ostatními.

Co umí?

Úloha se umí spustit a ukončit a mezi tím vykonat spoustu užitečné práce, jako je:

1. Obsluha vstupních/výstupních souborů

Všechny tyto činnosti jsou velmi potřebné pro automatizované nahrávání/exportování dat, které si ukážeme na příkladu.

2. Přenos souborů přes FTP, HTTP, SSH, SFTP

3. Práce s e-mailem

ETL nás/zákazníka může informovat o svém běhu a výsledku pomocí e-mailu. Vedle toho e-mail může být také vstupní brána pro data. Některá data mohou být distribuována pomocí e-mailu.

4. Spouštění skriptů umožňující tvorbu komplexnějších transformací.

Dílčí data jsou uložena v jednotlivých souborech (1. soubor - informace o povaze pracoviště, 2. soubor - údaje o výrobě na daném pracovišti), ale my je potřebujeme zpracovat v jednom kroku (zajímají nás pouze vybraná pracoviště a na nich vyrobené výrobky)

5. Řízení toku úlohy pomocí:

6. Hromadné nahrávání (Bulk loading)do databáze

Je připraveno pro některé DB systémy jako MySQL, MSSQL nebo MS Access. V testování je i PostgreSQL.

Na jednoduchém příkladu se postupně naučíme používat některé z výše uvedených schopností.

Náš příklad bude řešit tento problém: Z adresáře ~/pentaho/data_import/ importuje veškeré csv soubory a přesune je do adresáře ~/pentaho/data_complete/. Z názvu souboru určí datum a pobočku. Výsledná data nahraje do databáze včetně informace o datu a pobočce. Pro import souborů použijeme v minulé části vytvořenou transformaci. Pokud se někomu nepovedlo transformaci vytvořit, může si ji stáhnout zde a importovat do spoon pomocí File – Import from an XML file.

Příklad

Start a vytvoření nové úlohy

2. Z nabídky File nebo pomocí stisknutí ctrl+alt+n vytvoříme novou úlohu Job 1, kterou si uložíme jako pobocky_vyroba

Vytvoření startovací sekvence a zjištění zjištění seznamu souborů k importu

Tento krok nám do nově vytvářeného workflow předá seznam souborů, které bychom měli zpracovat.

Transformace pro získání pobočky a datu z názvu souboru

Pokud předem nevíme, kolik souborů budeme importovat, musíme k seznamu přistupovat tak, že v něm je pouze jeden soubor a soubory importovat sekvenčně. Pokud můžeme importovat více souborů současně, pak si následující kroky můžeme paralelizovat. My se ale budeme věnovat sériovému zpracování. Výsledek Add filenames to result musíme nejdříve seřadit, vybrat první element a z názvu souboru vytáhnout jméno pobočky a datum a získané hodnoty uložit do proměnných, které budou použity v dalších krocích. Toto nám zajistí transformace a parametry úlohy.

Vytvoříme si novou transakci, kterou přidáme do úlohy pobocky_vyrob za Add filenames to result.

Vytvoření transformace get file name

Pokud se vám něco nepodařilo, pak si hotovou transformaci můžete stáhnout zde a importovat do Spoon pomocí File – Import from an XML file.

Získání názvu pobočky a datumu exportu

V proměnných soubor_cesta a soubor máme uložené informace o importovaném souboru. Z jeho názvu potřebujeme separovat informaci o pobočce a datu, z které a kdy pocházejí daná data. Tyto informace v dalším kroku použijeme pro rozlišení záznamů ve výsledné tabulce v databázi (to jsme v minulém díle neřešili). Předchozí komponenta get file name nám naplnila proměnnou soubor textem s názvem souboru ve formátu brno_20101128.csv . Pomocí JavaScriptu z názvu získáme tyto informace: název pobočky, rok, měsíc a den.

Test funkcionality – logování událostí

Než se pustíme do vlastního nahrávání dat, pojďme si nejříve otestovat, co jsme doposud udělali. K tomu nám napomůže log Kettlu. Jako další komponentu do toku úlohy vložte z nabídky Utility objekt Write To Log. Jako ve velké většině jiných systémů je log obrovským zdrojem informací pro ladění a provoz systému. Kettle má několik úrovní logování s rozdílnou úrovní detailu. Pro náš případ nám postačí základní úroveň, tedy Basic. Do těla zprávy, která se bude vypisovat, umístíme všechny zjišťované proměnné den, měsíc, rok, pobocka, soubor, soubor_cesta, a to pomocí zápisu, který nám zaručí výpis jejich hodnot - ${proměnná}.

Nyní můžeme naši úlohu spustit. Stiskněte F9 nebo zelenou šipku v horním toolbaru.

V logu byste měli najít podobné fragmenty

Takže, z 6 vstupních souborů byl zpracován pouze jeden, a to ten abecedně první - brno_20101128.csv. Z něj se správně separoval název pobočky brno a i jednotlivé části datumu rok: 2010, měsíc: 11, den: 28.

Dosavadní úlohu si můžete stáhnout zde a importovat do Spoon pomocí File – Import from an XML file.

Pro další část log nebudeme potřebovat takže jej vypneme. Pravou myškou klikněte na propojení mezi get info from filename a Write To Log a vyberte položku Disable hop. Tím jsme deaktivovali spouštění této komponenty. Samozřejmě, že můžete komponentu Write To Log smazat, ale může se vám ještě hodit :-)

Import souborů do databáze

Nyní víme, jak se jmenuje soubor, který chceme importovat, umíme z jeho názvu přečíst jméno pobočky a datum, pro který jsou data platná. Zbývá nám tedy jen obsah daného soubor importovat do databáze a připojit k němu informaci o pobočce a datumu. V databázi ovšem nemáme žádnou tabulku, která by byla schopna pojmout veškeré výše zmíněné informace. Vytvoříme si tedy novou a tu (pobocky_data), do které jsem v minulém díle použijeme jako dočasnou pro import nových dat. Po každém importu vymažeme její obsah.

Opět můžete otestovat funcionalitu. Po testu ale nezapomeňte vymazat obsah tabulky vyrobni_data, neboť dosud nemáme vyřešen přesun již importovaných souborů a nahrávaly by se nám stále dokola. To by ovšem vyvolalo výjimku, protože ETL by se snažilo uložit do vyroba_data. Spusťte tedy:

Zacyklení přes všechny soubory

Podle předchozích kroků jste si vytvořili ETL, které vám importuje podle abecedy první soubor definovaného adresáře do tabulky. V daném adresáři jsou ale ještě další soubory k importu. Musíme tedy vytvořit takový proces, který cyklicky bude importovat soubory, přesouvat je do jiného adresáře tak dlouho, dokud bude mít co zpracovávat. Tedy dokud zdrojový adresář nebude prázdný. Musíme tedy vyřešit přesun importovaného souboru do adresáře ~/pentaho/data_complete/, otestovat existenci dalších souborů k importu a ukončení úlohy.

Přesun souborů do adresáře ~/pentaho/data_complete/ zajistíme pomocí komponenty Move files z nabídky File management. Přidáme ji do toku za komponentu SQL. Nastavení probíhá ve dvou krocích a to, co se bude přesouvat a kam se to bude přesouvat. Na první otázku máme snadnou odpověď neboť chceme přesunout importovaný soubor, který máme uložený v proměnné soubor_cesta. Kam ho chceme přesunout víme také. Takže pojďme si komponentu nakonfigurovat.

Rozhodnutí, zda-li spustit další interaci nebo úlohu, učiníme podle existence dalších souborů k importu. Toto nám zajistí komponenta na testování obsahu adresáře Check if a folder is empty. Tu najdete v nabídce Conditions. Zařaďte ji do toku za Move files. V případě, že tato komponenta odpoví souhlasně, což znamená, že testovaný adresář je prázdný (podle určité metriky), pak by měla úloha skončit úspěšně. Stejně jako pro začátek úlohy máme komponentu Star, tak i pro zakončení existují komponenty. Konkrétně se jedná o Success z nabídky General. Pokud z nějakého důvodu potřebujeme naopak úlohu přerušit, pak z Utility můžeme použít Abort job.

My ale budeme věřit ve zdárný průběh a na pracovní plochu si ještě přesuneme Success :-)

Každá komponenta v Kettlu svému okolí sděluje, zda-li její běh byl úspěšný, či nikoliv. To dělá pomocí vazeb, které nesou příznak result true nebo false. Doposud jsme řešili pouze úspěšné vykonání předcházející činnosti a všechny naše vazby mezi jednotlivými komponentami byly na bázi „result true“. Komponenta Check if a folder is empty, kterou testujeme obsah adresáře, vrátí při prázdném adresáři True a my tím pádem budeme chtít ukončit úlohu. Obdobně jako v předchozích případech, propojte komponentu Check if a folder is empty a Success. Pokud ovšem adresář obsahuje ještě nějaký soubor csv, pak chceme, aby se nám spustila další iterace. Znovu pomocí myšky a shift propojte Check if a folder is empty s počátkem Add filenames to result. Tím máme vytvořený cyklus. Ale pozor, Add filenames to result má stále původní seznam souborů! Jeho aktualizaci zajistíme zaškrtnutím Clear result filenames

Spouštění úloh

Obdobně jako jsme spouštěli z řádky transformaci v minulém díle, tak i úlohu lze ovládat z řádky. Skript, ktrý nám to zajistí se jmenuje kitchten.sh.

A stejně jako jsme si minule vytvořili automatické spouštění transakce pomocí crontabu, tak analogicky můžeme naplánovat start úlohy. Jiný způsob souštění přímo z Pentaho si ukážeme v dalších dílech.

ETL pro export

ETL neslouží pouze k importování dat, ale také k exportu. V našem příkladu jsme zpracovávali provozní data z poboček. Ta ale musel být něčím generována. Stejně tak archivace dat může být úlohou pro ETL. S blížícím se koncem roku spoustu systémů čekají roční uzávěrky, jejichž závěry budou předávány do jiných systémů (dcera -> matka apd).

Závěrečné shrnutí

Náš příklad by mohl někomu připadat, že se jedná o kanón na vrabce, ale praxe ukazuje, že bez podobných nástrojů jako Kettle by bylo nahrávání dat z rozdílných zdrojů téměř neřešitelné. ETL jsem mocné prvky každého BI řešení a častokrát na jejich realizaci stojí a padá celé řešení. Ono pokud by správně neproběhlo nahrávání dat, tak není ani co zpracovávat.

Kettle představuje velmi šikovný nástroj na vytváření a provoz ETL. Díky platformě Java lze provozovat na různých platformách. A díky úložišti metadat v databázi je celkem snadno přenositelný.

Tento článek nemá ambici detailně popsat používání Kettlu, ale spíše vám poodkrýt možnost nahrávání dat (nemusí se jednat jen o data pro Pentaho). Pro bližší studium bych vás rád odkázal na stránky Kettlu.

Diskuse k tomuto článku

Pracuji na projektu, kde se v části uplatňuje (neuplatňuje) produkt Talend. Máte nějaké zkušenosti s tímto "konkurentem" Pentaho? Jestliže ano, můžete vypsat nějaké krátké srovnání?

Díky.

Ladislav

EmperorWantsToControlOuterSpaceYodaWantsToExploreInnerSpaceThat'sTheFundamentalDiffBetweenGoodandBadSidesOfTheForce

17.1.2011 15:28 vratidlo007 | skóre: 21
Rozbalit Rozbalit vše Re: Talend versus Pentaho

Ahoj, bohuzel s Talend zkusenost nemam, takze nemohu kvalifikovane oba nastroje srovnat. Ale neco malo jsem poGooglil a nasel toto

17.1.2011 17:05 archen | skóre: 4
Rozbalit Rozbalit vše Re: Talend versus Pentaho

Hm, jasné. BTW ten link jsem taky vygooglil, ale i tak díky. Děláte v pentahoo nějaký větší projekt v heterogenním prostředí, nebo si s ním spíše hrajete?

Jde mi o oblasti: HTTP POST/GET Data mining Webové služby XML

resp. Jak zvládá tyto oblasti, dále jak lehce se dá Pentahoo ohýbat. Např. napsání vlastní komponenty, úprava stávající, když nefunguje tak, jak má, apod.

S pozdravem,

Ladislav Jech

EmperorWantsToControlOuterSpaceYodaWantsToExploreInnerSpaceThat'sTheFundamentalDiffBetweenGoodandBadSidesOfTheForce

17.1.2011 21:31 vratidlo007 | skóre: 21
Rozbalit Rozbalit vše Re: Talend versus Pentaho

Pentaho nas tak trosku zivi :-) Nasi zakaznici v nem maji sva firemni data a Pentaho jim pomaha v rizeni jejich firem. Mame zakazniky, kteri v nem maji desitky GB dat a pristupuje k nim desitky uzivatelu. Pokud se jedna o datamining, tak primo Pentaho nabizi Weku, coz je sam o sobe vynikajici SW na datamining. A Weka se da prave pres Kettle propojit primo s daty a vytvorit tak automatizovany proces.

Pentaho je rozsiritelne plug-iny. Stejne tak se daji psat i vlastni komponenty do Kettlu.

17.1.2011 21:46 archen | skóre: 4
Rozbalit Rozbalit vše Re: Talend versus Pentaho

Jasné

. Hm, mrknu na to. Vypadá to docela zajímavě. Já už střídavě pracuji právě s Talend na jednom projektu. A abych pravdu řekl, ačkoli je to velice zajímavý produkt, tak má svá úskalí v tom, na co ho je dobré nasadit a na co ne.

Bohužel v mém případě jsem narazil na řadu bugů, které jsou na druhou stranu velice rychle opravovány. Zároveň i při požadavku na novou funkcionalitu, když jsem poskytnul základní sadu kódů pro nový plugin, byly tyto nové komponenty společností po diskuzi s vývojáři opět celkem rychle zařazeny do oficiálního repositáře (samozřejmě po úpravě mého bastlu :-)

). Chvilkama jsem měl pocit, že by to bylo lepší celé napsat v Javě (Talend je javový projekt), a myslí si to více lidí, jelikož je to při určitém typu použití velmi problematické, resp. někdy potřebuji začít tam, kde dostupné komponenty končí, takže si stejně vytvářim vlastní tzv. rutiny, v podstatě javovské metody.

No každopádně díky za info o alternativě k Talend, Pentahoo jde na věc trochu jinak, možná v některém ohledu i lépe. Zkusím si ho nainstalit a ošahat.

Good luck s projekty.

Ladislav

EmperorWantsToControlOuterSpaceYodaWantsToExploreInnerSpaceThat'sTheFundamentalDiffBetweenGoodandBadSidesOfTheForce

Open source business intelligence – Pentaho: ETL – úlohy

Obsah

Výchozí znalosti a předpoklady

Job

Co umí?

1. Obsluha vstupních/výstupních souborů

2. Přenos souborů přes FTP, HTTP, SSH, SFTP

3. Práce s e-mailem

4. Spouštění skriptů umožňující tvorbu komplexnějších transformací.

5. Řízení toku úlohy pomocí:

6. Hromadné nahrávání (Bulk loading)do databáze

Příklad

Start a vytvoření nové úlohy

Vytvoření startovací sekvence a zjištění zjištění seznamu souborů k importu

Transformace pro získání pobočky a datu z názvu souboru

Vytvoření transformace get file name

Získání názvu pobočky a datumu exportu

Test funkcionality – logování událostí

V logu byste měli najít podobné fragmenty

Import souborů do databáze

Zacyklení přes všechny soubory

Spouštění úloh

ETL pro export

Závěrečné shrnutí

Odkazy a zdroje

Další články z této rubriky

Diskuse k tomuto článku