Přihlášení | Registrace

napište » Zprávičky

EmacsConf 2025

dnes 15:55 | Komunita

O víkendu (15:00 až 23:00) probíha EmacsConf 2025, tj. online konference vývojářů a uživatelů editoru GNU Emacs. Sledovat ji lze na stránkách konference. Záznamy budou k dispozici přímo z programu.

Ladislav Hagara | Komentářů: 0

Wikipedia jedná s technologickými giganty o zpoplatnění dat pro AI

dnes 15:44 | Komunita

Provozovatel internetové encyklopedie Wikipedia jedná s velkými technologickými firmami o uzavření dohod podobných té, kterou má s Googlem. Snaží se tak zpeněžit rostoucí závislost firem zabývajících se umělou inteligencí (AI) na svém obsahu. Firmy využívají volně dostupná data z Wikipedie k trénování jazykových modelů, což zvyšuje náklady, které musí nezisková organizace provozující Wikipedii sama nést. Automatické programy

… více »

Ladislav Hagara | Komentářů: 6

Unijní pokuta pro síť X je útok na americký lid, řekl ministr zahraničí

dnes 15:22 | IT novinky

Evropská komise obvinila síť 𝕏 z porušení unijních pravidel, konkrétně nařízení Evropské unie o digitálních službách (DSA). Vyměřila jí za to pokutu 120 milionů eur (2,9 miliardy Kč). Pokuta je podle názoru amerického ministra zahraničí útokem zahraničních vlád na americký lid. K pokutě se vyjádřil i americký viceprezident: „EU by měla podporovat svobodu projevu, a ne útočit na americké společnosti kvůli nesmyslům“.

Ladislav Hagara | Komentářů: 5

Jolla Phone

včera 17:11 | IT novinky

Společnost Jolla spustila kampaň na podporu svého nového telefonu Jolla Phone se Sailfish OS. Dodání je plánováno na první polovinu příštího roku. Pokud bude alespoň 2 000 zájemců. Záloha na telefon je 99 €. Cena telefonu v rámci kampaně je 499 €.

Ladislav Hagara | Komentářů: 23

Netflix kupuje Warner Bros. včetně HBO Max a HBO

včera 15:11 | IT novinky

Netflix kupuje Warner Bros. včetně jejích filmových a televizních studií HBO Max a HBO. Za 72 miliard dolarů (asi 1,5 bilionu korun).

Ladislav Hagara | Komentářů: 2

AWS re:Invent 2025

včera 14:11 | IT novinky

V Las Vegas dnes končí pětidenní konference AWS re:Invent 2025. Společnost Amazon Web Services (AWS) na ní představila celou řadu novinek. Vypíchnout lze 192jádrový CPU Graviton5 nebo AI chip Trainium3.

Ladislav Hagara | Komentářů: 0

Proxmox Datacenter Manager 1.0

včera 00:33 | Nová verze

Firma Proxmox vydala novou serverovou distribuci Datacenter Manager ve verzi 1.0 (poznámky k vydání). Podobně jako Virtual Environment, Mail Gateway či Backup Server je založená na Debianu, k němuž přidává integraci ZFS, webové administrační rozhraní a další. Datacenter Manager je určený ke správě instalací právě ostatních distribucí Proxmox.

|🇵🇸 | Komentářů: 8

Apache HTTP Server (httpd) 2.4.66 řeší 5 bezpečnostních chyb

4.12. 23:44 | Nová verze

Byla vydána nová verze 2.4.66 svobodného multiplatformního webového serveru Apache (httpd). Řešeno je mimo jiné 5 bezpečnostních chyb.

Ladislav Hagara | Komentářů: 0

JavaScript slaví 30 let

4.12. 14:00 | IT novinky

Programovací jazyk JavaScript (Wikipedie) dnes slaví 30 let od svého oficiálního představení 4. prosince 1995.

Ladislav Hagara | Komentářů: 0

Kritická zranitelnost v React Server Components

4.12. 04:22 | Bezpečnostní upozornění

Byly zveřejněny informace o kritické zranitelnosti CVE-2025-55182 s CVSS 10.0 v React Server Components. Zranitelnost je opravena v Reactu 19.0.1, 19.1.2 a 19.2.1.

Ladislav Hagara | Komentářů: 3

Centrum | Napsat | Starší

navrhněte » Anketa

Jaké řešení používáte k vývoji / práci?

Github (34%)

Gitlab (47%)

Atlassian (19%)

Bitbucket (18%)

Gitea (22%)

Mercurial (15%)

jen git (24%)

jen svn (16%)

Jiné (uvedu v diskusi) (18%)

Celkem 434 hlasů

Komentářů: 18, poslední 2.12. 18:34

Rozcestník

AbcLinuxu

HDmag.cz

AbcLinuxu:/ Články / Open source business intelligence – Pentaho

Štítky: algoritmy, business, crm, databáze, distribuce, Edition, GNU, hesla, HTML, IBM, instalace, Internet, JBoss, konfigurace, Microsoft, MySQL, online, open, Oracle, PDF, PostgreSQL, prohlížeče, převod, SAP, server, sítě, sledování, software, uložení, web

Open source business intelligence – Pentaho

29. 9. 2010 | Vratislav Beneš | Recenze | 9146×

V tomto seriálu chci přiblížit open source řešení pro business intelligence (BI) Pentaho. Na úvod si dovolím krátkou exkurzi do BI a popis jednotlivých oblastí. V dalších dílech se již zaměříme na vlastní softwarové řešení Pentaho a s ním spojené nástroje.

Obsah

Schéma seriálu:
Trocha teorie
BI software
Pentaho
- Jak Pentaho řeší základní oblasti BI

Schéma seriálu:

link

Úvod – Trocha teorie k BI. Co to je a k čemu nám BI slouží v praxi?
Instalace a základní nastavení Pentaho, konfigurace databází a základní přizpůsobení
ETL – Extract, Transfer, Load aneb jak získávat a automatizovat nahrávání dat z rozličných zdrojů a formátů
Datové sklady a OLAP – databáze, datové kostky, analýzy, MDX, agregované tabulky, pohledy
Reporty – statické, dynamické, automatická distribuce
Dashboardy – kokpit nad daty, flexibilní analytický nástroj
Datamining – hledáme skryté informace v datech
Case study – praktické nasazení BI v konkrétní firmě

Trocha teorie

link

V současné době jsou firmy zahlcovány obrovským množstvím dat. Jejich zdrojem bývají firemní systémy (ERP, CRM, účetní a jiné vnitrofiremní systémy), externí dodavatelé (státní instituce, banky, výzkumné agentury), logy výrobních linek nebo také logy IT systémů.

Data obsahují nezměrné množství informací, které lidé potřebují transformovat ve znalosti a ty následně použít jako podklad pro svá rozhodnutí. A právě BI poskytuje nástroje, postupy a techniky vhodné pro extrakci informací z dat a nalezení relací mezi nimi.

Abychom toho byli schopni, potřebujeme systém, který by měl umět pokrýt následující oblasti:

Extrakci dat a jejich nahrávání – ETL
Systém pro uložení dat – datový sklad (DWH) a datové tržiště (DMT)
Analýza dat – Online Analytical Processing (OLAP)
Reportování – reporty, dashboardy, distribuci uživatelům
Hledání souvislostí v datech – datamining (DM) a následné modelování

Schématicky to lze vyjádřit takto:

pentaho bi schema

Firemní systémy mají většinou svá data uskladněna v databázích rozdílných architektur a struktur. Na obrázku jsou to vnitropodnikové systémy ERP, CRM, software na sledování docházky (HR) a jako externí systémy jsou zastoupeny výpisy z banky nebo měnové kurzy.

Naším cílem je data ze všech zdrojů centralizovat, zobecnit, ale zároveň zachovat potřebnou detailnost. Takto připravená data slouží pro analýzy, reporty nebo modelování faktů, která nám jsou známá. Ta, která zůstala doposud skryta, se snaží odhalit metody dataminingu.

Co to v praxi znamená?

Na databáze ERP, CRM a HR systémů jsou napojeny datové pumpy (ETL), které automaticky nebo na vyžádání „vytáhnou“ nová data a uloží je do datového skladu. V případě banky nelze předpokládat přímý přístup do bankovní databáze, takže jako zdroj dat budou složit offline datové soubory (XLS, TXT, …). Kurzovní lístek bude nejspíše dostupný na webu dané bankovní instituce, takže zdrojem je webová stránka. V tomto případě ETL musí zajistit převod nestrukturovaných dat do podoby vyhovující datovému skladu, takže musí provést určitou transformaci (například vyhledání hodnot kurzů v HTML).

Datový sklad musí mít takové rozhraní, aby z něj bylo možné stavět reporty nebo jej použít jako zdroj pro analýzy či modelování. Datový sklad obsahuje možné kombinace všech vstupních dat. Jelikož je rozsah informací příliš komplexní, je množina „nabízených“ dat omezena podle oborového zájmu na její podmnožiny. Těmi jsou datová tržiště, která bývají realizována datovými kostkami (ne výhradně).

Jednotlivá oddělení firmy pak přistupují pouze ke svým informacím, nad kterými si spouštějí reporty, procházejí dashboardy, analyzují data a vytvářejí si modely.

Cílem je přinést každému uživateli co možno nejkomplexnější informace, ale zároveň v co nejjednodušší formě a co nejrychleji.

BI software

link

Poptávka po BI v poslední době značně roste. Svoji roli hraje nejen neustále narůstající množství dat, ale také vzdělanost manažerů v oblasti využití moderních nástrojů pro řízení firmy. Podle hesla „Co nemůžete změřit, nemůžete řídit“ se ve firmách generuje množství reportů, stanovují se KPI, která by se také měla měřit a vyhodnocovat, provádějí se analýzy, sestavují modely. BI sice není všelék, ale při vhodném nasazení a zejména interpretaci dokáže nalézt a také pomoci řešit problémy firmy.

Firmy jako IBM, Microsoft, Oracle, SAP si toto uvědomují a většinou na vrchol svých databázových produktů stavějí BI řešení. Jelikož se jedná o komplikované systémy zahrnující i umělou inteligenci, jejich cena nebývá právě nejnižší. Z tohoto důvodu firmy často sahají po nestandardních řešeních, jakými je třeba nevhodné použití tabulkových procesorů. Nakonec ale s rostoucím množstvím dat a požadavků tato řešení čím dál více uživatelům ztěžují práci a více než analýzám problémů se věnují hledání chyb ve vzorcích a překopírovaných tabulkách.

Svět open source nabízí pro BI několik nástrojů (BI Jasper, Palo, Pentaho). V našem seriálu se budeme zabývat řešením od spolešnosti Pentaho – Pentaho BI. To patří mezi nejrozšířenější a nejkomplexnější open source nástroje pro BI. Zahrnuje několik samostatných aplikací (Mondrian, Kettle, Weka, jfreecharts, …), které jsou samy o sobě velmi kvalitní, a proto i často nasazované. Neodmyslitelnou součástí uceleného BI řešení je databázový systém jako zdroj dat.

Pentaho

link

Pentaho je komerční opensource nástroj, který je k dispozici v Community edition a Enterprise edition. Community edition je vydávána pod GNU GPLv2 licencí a je plně zdarma. Enterprise edition je placená a obsahuje některé komponenty, které nejsou vydávány pod GNU GPL2 nebo jinou svobodnou licencí. Srovnání obou verzí naleznete na http://www.pentaho.com/products/. Jako u většiny komerčních verzí open source je hlavní rozdíl mezi Comunity a Enterprise edition hlavně v podpoře ze strany Pentaho nebo jejich partnerů. Vedle toho Enterprice edition obsahuje i vylepšení, jako jsou Single-sing on, analyzátor výkonu systému nebo pokročilý grafický analyzátor OLAP kostek. Obě edice mají stejný základ, a to javovskou web aplikaci, běžící v aplikačním serveru (Tomcat, JBoss nebo třeba Glassfish). Některé moduly (designer kostek, reportů, ETL) jsou tvořeny samostatnými aplikacemi. Výsledek je publikován na server s Pentaho BI.

Jak Pentaho řeší základní oblasti BI

link

ETL (Extract Transformation Load) je řešen pomocí nástroje Kettle. Jedná se o javovskou aplikaci umožňující navrhovat, provozovat a plánovat datové pumpy, propojující externí data a datový sklad. Pro zvýšení dostupnosti a výkonnosti lze Kettle provozovat v clusteru. Díky Javě je platformně nezávislý.
Datový sklad je tvořen relační databází. V základním balíku jsou předkonfigurovány MySQL, Hypersonic, Oracle 10g a PostgreSQL. Ale lze použít libovolnou databázi komunikující přes JDBC.
OLAP je v Pentaho řešen ROLAPem projektu Mondrian, který čerpá data nejen z výše uvedených DB, ale z kterýchkoli jiných s rozhraním JDBC. Analytickou část přes webové rozhraní zajišťuje komponenta jpivot.
Reporty lze sestavovat statické, dynamické s možností výstupu do html, xls, doc, pdf nebo obrázků. Vedle nich lze definovat i tzv. dashboard, které lze přirovnat ke kokpitu, kde je celý pozorovaný systém zobecněný do několika základních údajů s určitou mírou agregace, zobecnění. Reporty i dashboardy mohou být interaktivní, čímž umožní uživateli poměrně snadno měnit výchozí omezení. Tím mu dávají mocný nástroj k získání bleskového přehledu o dané oblasti. Reporty lze distribuovat mezi příjemce pomocí e-mailu nebo je vkládat do intranetových portálů.
Datamining je řešen aplikací Weka, která vznikla v univerzitním prostředí. V důsledku toho je velmi často rozšiřována o nové algoritmy a postupy, což není pravidlem u komerčních aplikací. V Pentaho není implicitně řešeno modelování, ale lze jej rozšířit o statistický nástroj R-project. Modelování je výsostně specifická oblast, proto většina uživatelů sáhne po svém oblíbeném nástroji nebo postupu. Naše firma např. používá neuronové sítě.

Pentaho ve spojení s dobře navrženým datovým skladem je velmi výkonný a spolehlivý nástroj na BI. S přehledem obstojí i v konkurenci proprietárních řešení. Díky možnosti integrace do jiných prostředí (intranet, vlastní aplikace) umožňuje pohodlně reportovat a analyzovat data, bez nutnosti složitých a krkolomých řešení. Pevně věřím, že vám bude tento seriál nápomocen.

První díl tohoto seriálu má úvodní, informativní charakter. Příště si rozběhneme komunitní verzi, ukážeme si její nastavení proti databázi PostgreSQL a provedeme si základní přizpůsobení.

Na shledanou s Pentaho :-)

Odkazy a zdroje

pentaho.com

Další články z této rubriky

Týden na ITBiz: Svět IT a burzy, umělá inteligence, Nvidia a outsourcing
Linuxové foto novinky: pozvolná evoluce
PCLinuxOS 2017.2 MATE - tak trochu zvláštní linuxová distribuce
Krátký pohled na Fedoru 25, Wayland a GNOME 3.22
Naprosto ničím nezajímavé Lubuntu 16.10

Hodnocení: 100 %

špatné • dobré

Nástroje: Tisk bez diskuse

Tiskni Sdílej:

Komentáře

Nástroje: Začni sledovat (2) ? , Tisk

Vložit další komentář

29.9.2010 07:02 corwin78 | skóre: 10 | Ostrava
Rozbalit Rozbalit vše Re: Open source business intelligence – Pentaho

Odpovědět | Sbalit | Link | Blokovat | Admin

Těším se na pokračování. Díky.

Česká pirátská strana - "Internet je naše moře...".

29.9.2010 07:14 honza soukup
Rozbalit Rozbalit vše Re: Open source business intelligence – Pentaho

Odpovědět | Sbalit | Link | Blokovat | Admin

Pro mě zajímavé téma, těším se na další díly, díky!

29.9.2010 12:36 pedro
Rozbalit Rozbalit vše Re: Open source business intelligence – Pentaho

Odpovědět | Sbalit | Link | Blokovat | Admin

Tak na toto se hodně těším, Pentaho neznám, autorovi přeji pevné nervy a doufám, že seriál neuvadne po kapitole o instalaci.

29.9.2010 13:48 Petr
Rozbalit Rozbalit vše Re: Open source business intelligence – Pentaho

Odpovědět | Sbalit | Link | Blokovat | Admin

Taky se těším, díky.

29.9.2010 14:31 Ladicek | skóre: 28 | blog: variace | Havlíčkův brod
Rozbalit Rozbalit vše Re: Open source business intelligence – Pentaho

Odpovědět | Sbalit | Link | Blokovat | Admin

Taky jsem zvědav. Před časem jsem si trochu s Pentahem hrál a moc uchvácený jsem nebyl, to drsné programování v JSPčkách (sprosté slovo: skriptlety), co tam kucí provozují, je fakt odpudivé.

Na druhou stranu, trochu vidím akorát do Mondrianu, a ten je dost dobře vymyšlený, samostatné použití je vcelku bezproblémové. Jenom k vizualizaci je třeba ten JPivot (nic jiného jsem neviděl), což je odporná XSLT mrcha, která nezvládne od jednoho uživatele víc dotazů zároveň. Jo a ukládání naklikaného pohledu má (teda mělo, když jsem to zkoušel, což bylo naposled asi 2 roky zpátky) problémy s diakritikou (asi proto, že to není součást JPivotu, ale dobastlili to tam v Pentahu, a když jsem letmo listoval zdrojáky, získal jsem dojem, že s kódováním se tam vůbec moc nepářou).

Ještě na tom nejsem tak špatně, abych četl Viewegha.

29.9.2010 16:02 vratidlo007 | skóre: 21
Rozbalit Rozbalit vše Re: Open source business intelligence – Pentaho

Slibuju, ze JSP se dotkneme jen jednou a to rovnou v pristi dile, ale jen abychom si zmenili uvodni logovaci stranku :-)

Dashboardy se pohodlne vytvareji javascriptem, na reporty, ETL, tvorbu kostek jsou klikatka, tak snad to nebude az tak moc krkolomne. S diakritikou si poradime. FYI: Staci spoustit javu s parametrem -Dfile.encoding=utf-8 a jpivot umi zobrazovat i hacky, carky.

29.9.2010 18:31 Ladicek | skóre: 28 | blog: variace | Havlíčkův brod
Rozbalit Rozbalit vše Re: Open source business intelligence – Pentaho

K tomu kódování, možná jsem to vyjádřil špatně, fungovalo mi prakticky všechno, jenom jedna věc ne: Pentaho přidává do JPivotu tlačítko pro uložení aktuálního pohledu (které osy jsou rozbalené apod.), a tam byl problém. Teď už si nejsem jistý, jestli šlo jenom o pojmenování pohledu nebo o to, že některé hodnoty v MDX dotazu byly s diakritikou, ale na téhle funkci to prostě padalo. Ale dost možná, že dneska už je to úplně jinak.

Ještě na tom nejsem tak špatně, abych četl Viewegha.

29.9.2010 14:53 osvc1
Rozbalit Rozbalit vše Re: Open source business intelligence – Pentaho

Odpovědět | Sbalit | Link | Blokovat | Admin

rad bych se zeptal, je to mozne nasadit (ma smysl) uz i ve firme, ktera ma mene nez 10 tisic zamestnancu?

29.9.2010 15:55 vratidlo007 | skóre: 21
Rozbalit Rozbalit vše Re: Open source business intelligence – Pentaho

Pentaho ma smysl = je prinosem treba i jen pro jednoho uzivatele, ktery potrebuje analyzovat velka data (gigabyty) nebo generovat reporty pro ostatni uzivatele. Nasimi zakazniky jsou firmy/oddeleni o 5 lidech, ale take fabriky o stovkach zamestnancu. Nejbeznejsi nasazeni v praxi, mame pro skupiny o 20-30 uzivatelich napric nekolika oddelenimi (marketing, prodej, vyroba ...). Takze moje odpoved je, ze Pentaho (Jasper) ma smysl nasadit i ve firme < 10000 zamestnancu :-)

Tam ale nejspis budou mit trosku jine produkty ;-)

30.9.2010 00:14 jos
Rozbalit Rozbalit vše není ETL jako ETL

Odpovědět | Sbalit | Link | Blokovat | Admin

první pokus Extract, Transfer, Load

druhej pokus Extract Transformation Load

wikipedia Extract, Transform, Load

sorry za to rejpání

30.9.2010 14:27 vratidlo007 | skóre: 21
Rozbalit Rozbalit vše Re: není ETL jako ETL

Jaj sorac! :-)

Spravne je samozrejme Extract, Transfer, Load. Kolega me na to taky upozornoval, ale nejak mi to uniklo. Musim to vic po sobe cist :-)

30.9.2010 14:49 vratidlo007 | skóre: 21
Rozbalit Rozbalit vše Re: není ETL jako ETL

No tak znovu a lepe :-D

ETL = Extract, Transform, Load

30.9.2010 11:50 LuděkS | skóre: 31 | blog: publish | Liberec
Rozbalit Rozbalit vše Re: Open source business intelligence – Pentaho

Odpovědět | Sbalit | Link | Blokovat | Admin

Bezva práce! Díky! :-)

1.10.2010 16:54 wike | skóre: 19 | blog: experimental
Rozbalit Rozbalit vše Re: Open source business intelligence – Pentaho

Odpovědět | Sbalit | Link | Blokovat | Admin

Ďakujem za dobrý článok na zaujímavú tému. Teším sa na pokračovanie.

1.10.2010 17:34 radecare
Rozbalit Rozbalit vše Re: Open source business intelligence – Pentaho

Odpovědět | Sbalit | Link | Blokovat | Admin

Pentaho je pěkná věc. Sám se těším na pokračování tohoto článku.

Pro ty kdo by měly zájem o ROLAP platformu, kterou nemusí instalovat, tak je pěkná alternativa tvořena firmou GoodData (www.gooddata.com).

Jedná se o ROLAP jako platforma. Přístupné jak přes JS klienta z browseru, tak přes REST API.

Založit nové vlákno • Nahoru

Píšeme jinde

ISSN 1214-1267 www.czech-server.cz

Redakce | Inzerce | Podmínky použití | Osobní údaje

Open source business intelligence – Pentaho

Obsah

Schéma seriálu:

Trocha teorie

BI software

Pentaho

Jak Pentaho řeší základní oblasti BI

Nejčtenější články posledního měsíce

Nejkomentovanější články posledního měsíce

Seriál Open source business intelligence – Pentaho (dílů: 3)

Související články

Odkazy a zdroje

Další články z této rubriky

Hodnocení: 100 %

Komentáře