Relational pipes v0.14 (diskuse)

Stále mi není jasný, na co to vlastně je. Když koukám na příklady, u těch jednoduších si říkám, že by na to stačil shell, u těch složitějších, že bych vzal python. Např. ten příklad s nejpoužívanější knihovnou mi nepřijde, že by byl v shellu složitější:

find /usr/bin -type f -exec ldd {} \; | sed -e 's/ =>.*//' -e 's/(.*//' | sort | uniq -c | sort -nr | head -n 20

Neměřil jsem to, ale hádám, že ani nebude pomalejší, protože bottleneck je stejně volání ldd ...

Jinak abych nebyl jen negativní, je cool, že se ti podařilo dát projekt dohromady a v jazyce, který je pro tebe nový...

SPD vůbec není proruská

31.10.2019 12:30 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Re: Relational pipes v0.14

Když koukám na příklady, u těch jednodušších si říkám, že by na to stačil shell, u těch složitějších, že bych vzal python.

Je to právě někde mezi tím. Jde o mírné vylepšení unixového shellu tak, aby se odstranily jeho problémy, ale zachovalo se to dobré a pořád jsi mohl zůstat v shellu. Tzn. můžeš tu rouru poskládat ad-hoc na příkazové řádce (teď s tím Bash completion se to konečně dá používat :-), zpracovat nějaká data a zahodit ji (resp. zůstane ti v historii shellu, takže se k ní můžeš vrátit) tzn. něco jako Perl onelinery. A když zjistíš, že se ti to líbí a chtěl bys to používat opakovaně, tak to prostě jen uložíš do .sh souboru a používáš. Zatímco kdybys to musel od samého začátku programovat (tzn. založit si nový soubor, pak ho zase mazat nebo dávat do nějaké správné složky, přepínat okna, spouštět interpret/kompilátor atd.), tak by ses na to asi vykašlal. Mně se celkem často stává, že mám otevřený terminál, jsem v nějaké složce, chci tam něco řešit… ale nestojí mi to za to, abych kvůli tomu začal programovat (vím, že to zní trochu divně, když se programováním živím, ale snad chápeš, co tím chci říct).

Spousta lidí umí SQL (Scheme, AWK, XPath, Python atd.) a je to pro ně přirozený jazyk, ale nikdy by je nenapadlo řešit pomocí něj jednoduché úlohy, protože by si kvůli tomu museli zakládat schéma a tabulky na nějakém serveru, pak to uklízet, řešit hesla… takže to radši nějak zmastí pomocí příkazů typu grep, cut, sed, sort… přitom by to šlo řešit elegantně třeba pomocí GROUP BY nebo window či jiných funkcí atd. Jeden z principů těch Relačních rour je nevytvářet nic moc nového, ale jen zpřístupnit a propojit stávající technologie (programovací/dotazovací jazyky, shelly, formáty…).

Pak jde o násobení možností, které nastává díky tomu jednotnému datovému modelu (relace, místo stromových struktur či grafů obvyklých v objektových programovacích jazycích). Když se podíváš na Big picture na titulní stránce, tak je tam 8 vstupních formátů, 8 výstupních, takže to dává 8×8 možností × počet transformací a s každým dalším modulem se to násobí. To mi na tom přijde zajímavé – že dopíšeš malý jednoduchý modul a najednou jde použít v mnoha různých kontextech, mnoha způsoby.

Klasické unixové roury jsou přesně to samé a hrozně se mi kvůli tomu líbí, ale vždycky mne na nich rozčilovalo to, že jim chybí malý kousek k dokonalosti – ten dobře definovaný společný formát, kterým by se předávala strukturovaná data. Proto to chci k tomu dobře definovanému formátu dotáhnout. V současnosti ta implementace nástrojů předbíhá definici toho formátu (formální specifikace dosud není vydaná), ale to proto, abych mohl praktickým používáním odladit ten formát a nebyl to jen teoretický návrh, který vypadá dobře na papíře, ale pak se v praxi ukáže, že tomu něco chybí nebo přebývá.

Jako Pythonista bys mohl pomoci s návrhem toho modulu relpipe-tr-python – dlouho jsem na to nesáhl a mezi tím jsem pokročil mnohem dál s Guile a AWK moduly, se kterými jsem teď celkem spokojený. Jde v nich filtrovat i upravovat záznamy, přidávat nebo ubírat atributy, měnit jejich typ nebo i přidávat záznamy. V podstatě tam jde dělat totéž co v SQL, akorát to píšeš v jiném jazyce. Totéž bych chtěl pro ten Python, ale je potřeba nějak vyřešit kolize mezi názvy atributů a klíčových slov (v Guile jsem tam dal $ prefix; v AWKu jsem tam dal seznam rezervovaných jmen, která se escapují, když je kolize). Tu syntaxi --where a --for-each bych tam ideálně chtěl zachovat, ať je to jednotné. Může to fungovat i tak, že budeš hodnoty těch atributů tahat z nějaké mapy, ale to mi přijde nepohodlné na psaní (klíče by byly jako textové řetězce v uvozovkách, takže by se v Pythonu ty filtry/transformace nepsaly tak hezky, jako v AWK nebo Guile).

$ relpipe-in-fstab | relpipe-tr-awk --debug-variable-mapping --relation '.*' --where 'device == "proc"' | relpipe-out-tabular 
fstab.variableMapping:
 ╭────────────────────┬───────────────────╮
 │ attribute (string) │ variable (string) │
 ├────────────────────┼───────────────────┤
 │ device             │ device            │
 │ dump               │ dump              │
 │ mount_point        │ mount_point       │
 │ options            │ options           │
 │ pass               │ pass              │
 │ scheme             │ scheme            │
 │ type               │ type              │
 ╰────────────────────┴───────────────────╯
Record count: 7
fstab:
 ╭─────────────────┬─────────────────┬──────────────────────┬───────────────┬─────────────────────┬────────────────┬────────────────╮
 │ scheme (string) │ device (string) │ mount_point (string) │ type (string) │ options    (string) │ dump (integer) │ pass (integer) │
 ├─────────────────┼─────────────────┼──────────────────────┼───────────────┼─────────────────────┼────────────────┼────────────────┤
 │                 │ proc            │ /proc                │ proc          │ noexec,nosuid,nodev │              0 │              0 │
 ╰─────────────────┴─────────────────┴──────────────────────┴───────────────┴─────────────────────┴────────────────┴────────────────╯
Record count: 1



$ relpipe-in-fstab | relpipe-tr-guile --debug-variable-mapping --relation '.*' --where '(string= $device "proc")' | relpipe-out-tabular 
fstab.variableMapping:
 ╭────────────────────┬───────────────────╮
 │ attribute (string) │ variable (string) │
 ├────────────────────┼───────────────────┤
 │ device             │ $device           │
 │ dump               │ $dump             │
 │ mount_point        │ $mount_point      │
 │ options            │ $options          │
 │ pass               │ $pass             │
 │ scheme             │ $scheme           │
 │ type               │ $type             │
 ╰────────────────────┴───────────────────╯
Record count: 7
fstab:
 ╭─────────────────┬─────────────────┬──────────────────────┬───────────────┬─────────────────────┬────────────────┬────────────────╮
 │ scheme (string) │ device (string) │ mount_point (string) │ type (string) │ options    (string) │ dump (integer) │ pass (integer) │
 ├─────────────────┼─────────────────┼──────────────────────┼───────────────┼─────────────────────┼────────────────┼────────────────┤
 │                 │ proc            │ /proc                │ proc          │ noexec,nosuid,nodev │              0 │              0 │
 ╰─────────────────┴─────────────────┴──────────────────────┴───────────────┴─────────────────────┴────────────────┴────────────────╯
Record count: 1

Jde o to, aby člověk mohl jednoduše napsat pár výrazů ve svém oblíbeném jazyce do toho --where a --for-each a jinak to bylo stejné.

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

1.11.2019 00:29 kralyk z abclinuxu | skóre: 29 | blog:
Rozbalit Rozbalit vše Re: Relational pipes v0.14

Jako Pythonista bys mohl pomoci s návrhem toho modulu relpipe-tr-python

Na to nejsem ten správnej člověk, proti relacím a SQLku nic nemam, ale nadšenec taky nejsem.

A python už teď taky moc nedělám. Spíš jsem ho zmiňoval proto, že to je imo takaová lingua franca na tyhle věci...

SPD vůbec není proruská