abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
včera 01:22 | Komunita

Společnost Trump Media & Technology Group (TMTG) založena bývalým prezidentem USA Donaldem Trumpem spouští sociální síť Truth Social. Ta je založena na open source sociální síti Mastodon, jejíž zdrojové kódy jsou k dispozici pod licencí AGPLv3 (GNU Affero General Public License). Zdrojové kódy Truth Social ale k dispozici nejsou a tím pádem je licence AGPLv3 porušována. Dle organizace Software Freedom Conservancy má TMTG 30 dnů na nápravu, tj. zveřejnění zdrojových kódů Truth Social. Pokud se tak nestane, přijde o práva ke zdrojovým kódům sítě Mastodon.

Ladislav Hagara | Komentářů: 33
včera 00:11 | Nová verze

Fabio Loli vydal verzi 21.10 časové osy linuxových distribucí Linux Distributions Timeline. Ke stažení je png i svg. Jedná se o fork již neaktualizovaného GLDT (GNU/Linux Distribution Timeline).

Ladislav Hagara | Komentářů: 0
22.10. 19:00 | Nová verze

Rozšíření Visual Studio Code "Language Support for Java(TM) by Red Hat" dospělo do verze 1.0. Přehled novinek s náhledy a videi v příspěvku na blogu.

Ladislav Hagara | Komentářů: 15
22.10. 14:33 | Komunita

Bylo oznámeno, že konference FOSDEM 2022 (Free and Open source Software Developers’ European Meeting) proběhne online o víkendu 5. a 6. února 2022.

Ladislav Hagara | Komentářů: 0
22.10. 08:00 | Zajímavý projekt

Dactyl-Manuform (kombinace DactylManuform) je svého druhu populární typ ergonomické klávesnice. Existuje několik parametrických generátorů variant šasi pro 3D tisk, řada forků a dokonce několik drobných výrobců nabízí sady nebo již sestavené klávesnice: patří mezi ně např. Bastard Keyboards (dříve HID Technologies), jenž nyní zveřejnil schémata tvrdých ohebných PCB ([1] [2]) pod licencí Creative Commons BY-NC-SA 4.0. Oproti původnímu ručnímu drátování je to krok k více funkcím (podsvícené či hotswap spínače) a příp. sériové výrobě.

Fluttershy, yay! | Komentářů: 3
22.10. 07:00 | Nová verze

Byla vydána verze 1.56.0 programovacího jazyka Rust (Wikipedie). Současně byla edice Rust 2021 prohlášena za stabilní. Podrobnosti v poznámkách k vydání. Vyzkoušet Rust lze například na stránce Rust by Example.

Ladislav Hagara | Komentářů: 12
21.10. 17:11 | Bezpečnostní upozornění

V PHP byla nalezena bezpečnostní chyba CVE-2021-21703 zneužitelná k lokální eskalaci práv. Opravena je v upstream verzi 8.0.12.

Ladislav Hagara | Komentářů: 5
21.10. 14:11 | Zajímavý projekt

Na Crowd Supply běží kampaň na podporu zařízení KrakenSDR s pěti přijímači RTL-SDR. Lze je používat nezávisle nebo současně jako radiozaměřovač nebo pasivní radar.

Ladislav Hagara | Komentářů: 36
21.10. 11:11 | Komunita

Implementace OpenPGP Sequoia PGP byla přelicencována z GPL 2+ na LGPL 2+. Vývojáři to zdůvodňují na dvou příkladech: Apple nepovoluje GPL software ve svém App Storu a problém s GPL má také Thunderbird.

Ladislav Hagara | Komentářů: 0
21.10. 10:11 | IT novinky

Problémy s výrobou a dodáváním má také Raspberry Pi. Raspberry Pi 4 s 2 GB RAM proto dočasně zdražilo z 35 na 45 dolarů.

Ladislav Hagara | Komentářů: 4
Kolik monitorů (obrazovek) používáte současně?
 (49%)
 (36%)
 (14%)
 (1%)
Celkem 434 hlasů
 Komentářů: 29, poslední 19.10. 07:04
Rozcestník



Dotaz: XML a grep

25.9. 11:43 Paulus | skóre: 15 | Jihlava
XML a grep
Přečteno: 361×
Dobrý den, hledám nějaký konzolový nástroj, který by mi pro XML dovedl vrátit všechny kompletní záznamy, které obsahují hledaný text.

U přiloženého souboru bych chtěl všechny elementy Subjekt, které budou obsahovat konkrétní IČa. (např 72063271 a 65018826). Ale budu hledat i text, který může mít různé tagy.

Řešení dotazu:


Odpovědi

25.9. 11:52 Paulus | skóre: 15 | Jihlava
Rozbalit Rozbalit vše Re: XML a grep
Příloha se bohužel nenahrála. Je tady tady (600 kB, jsou to open data z obchodního rejstříku).
Řešení 3× (jiwopene, d.c., Gréta)
25.9. 12:21 X
Rozbalit Rozbalit vše Re: XML a grep
Na zpracovani XML grep fakt ne. Daleko pohodlnejsi je pouzit XML parser a XPATH. Priklad v Pythonu:
#!/usr/bin/python3

from lxml import etree

with open('zajzdrpo-full-ceske_budejovice-2021.xml', 'rb') as f:
        root = etree.parse(f)
        print(root.xpath('./Subjekt[ico = 4163311]'))
Gréta avatar 25.9. 20:54 Gréta | skóre: 33 | blog: Grétin blogísek | Stockholm
Rozbalit Rozbalit vše Re: XML a grep

víc krásnější je beautifulsoup která taky umí dělat s lxml parserem hele :O ;D

myslíte žeby jako moch zeman dělat úřad a vyprávět bonmoty zapomoci ouija tabulky hele?? :O 👻 :O 👻
Gréta avatar 25.9. 21:03 Gréta | skóre: 33 | blog: Grétin blogísek | Stockholm
Rozbalit Rozbalit vše Re: XML a grep
#!/usr/bin/env python3

from bs4 import BeautifulSoup
import argparse

# suběkt jakoby musí mit všecky iča nebo stačí aspoň jedno??????? :O :O
def najdi_subjekty(subjekty, ica):
    nalezene_subjekty = []
    for sub in subjekty:
        ico = int(sub.find("ico").text)
        if ico in ica:
            nalezene_subjekty.append(sub)

    return nalezene_subjekty


if __name__ == "__main__":

    parser = argparse.ArgumentParser()
    parser.add_argument(
        "-n", "--nazev", help="*.xml co se prohledavaj", required=True, type=str
    )
    parser.add_argument(
        "-i",
        "--ica",
        nargs="+",
        help="všecky ty ica co se jakoze hledaj",
        required=True,
        type=int,
    )
    args = parser.parse_args()

    with open(args.nazev, "r") as file:

        xml = BeautifulSoup(file.read(), "lxml")
        subjekty = xml.find_all(
            "subjekt"
        )  # musíme napsat malý první písmenko do názvu tagu :O :O
        subs = najdi_subjekty(subjekty, args.ica)

        print(f"nalezeno {len(subs)} subektu z celkovyho poctu {len(subjekty)}")
        for sub in subs:
            print("-" * 80)
            print(sub.prettify())

a použije se to jakoby takle třeba

./skript.py -n zajzdrpo-full-ceske_budejovice-2021.xml -i 75138514
myslíte žeby jako moch zeman dělat úřad a vyprávět bonmoty zapomoci ouija tabulky hele?? :O 👻 :O 👻
Řešení 4× (jiwopene, Aleš Kapica, d.c., Gréta)
25.9. 12:36 Kit | skóre: 45 | Brno
Rozbalit Rozbalit vše Re: XML a grep
xgrep, XQilla nebo XMLStarlet.
Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.
Řešení 1× (Gréta)
xkucf03 avatar 25.9. 21:49 xkucf03 | skóre: 49 | blog: xkucf03
Rozbalit Rozbalit vše Re: XML a grep
cat zajzdrpo-full-ceske_budejovice-2021.xml \
    | relpipe-in-xmltable \
        --relation 'subjekt' \
            --records '//Subjekt[ico="72063271" or ico="65018826"]' \
            --attribute 'ičo'   string 'ico' \
            --attribute 'název' string 'nazev' \
            --attribute 'xml'   string '.' --mode raw-xml \
    | relpipe-out-tabular | less -RSi
Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes
25.9. 23:19 X
Rozbalit Rozbalit vše Re: XML a grep
Suggestions: Bylo by mozne to kompilovat jako samostatnou binarku pod nazvem 'relpipe', ktera by byla parametrizovatelna a zahrnovala vsechny varianty? Takovy "I/O svicarsky nuz", ale na datove soubory? Takto, jak je to dlouhe a nasekane na jednotlive komponenty(relpipe-in-xml,relpipe-in-csv..) je zdlouhave na vypisovani, ale:
relpipe -in json .. | relpipe -out csv ..
relpipe --xml ..
bych fakt bral jako hodne super. Zaroven tam nevidim relpipe-in-json. hodou okolnosti XML/CSV/JSON hodne pouzivam a vypisovat to v Python je pro jednorazove ucely otrava. Dobra prace!
xkucf03 avatar 25.9. 23:59 xkucf03 | skóre: 49 | blog: xkucf03
Rozbalit Rozbalit vše Re: XML a grep + Relational pipes
Bylo by mozne to kompilovat jako samostatnou binarku pod nazvem 'relpipe', ktera by byla parametrizovatelna a zahrnovala vsechny varianty? Takovy "I/O svicarsky nuz", ale na datove soubory? Takto, jak je to dlouhe a nasekane na jednotlive komponenty(relpipe-in-xml,relpipe-in-csv..) je zdlouhave na vypisovani

Teoreticky by šlo udělat nějaký metamodul, který by sesypal všechny zdrojáky dohromady a udělal z toho jednu binárku (za cenu toho, že to přestane být modulární a bude to záviset na všech knihovnách). Ale spíš jsem si říkal, že by to bylo lepší řešit formou skriptu.

Ať tak či tak, v obou případech je trochu problém, jak navrhnout to CLI rozhraní. Když je to rozdělené na vstup, transformaci a výstup a oddělené | rourami, tak je jasné, který parametr patří ke kterému příkazu/modulu. Pokud to bude v jednom, tak můžou některé volby kolidovat, nebude to tak přehledné a asi by bylo potřeba k těm parametrům přidat nějaké prefixy.

Co se týče jednoduchých konverzí z jednoho formátu do druhého, tak mám např. připravený skript 2xml, na který si stačí udělat symlink, např. json2xml, ini2xml, asn12xml atd. A pak má člověk v jednom krátkém příkazu všechno. Bude to zdokumentované v příští verzi. Podobně může vzniknout např. json2csv atd.

Spíš ale očekávám, že si uživatelé budou psát takové skripty ad-hoc podle svých potřeb, protože napsat to univerzálně je dost komplikované (viz výše).

Nechávám to zatím otevřené – pokud se najde způsob, jak to udělat dostatečně univerzálně a zároveň přehledně, tak by takový švýcarský nůž byl fajn.

Zaroven tam nevidim relpipe-in-json. hodou okolnosti XML/CSV/JSON hodne pouzivam a vypisovat to v Python je pro jednorazove ucely otrava.

V té příští verzi (v0.18) bude relpipe-in-yamlrelpipe-in-yamltable a protože JSON lze považovat za podmnožinu YAMLu, ten parser si poradí i s JSONem a budou tam připravené symlinky relpipe-in-jsonrelpipe-in-jsontable. Ten první očekává pevně danou strukturu (jedna nebo více relací), např.

"x11_input_device":
  "attribute-metadata":
    - "name": "id"
      "type": "integer"
    - "name": "name"
      "type": "string"
    - "name": "type"
      "type": "string"
  "record":
    - "id": 8
      "name": "Power Button"
      "type": "keyboard"
    - "id": 10
      "name": "Logitech USB Trackball"
      "type": "mouse"
    - "id": 16
      "name": "AT Translated Set 2 keyboard"
      "type": "keyboard"

nebo:

{
   "x11_input_device": {
      "attribute-metadata": [
         {
            "name": "id",
            "type": "integer"
         },
         {
            "name": "name",
            "type": "string"
         },
         {
            "name": "type",
            "type": "string"
         }
      ],
      "record": [
         {
            "id": 8,
            "name": "Power Button",
            "type": "keyboard"
         },
         {
            "id": 10,
            "name": "Logitech USB Trackball",
            "type": "mouse"
         },
         {
            "id": 16,
            "name": "AT Translated Set 2 keyboard",
            "type": "keyboard"
         }
      ]
   }
}

A ten druhý (relpipe-in-*table) bere libovolnou stromovou strukturu v daném formátu a umožňuje nad ní pouštět XPath dotazy a vygenerovat jednu nebo více relací. První XPath dotaz vybírá záznamy a další XPath dotazy (relativní k výsledkům toho prvního) pak vybírají atributy těch záznamů. V té v0.18 budou podporované kromě standardního XML i YAML, JSON, HTML, INI, ASN.1, CBOR a MIME (e-mailové zprávy). Ten HTML modul se může hodit k vytěžování strukturovaných informací z různých webů – ten parser přečte i nevalidní a všelijak zprasené HTML, postaví se z toho normální DOM a nad ním už lze kouzlit s XPath dotazy, jak je člověk zvyklý z XML.

Ještě to zbývá trochu doladit a zdokumentovat, ale ve zdrojácích už to je. Předběžný instalační skript: release-v0.18.sh (v Mercurialu ještě není štítek v0.18, takže to bere tip – nejnovější verzi všeho). Pokud to někdo otestuje ještě před vydáním, budu jedině rád.

Osobně ten asn12xml už nějakou dobu používám pro ladění X.509 certifikátů, P7 podpisů, P12 klíčenek (obecně PKI věcí).

Dobra prace!

Díky

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.