Přihlášení | Registrace

napište » Zprávičky

dnes 16:11 | Nová verze

Bylo oznámeno (cs) vydání Fedora Linuxu 40. Přehled novinek ve Fedora Workstation 40 a Fedora KDE 40 na stránkách Fedora Magazinu. Současně byl oznámen notebook Slimbook Fedora 2.

Ladislav Hagara | Komentářů: 0

Smyšlené texty na ČTK

dnes 13:44 | Upozornění

ČTK (Česká tisková kancelář) upozorňuje (X), že na jejím zpravodajském webu České noviny byly dnes dopoledne neznámým útočníkem umístěny dva smyšlené texty, které nepocházejí z její produkce. Jde o text s titulkem „BIS zabránila pokusu o atentát na nově zvoleného slovenského prezidenta Petra Pelligriniho“ a o údajné mimořádné prohlášení ministra Lipavského k témuž. Tyto dezinformace byly útočníky zveřejněny i s příslušnými notifikacemi v mobilní aplikaci Českých novin. ČTK ve svém zpravodajském servisu žádnou informaci v tomto znění nevydala.

Ladislav Hagara | Komentářů: 8

Open Home Foundation

dnes 13:33 | Komunita

Byla založena nadace Open Home Foundation zastřešující více než 240 projektů, standardů, ovladačů a knihoven (Home Assistant, ESPHome, Zigpy, Piper, Improv Wi-Fi, Wyoming, …) pro otevřenou chytrou domácnost s důrazem na soukromí, možnost výběru a udržitelnost.

Ladislav Hagara | Komentářů: 0

Meta Horizon OS

dnes 13:00 | Nová verze

Společnost Meta otevírá svůj operační systém Meta Horizon OS pro headsety pro virtuální a rozšířenou realitu. Vedle Meta Quest se bude používat i v připravovaných headsetech od Asusu a Lenova.

Ladislav Hagara | Komentářů: 0

Společnost Espressif získala většinový podíl ve společnosti M5Stack

dnes 04:33 | IT novinky

Společnost Espressif (ESP8266, ESP32, …) získala většinový podíl ve společnosti M5Stack, čímž posiluje ekosystém AIoT.

Ladislav Hagara | Komentářů: 0

Audacity 3.5 s podporou cloudu

včera 23:44 | Nová verze

Byla vydána nová stabilní verze 3.5 svobodného multiplatformního softwaru pro editování a nahrávání zvukových souborů Audacity (Wikipedie). Přehled novinek také na YouTube. Nově lze využívat cloud (audio.com). Ke stažení je oficiální AppImage. Zatím starší verze Audacity lze instalovat také z Flathubu a Snapcraftu.

Ladislav Hagara | Komentářů: 0

50 let operačního systému CP/M

včera 16:44 | Zajímavý článek

50 let operačního systému CP/M, článek na webu Computer History Museum věnovaný operačnímu systému CP/M. Gary Kildall z Digital Research jej vytvořil v roce 1974.

Ladislav Hagara | Komentářů: 1

Prague PostgreSQL Developer Day 2024 / program a registrace

včera 16:22 | Pozvánky

Byl zveřejněn program a spuštěna registrace na letošní konferenci Prague PostgreSQL Developer Day, která se koná 4. a 5. června. Na programu jsou 4 workshopy a 8 přednášek na různá témata o PostgreSQL, od konfigurace a zálohování po využití pro AI a vector search. Stejně jako v předchozích letech se konference koná v prostorách FIT ČVUT v Praze.

TomasVondra | Komentářů: 0

Po 48 letech Zilog končí s výrobou 8bitového mikroprocesoru Zilog Z80

včera 03:00 | IT novinky

Po 48 letech Zilog končí s výrobou 8bitového mikroprocesoru Zilog Z80 (Z84C00 Z80). Mikroprocesor byl uveden na trh v červenci 1976. Poslední objednávky jsou přijímány do 14. června [pdf].

Ladislav Hagara | Komentářů: 6

Kingdom Come: Deliverance II

včera 02:00 | IT novinky

Ještě letos vyjde Kingdom Come: Deliverance II (YouTube), pokračování počítačové hry Kingdom Come: Deliverance (Wikipedie, ProtonDB Gold).

Ladislav Hagara | Komentářů: 11

Centrum | Napsat | Starší

navrhněte » Anketa

KDE Plasma 6

už používám (71%)

čekám, až se dostane do mé distibuce (10%)

čekám na pozdější vydání v řadě (2%)

preferuji jiné desktopové prostředí (17%)

Celkem 689 hlasů

Komentářů: 4, poslední 6.4. 15:51

Rozcestník

AbcLinuxu

HDmag.cz

AbcLinuxu:/ Poradna / Linuxová poradna / XML a grep

Štítky: grep, ICA, XML

Dotaz: XML a grep

25.9.2021 11:43 Paulus | skóre: 15 | Jihlava
XML a grep

Přečteno: 388×

Odpovědět | Admin

Dobrý den, hledám nějaký konzolový nástroj, který by mi pro XML dovedl vrátit všechny kompletní záznamy, které obsahují hledaný text.

U přiloženého souboru bych chtěl všechny elementy Subjekt, které budou obsahovat konkrétní IČa. (např 72063271 a 65018826). Ale budu hledat i text, který může mít různé tagy.

Řešení dotazu:

Komentář #3 (Kit, 3 hlasů)
Komentář #2 (X, 2 hlasů)
Komentář #6 (xkucf03, 1 hlasů)

Nástroje: Začni sledovat (2) ?

Odpovědi

25.9.2021 11:52 Paulus | skóre: 15 | Jihlava
Rozbalit Rozbalit vše Re: XML a grep

Příloha se bohužel nenahrála. Je tady tady (600 kB, jsou to open data z obchodního rejstříku).

Řešení 2× (d.c., Gréta)

25.9.2021 12:21 X
Rozbalit Rozbalit vše Re: XML a grep

Na zpracovani XML grep fakt ne. Daleko pohodlnejsi je pouzit XML parser a XPATH. Priklad v Pythonu:

#!/usr/bin/python3

from lxml import etree

with open('zajzdrpo-full-ceske_budejovice-2021.xml', 'rb') as f:
        root = etree.parse(f)
        print(root.xpath('./Subjekt[ico = 4163311]'))

25.9.2021 20:54 Gréta | skóre: 36 | blog: Grétin blogísek | 🇮🇱==❤️ , 🇵🇸==💩 , 🇪🇺==☭
Rozbalit Rozbalit vše Re: XML a grep

víc krásnější je beautifulsoup která taky umí dělat s lxml parserem hele :O ;D

oslavná píseň na pana soudruha generalisima prezidentčíka Petra Pavla Pávka 🎶🫡🦚🎶

25.9.2021 21:03 Gréta | skóre: 36 | blog: Grétin blogísek | 🇮🇱==❤️ , 🇵🇸==💩 , 🇪🇺==☭
Rozbalit Rozbalit vše Re: XML a grep

#!/usr/bin/env python3

from bs4 import BeautifulSoup
import argparse

# suběkt jakoby musí mit všecky iča nebo stačí aspoň jedno??????? :O :O
def najdi_subjekty(subjekty, ica):
    nalezene_subjekty = []
    for sub in subjekty:
        ico = int(sub.find("ico").text)
        if ico in ica:
            nalezene_subjekty.append(sub)

    return nalezene_subjekty


if __name__ == "__main__":

    parser = argparse.ArgumentParser()
    parser.add_argument(
        "-n", "--nazev", help="*.xml co se prohledavaj", required=True, type=str
    )
    parser.add_argument(
        "-i",
        "--ica",
        nargs="+",
        help="všecky ty ica co se jakoze hledaj",
        required=True,
        type=int,
    )
    args = parser.parse_args()

    with open(args.nazev, "r") as file:

        xml = BeautifulSoup(file.read(), "lxml")
        subjekty = xml.find_all(
            "subjekt"
        )  # musíme napsat malý první písmenko do názvu tagu :O :O
        subs = najdi_subjekty(subjekty, args.ica)

        print(f"nalezeno {len(subs)} subektu z celkovyho poctu {len(subjekty)}")
        for sub in subs:
            print("-" * 80)
            print(sub.prettify())

a použije se to jakoby takle třeba

./skript.py -n zajzdrpo-full-ceske_budejovice-2021.xml -i 75138514

oslavná píseň na pana soudruha generalisima prezidentčíka Petra Pavla Pávka 🎶🫡🦚🎶

Řešení 3× (Aleš Kapica, d.c., Gréta)

25.9.2021 12:36 Kit | skóre: 45 | Brno
Rozbalit Rozbalit vše Re: XML a grep

xgrep, XQilla nebo XMLStarlet.

Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.

Řešení 1× (Gréta)

25.9.2021 21:49 xkucf03 | skóre: 49 | blog: xkucf03
Rozbalit Rozbalit vše Re: XML a grep

cat zajzdrpo-full-ceske_budejovice-2021.xml \
    | relpipe-in-xmltable \
        --relation 'subjekt' \
            --records '//Subjekt[ico="72063271" or ico="65018826"]' \
            --attribute 'ičo'   string 'ico' \
            --attribute 'název' string 'nazev' \
            --attribute 'xml'   string '.' --mode raw-xml \
    | relpipe-out-tabular | less -RSi

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

25.9.2021 23:19 X
Rozbalit Rozbalit vše Re: XML a grep

Suggestions: Bylo by mozne to kompilovat jako samostatnou binarku pod nazvem 'relpipe', ktera by byla parametrizovatelna a zahrnovala vsechny varianty? Takovy "I/O svicarsky nuz", ale na datove soubory? Takto, jak je to dlouhe a nasekane na jednotlive komponenty(relpipe-in-xml,relpipe-in-csv..) je zdlouhave na vypisovani, ale:

relpipe -in json .. | relpipe -out csv ..
relpipe --xml ..

bych fakt bral jako hodne super. Zaroven tam nevidim relpipe-in-json. hodou okolnosti XML/CSV/JSON hodne pouzivam a vypisovat to v Python je pro jednorazove ucely otrava. Dobra prace!

25.9.2021 23:59 xkucf03 | skóre: 49 | blog: xkucf03
Rozbalit Rozbalit vše Re: XML a grep + Relational pipes

Bylo by mozne to kompilovat jako samostatnou binarku pod nazvem 'relpipe', ktera by byla parametrizovatelna a zahrnovala vsechny varianty? Takovy "I/O svicarsky nuz", ale na datove soubory? Takto, jak je to dlouhe a nasekane na jednotlive komponenty(relpipe-in-xml,relpipe-in-csv..) je zdlouhave na vypisovani

Teoreticky by šlo udělat nějaký metamodul, který by sesypal všechny zdrojáky dohromady a udělal z toho jednu binárku (za cenu toho, že to přestane být modulární a bude to záviset na všech knihovnách). Ale spíš jsem si říkal, že by to bylo lepší řešit formou skriptu.

Ať tak či tak, v obou případech je trochu problém, jak navrhnout to CLI rozhraní. Když je to rozdělené na vstup, transformaci a výstup a oddělené | rourami, tak je jasné, který parametr patří ke kterému příkazu/modulu. Pokud to bude v jednom, tak můžou některé volby kolidovat, nebude to tak přehledné a asi by bylo potřeba k těm parametrům přidat nějaké prefixy.

Co se týče jednoduchých konverzí z jednoho formátu do druhého, tak mám např. připravený skript 2xml, na který si stačí udělat symlink, např. json2xml, ini2xml, asn12xml atd. A pak má člověk v jednom krátkém příkazu všechno. Bude to zdokumentované v příští verzi. Podobně může vzniknout např. json2csv atd.

Spíš ale očekávám, že si uživatelé budou psát takové skripty ad-hoc podle svých potřeb, protože napsat to univerzálně je dost komplikované (viz výše).

Nechávám to zatím otevřené – pokud se najde způsob, jak to udělat dostatečně univerzálně a zároveň přehledně, tak by takový švýcarský nůž byl fajn.

Zaroven tam nevidim relpipe-in-json. hodou okolnosti XML/CSV/JSON hodne pouzivam a vypisovat to v Python je pro jednorazove ucely otrava.

V té příští verzi (v0.18) bude relpipe-in-yaml a relpipe-in-yamltable a protože JSON lze považovat za podmnožinu YAMLu, ten parser si poradí i s JSONem a budou tam připravené symlinky relpipe-in-json a relpipe-in-jsontable. Ten první očekává pevně danou strukturu (jedna nebo více relací), např.

"x11_input_device":
  "attribute-metadata":
    - "name": "id"
      "type": "integer"
    - "name": "name"
      "type": "string"
    - "name": "type"
      "type": "string"
  "record":
    - "id": 8
      "name": "Power Button"
      "type": "keyboard"
    - "id": 10
      "name": "Logitech USB Trackball"
      "type": "mouse"
    - "id": 16
      "name": "AT Translated Set 2 keyboard"
      "type": "keyboard"

nebo:

{
   "x11_input_device": {
      "attribute-metadata": [
         {
            "name": "id",
            "type": "integer"
         },
         {
            "name": "name",
            "type": "string"
         },
         {
            "name": "type",
            "type": "string"
         }
      ],
      "record": [
         {
            "id": 8,
            "name": "Power Button",
            "type": "keyboard"
         },
         {
            "id": 10,
            "name": "Logitech USB Trackball",
            "type": "mouse"
         },
         {
            "id": 16,
            "name": "AT Translated Set 2 keyboard",
            "type": "keyboard"
         }
      ]
   }
}

A ten druhý (relpipe-in-*table) bere libovolnou stromovou strukturu v daném formátu a umožňuje nad ní pouštět XPath dotazy a vygenerovat jednu nebo více relací. První XPath dotaz vybírá záznamy a další XPath dotazy (relativní k výsledkům toho prvního) pak vybírají atributy těch záznamů. V té v0.18 budou podporované kromě standardního XML i YAML, JSON, HTML, INI, ASN.1, CBOR a MIME (e-mailové zprávy). Ten HTML modul se může hodit k vytěžování strukturovaných informací z různých webů – ten parser přečte i nevalidní a všelijak zprasené HTML, postaví se z toho normální DOM a nad ním už lze kouzlit s XPath dotazy, jak je člověk zvyklý z XML.

Ještě to zbývá trochu doladit a zdokumentovat, ale ve zdrojácích už to je. Předběžný instalační skript: release-v0.18.sh (v Mercurialu ještě není štítek v0.18, takže to bere tip – nejnovější verzi všeho). Pokud to někdo otestuje ještě před vydáním, budu jedině rád.

Osobně ten asn12xml už nějakou dobu používám pro ladění X.509 certifikátů, P7 podpisů, P12 klíčenek (obecně PKI věcí).