abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    včera 19:22 | Pozvánky

    Chcete vědět, co se odehrálo ve světě techniky za poslední měsíc? Nebo si popovídat o tom, co zrovna bastlíte? Pak doražte na listopadovou Virtuální Bastlírnu s mikrofonem a kamerou, nalijte si něco k pití a ponořte se s strahovskými bastlíři do diskuze u virtuálního piva o technice i všem možném okolo. Mezi nejvýznamnější novinky patří Průšovo oznámení Core One L, zavedení RFID na filamentech, tisk silikonu nebo nový slicer. Dozvíte se ale i

    … více »
    bkralik | Komentářů: 0
    včera 05:00 | Nová verze

    Vývojáři OpenMW (Wikipedie) oznámili vydání verze 0.50.0 této svobodné implementace enginu pro hru The Elder Scrolls III: Morrowind. Přehled novinek i s náhledy obrazovek v oznámení o vydání.

    Ladislav Hagara | Komentářů: 0
    8.11. 23:11 | Zajímavý software

    Komunita kolem Linux Containers po roce vývoje představila (YouTube) neměnný operační systém IncusOS speciálně navržený pro běh Incusu, tj. komunitního forku nástroje pro správu kontejnerů LXD. IncusOS poskytuje atomické aktualizace prostřednictvím mechanismu A/B aktualizací s využitím samostatných oddílů a vynucuje zabezpečení bootování pomocí UEFI Secure Bootu a modulu TPM 2.0. Postaven je na Debianu 13.

    Ladislav Hagara | Komentářů: 13
    8.11. 22:44 | IT novinky

    Mozilla začne od ledna poskytovat komerční podporu Firefoxu pro firmy. Jedná se o podporu nad rámec stávající podpory, která je k dispozici pro všechny zdarma.

    Ladislav Hagara | Komentářů: 0
    8.11. 03:44 | Komunita

    V Bolzanu probíhá konference SFSCON (South Tyrol Free Software Conference). Jean-Baptiste Kempf, zakladatel a prezident VideoLAN a klíčový vývojář VLC media playeru, byl na ní oceněn cenou European SFS Award 2025 udělovanou Free Software Foundation Europe (FSFE) a Linux User Group Bolzano‑Bozen (LUGBZ).

    Ladislav Hagara | Komentářů: 3
    8.11. 02:44 | Zajímavý projekt

    Open-source minimalistický trackball Ploopy Nano byl po modelech modelech Classic a Thumb Trackball také aktualizován. Nová verze Nano 2 používá optický senzor PAW3222 a k původně beztlačítkovému designu přidává jedno tlačítko, které ve výchozí konfiguraci firmwaru QMK přepíná režim posouvání koulí. Sestavený trackball nyní vyjde na 60 kanadských dolarů (bez dopravy a DPH).

    |🇵🇸 | Komentářů: 3
    7.11. 14:22 | Zajímavý článek

    Github publikoval Octoverse 2025 (YouTube), tj. každoroční přehled o stavu open source a veřejných softwarových projektů na GitHubu. Každou sekundu se připojil více než jeden nový vývojář. Nejpoužívanějším programovacím jazykem se stal TypeScript.

    Ladislav Hagara | Komentářů: 0
    7.11. 09:55 | Komunita

    Kit je nový maskot webového prohlížeče Firefox.

    Ladislav Hagara | Komentářů: 17
    7.11. 00:11 | Nová verze

    Mastodon (Wikipedie) - sociální síť, která není na prodej - byl vydán ve verzi 4.5. Přehled novinek s náhledy v oznámení na blogu.

    Ladislav Hagara | Komentářů: 2
    6.11. 23:55 | IT novinky

    Německo zvažuje, že zaplatí místním telekomunikačním operátorům včetně Deutsche Telekom, aby nahradili zařízení od čínské firmy Huawei. Náklady na výměnu by mohly přesáhnout dvě miliardy eur (bezmála 49 miliard Kč). Jeden scénář počítá s tím, že vláda na tento záměr použije prostředky určené na obranu či infrastrukturu.

    Ladislav Hagara | Komentářů: 1
    Jaké řešení používáte k vývoji / práci?
     (35%)
     (47%)
     (18%)
     (17%)
     (22%)
     (15%)
     (21%)
     (15%)
     (16%)
    Celkem 330 hlasů
     Komentářů: 15, poslední 2.11. 08:25
    Rozcestník

    Dotaz: sed parse html tag

    TheTechnic avatar 6.4.2010 22:25 TheTechnic | skóre: 7
    sed parse html tag
    Přečteno: 458×

    Ahojte, viete mi poradit ako by sa dal vyparsovat vsetok text zo zdrojoveho kodu html stranky, povedzme ze chcem vsetko text medzi tag-mi <pre> a konciacim jeho tagom </pre>

    pricom tieto tagy sa niekolko krat opakuju a chcem vsetko text medzi nimi, vsetko ostatne nejako potrebujem dostat prec.

    Odpovědi

    Fuky avatar 6.4.2010 22:45 Fuky | skóre: 52 | blog: 4u
    Rozbalit Rozbalit vše Re: sed parse html tag
    $ cat index.html |sed -n 's/<pre>\(.*\)<\/pre>/\1/p'
    
    TheTechnic avatar 6.4.2010 23:09 TheTechnic | skóre: 7
    Rozbalit Rozbalit vše Re: sed parse html tag

    super! :) Len problem je v tom, ze mi to nezoberie do ohladu ked mam v zdrojovom kode blok s danym tagom, cize ak mi to nematchne na jedno riadku, tak to nevypise, neviem ako to osetrit? napr.

    <pre>aaaaa
    bbbbbbbbbbbb
    cccccccccccc
    dddddddddddd
    ############ </pre>

    Proste tagy byvaju rozne zalomene. Diky za echo :)

    6.4.2010 23:22 Michal Kubeček | skóre: 71 | Luštěnice
    Rozbalit Rozbalit vše Re: sed parse html tag
    Na něco takového není sed vhodný nástroj, i když by k tomu asi nějak znásilnit šel.
    TheTechnic avatar 6.4.2010 23:29 TheTechnic | skóre: 7
    Rozbalit Rozbalit vše Re: sed parse html tag
    vies teda odporucit iny nastroj, s awk by to neslo lahsie? sice vela sa spomina na internete perl, ale ten je pre mna spanielska dolina, zatial skusam pouzit ten sed.
    Fuky avatar 7.4.2010 00:13 Fuky | skóre: 52 | blog: 4u
    Rozbalit Rozbalit vše Re: sed parse html tag

    Jedno z možných řešení je modul lxml pro Python, HTML soubor pošli na vstup následujícímu skriptu:

    #! /usr/bin/env python
    # -*- coding: utf-8 -*-
    
    import sys
    from lxml import etree
    
    parser = etree.HTMLParser()
    tree = etree.parse(sys.stdin, parser)
    expr = "//*[local-name() = $name]"
    pre_elts = tree.xpath(expr, name="pre")
    
    for pre_elt in pre_elts:
        print pre_elt.text
    

    Pokud používáš distribuci založenou na Debianu musíš mít nainstalovaný balíček python-lxml.

    Fuky avatar 7.4.2010 00:18 Fuky | skóre: 52 | blog: 4u
    Rozbalit Rozbalit vše Re: sed parse html tag
    7.4.2010 00:58 Michal Kubeček | skóre: 71 | Luštěnice
    Rozbalit Rozbalit vše Re: sed parse html tag
    Těžko říct, mně by přišlo nejjednodušší napsat si to v C.
    7.4.2010 11:11 imploder | skóre: 11
    Rozbalit Rozbalit vše Re: sed parse html tag
    Příloha:
    V perlu:
    my $text = join "", <STDIN>;
    my @vnitrky = $text =~ /<pre>(.*?)<\/pre>/sg;
    foreach (@vnitrky) { print $_; }
    
    7.4.2010 05:05 deadmail
    Rozbalit Rozbalit vše Re: sed parse html tag
    Napr. takto:
    sed 's_</pre>_&\n_' SUBOR | sed -nr -e \
    '/<pre>/{:a;s_</pre>_&_;tb;N;ba;:b;s_.*<pre>(.*)</pre>_\1_;p}'
    
    Najprv rozdelime, aby v kazdom riadku bol najviac jeden tag pre. A potom nacitame az po koncovy tag a zobrazime iba obsah ...
    7.4.2010 05:11 deadmail
    Rozbalit Rozbalit vše Re: sed parse html tag
    A mozno jednoduchsie:
    sed 's_</pre>_&\n_' SUBOR | sed -nr -e '/<pre>/,/<\/pre>/
    {
     /.*<pre>/s___
     /<\/pre>/s___
     p
    }'
    
    TheTechnic avatar 7.4.2010 10:01 TheTechnic | skóre: 7
    Rozbalit Rozbalit vše Re: sed parse html tag
    Wow skvele velmi si mi pomohol :) a diky za rady vsetkym ;) Sed powaaa! :D

    Este mi ostali v subore znaky ^M na konci riadkov, pre zmazanie bolo potrebne napr. vo vime pozuit prikaz :%s/\r$// a nasledne na subor pouzit prikaz, ktory maze prazdne riadky a to je pomocou sed '/^$/d'. A tada vsetko co bolo treba je na svete :)

    Este raz dakujem za rady.
    7.4.2010 11:16 deadmail
    Rozbalit Rozbalit vše Re: sed parse html tag
    takze vsetko spojene dokopy:
    sed 's_</pre>_&\n_;/^$/d;s/\r$//' SUBOR | sed -nr '\_<pre>_,\_</pre>_{s_.*<pre>|</pre>__g;p}'
    
    7.4.2010 05:13 deadmail
    Rozbalit Rozbalit vše Re: sed parse html tag
    A mozno jednoduchsie - opravene riadkovanie:
    sed 's_</pre>_&\n_' SUBOR | sed -nr -e '/<pre>/,/<\/pre>/{
     /.*<pre>/s___
     /<\/pre>/s___
     p
    }'
    
    7.4.2010 14:11 l4m4
    Rozbalit Rozbalit vše Re: sed parse html tag
    Nejjednodušší je toto:
    sed -n '/<pre>/,/<\/pre>/{s:.*<pre>::;s:</pre>.*::;p}'
    ale předpokládá se zde, že tag pre skutečně obsahuje nějaké bloky textu, takže se jich nevyskytuje více na jednom řádku.
    7.4.2010 14:45 deadmail
    Rozbalit Rozbalit vše Re: sed parse html tag
    toje presne moje riesenie, bez prvej casti a teda nefunguje ak ich viac na jednom iadku (co som tam pisal) - je to aj v tom doplneni vyssie skratene cez bodkociarky.
    7.4.2010 14:49 deadmail
    Rozbalit Rozbalit vše Re: sed parse html tag
    a este tam je skratene nahradzovanie - jedno namiesto dvoch

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.