abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 05:33 | Nová verze

    OpenTofu, tj. svobodný a otevřený fork Terraformu vzniknuvší jako reakce na přelicencování Terraformu z MPL na BSL (Business Source License) společností HashiCorp, bylo vydáno ve verzi 1.7.0. Přehled novinek v aktualizované dokumentaci. Vypíchnout lze State encryption.

    Ladislav Hagara | Komentářů: 0
    včera 23:55 | Humor

    Spouštět webový prohlížeč jenom kvůli nákupu kávy? Nestačí ssh? Stačí: ssh terminal.shop (𝕏).

    Ladislav Hagara | Komentářů: 2
    včera 18:11 | Nová verze

    Yocto Project byl vydán ve verzi 5.0. Její kódové jméno je Scarthgap. Yocto Project usnadňuje vývoj vestavěných (embedded) linuxových systémů na míru konkrétním zařízením. Cílem projektu je nabídnou vývojářům vše potřebné. Jedná se o projekt Linux Foundation.

    Ladislav Hagara | Komentářů: 0
    včera 17:56 | Nová verze

    Operační systém 9front, fork operačního systému Plan 9, byl vydán v nové verzi "do not install" (pdf). Více o 9front v FQA.

    Ladislav Hagara | Komentářů: 0
    včera 13:11 | Nová verze

    Svobodná webová platforma pro sdílení a přehrávání videí PeerTube (Wikipedie) byla vydána v nové verzi 6.1. Přehled novinek i s náhledy v oficiálním oznámení a na GitHubu. Řešeny jsou také 2 bezpečnostní chyby.

    Ladislav Hagara | Komentářů: 3
    včera 12:33 | Zajímavý software

    Lennart Poettering na Mastodonu představil utilitu run0. Jedná se o alternativu k příkazu sudo založenou na systemd. Bude součástí systemd verze 256.

    Ladislav Hagara | Komentářů: 14
    29.4. 23:22 | Nová verze

    Hudební přehrávač Amarok byl vydán v nové major verzi 3.0 postavené na Qt5/KDE Frameworks 5. Předchozí verze 2.9.0 vyšla před 6 lety a byla postavená na Qt4. Portace Amaroku na Qt6/KDE Frameworks 6 by měla začít v následujících měsících.

    Ladislav Hagara | Komentářů: 11
    29.4. 21:44 | Komunita

    Ubuntu 24.10 bude Oracular Oriole (věštecká žluva).

    Ladislav Hagara | Komentářů: 13
    29.4. 20:22 | Nová verze

    Byla vydána nová verze 2.45.0 distribuovaného systému správy verzí Git. Přispělo 96 vývojářů, z toho 38 nových. Přehled novinek v příspěvku na blogu GitHubu a v poznámkách k vydání. Vypíchnout lze počáteční podporu repozitářů, ve kterých lze používat SHA-1 i SHA-256.

    Ladislav Hagara | Komentářů: 0
    29.4. 13:33 | IT novinky

    Před 25 lety, ve čtvrtek 29. dubna 1999, byla spuštěna služba "Úschovna".

    Ladislav Hagara | Komentářů: 0
    KDE Plasma 6
     (75%)
     (8%)
     (2%)
     (15%)
    Celkem 888 hlasů
     Komentářů: 4, poslední 6.4. 15:51
    Rozcestník

    Dotaz: sed parse html tag

    TheTechnic avatar 6.4.2010 22:25 TheTechnic | skóre: 7
    sed parse html tag
    Přečteno: 424×

    Ahojte, viete mi poradit ako by sa dal vyparsovat vsetok text zo zdrojoveho kodu html stranky, povedzme ze chcem vsetko text medzi tag-mi <pre> a konciacim jeho tagom </pre>

    pricom tieto tagy sa niekolko krat opakuju a chcem vsetko text medzi nimi, vsetko ostatne nejako potrebujem dostat prec.

    Odpovědi

    Fuky avatar 6.4.2010 22:45 Fuky | skóre: 52 | blog: 4u
    Rozbalit Rozbalit vše Re: sed parse html tag
    $ cat index.html |sed -n 's/<pre>\(.*\)<\/pre>/\1/p'
    
    TheTechnic avatar 6.4.2010 23:09 TheTechnic | skóre: 7
    Rozbalit Rozbalit vše Re: sed parse html tag

    super! :) Len problem je v tom, ze mi to nezoberie do ohladu ked mam v zdrojovom kode blok s danym tagom, cize ak mi to nematchne na jedno riadku, tak to nevypise, neviem ako to osetrit? napr.

    <pre>aaaaa
    bbbbbbbbbbbb
    cccccccccccc
    dddddddddddd
    ############ </pre>

    Proste tagy byvaju rozne zalomene. Diky za echo :)

    6.4.2010 23:22 Michal Kubeček | skóre: 72 | Luštěnice
    Rozbalit Rozbalit vše Re: sed parse html tag
    Na něco takového není sed vhodný nástroj, i když by k tomu asi nějak znásilnit šel.
    TheTechnic avatar 6.4.2010 23:29 TheTechnic | skóre: 7
    Rozbalit Rozbalit vše Re: sed parse html tag
    vies teda odporucit iny nastroj, s awk by to neslo lahsie? sice vela sa spomina na internete perl, ale ten je pre mna spanielska dolina, zatial skusam pouzit ten sed.
    Fuky avatar 7.4.2010 00:13 Fuky | skóre: 52 | blog: 4u
    Rozbalit Rozbalit vše Re: sed parse html tag

    Jedno z možných řešení je modul lxml pro Python, HTML soubor pošli na vstup následujícímu skriptu:

    #! /usr/bin/env python
    # -*- coding: utf-8 -*-
    
    import sys
    from lxml import etree
    
    parser = etree.HTMLParser()
    tree = etree.parse(sys.stdin, parser)
    expr = "//*[local-name() = $name]"
    pre_elts = tree.xpath(expr, name="pre")
    
    for pre_elt in pre_elts:
        print pre_elt.text
    

    Pokud používáš distribuci založenou na Debianu musíš mít nainstalovaný balíček python-lxml.

    Fuky avatar 7.4.2010 00:18 Fuky | skóre: 52 | blog: 4u
    Rozbalit Rozbalit vše Re: sed parse html tag
    7.4.2010 00:58 Michal Kubeček | skóre: 72 | Luštěnice
    Rozbalit Rozbalit vše Re: sed parse html tag
    Těžko říct, mně by přišlo nejjednodušší napsat si to v C.
    7.4.2010 11:11 imploder | skóre: 11
    Rozbalit Rozbalit vše Re: sed parse html tag
    Příloha:
    V perlu:
    my $text = join "", <STDIN>;
    my @vnitrky = $text =~ /<pre>(.*?)<\/pre>/sg;
    foreach (@vnitrky) { print $_; }
    
    7.4.2010 05:05 deadmail
    Rozbalit Rozbalit vše Re: sed parse html tag
    Napr. takto:
    sed 's_</pre>_&\n_' SUBOR | sed -nr -e \
    '/<pre>/{:a;s_</pre>_&_;tb;N;ba;:b;s_.*<pre>(.*)</pre>_\1_;p}'
    
    Najprv rozdelime, aby v kazdom riadku bol najviac jeden tag pre. A potom nacitame az po koncovy tag a zobrazime iba obsah ...
    7.4.2010 05:11 deadmail
    Rozbalit Rozbalit vše Re: sed parse html tag
    A mozno jednoduchsie:
    sed 's_</pre>_&\n_' SUBOR | sed -nr -e '/<pre>/,/<\/pre>/
    {
     /.*<pre>/s___
     /<\/pre>/s___
     p
    }'
    
    TheTechnic avatar 7.4.2010 10:01 TheTechnic | skóre: 7
    Rozbalit Rozbalit vše Re: sed parse html tag
    Wow skvele velmi si mi pomohol :) a diky za rady vsetkym ;) Sed powaaa! :D

    Este mi ostali v subore znaky ^M na konci riadkov, pre zmazanie bolo potrebne napr. vo vime pozuit prikaz :%s/\r$// a nasledne na subor pouzit prikaz, ktory maze prazdne riadky a to je pomocou sed '/^$/d'. A tada vsetko co bolo treba je na svete :)

    Este raz dakujem za rady.
    7.4.2010 11:16 deadmail
    Rozbalit Rozbalit vše Re: sed parse html tag
    takze vsetko spojene dokopy:
    sed 's_</pre>_&\n_;/^$/d;s/\r$//' SUBOR | sed -nr '\_<pre>_,\_</pre>_{s_.*<pre>|</pre>__g;p}'
    
    7.4.2010 05:13 deadmail
    Rozbalit Rozbalit vše Re: sed parse html tag
    A mozno jednoduchsie - opravene riadkovanie:
    sed 's_</pre>_&\n_' SUBOR | sed -nr -e '/<pre>/,/<\/pre>/{
     /.*<pre>/s___
     /<\/pre>/s___
     p
    }'
    
    7.4.2010 14:11 l4m4
    Rozbalit Rozbalit vše Re: sed parse html tag
    Nejjednodušší je toto:
    sed -n '/<pre>/,/<\/pre>/{s:.*<pre>::;s:</pre>.*::;p}'
    ale předpokládá se zde, že tag pre skutečně obsahuje nějaké bloky textu, takže se jich nevyskytuje více na jednom řádku.
    7.4.2010 14:45 deadmail
    Rozbalit Rozbalit vše Re: sed parse html tag
    toje presne moje riesenie, bez prvej casti a teda nefunguje ak ich viac na jednom iadku (co som tam pisal) - je to aj v tom doplneni vyssie skratene cez bodkociarky.
    7.4.2010 14:49 deadmail
    Rozbalit Rozbalit vše Re: sed parse html tag
    a este tam je skratene nahradzovanie - jedno namiesto dvoch

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.