abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×

včera 11:00 | Zajímavý software
Na Good Old Games je v rámci aktuálních zimních slev zdarma k dispozici remasterovaná verze klasické point&click adventury Grim Fandango, a to bez DRM a pro mainstreamové OS včetně GNU/Linuxu. Akce trvá do 14. prosince, 15:00 SEČ.
Fluttershy, yay! | Komentářů: 6
včera 07:22 | Pozvánky

Konference InstallFest 2018 proběhne o víkendu 3. a 4. března 2018 v Praze na Karlově náměstí 13. Spuštěno bylo CFP. Přihlásit přednášku nebo workshop lze do 18. ledna 2018.

Ladislav Hagara | Komentářů: 0
12.12. 20:22 | Nová verze

Před měsícem byla vydána Fedora 27 ve dvou edicích: Workstation pro desktopové a Atomic pro cloudové nasazení. Fedora Server byl "vzhledem k náročnosti přechodu na modularitu" vydán pouze v betaverzi. Finální verze byla naplánována na leden 2018. Plán byl zrušen. Fedora 27 Server byl vydán již dnes. Jedná se ale o "klasický" server. Modularita se odkládá.

Ladislav Hagara | Komentářů: 6
12.12. 10:22 | Zajímavý článek

Lukáš Růžička v článku Kuchařka naší Růži aneb vaříme rychlou polévku z Beameru na MojeFedora.cz ukazuje "jak si rychle vytvořit prezentaci v LaTeXu, aniž bychom se přitom pouštěli do jeho bezedných hlubin".

Ladislav Hagara | Komentářů: 13
12.12. 07:22 | Komunita

Od 26. do 29. října proběhla v Bochumi European Coreboot Conference 2017 (ECC'17). Na programu této konference vývojářů a uživatelů corebootu, tj. svobodné náhrady proprietárních BIOSů, byla řada zajímavých přednášek. Jejich videozáznamy jsou postupně uvolňovány na YouTube.

Ladislav Hagara | Komentářů: 0
11.12. 19:22 | Nová verze

Ondřej Filip, výkonný ředitel sdružení CZ.NIC, oznámil vydání verze 2.0.0 open source routovacího démona BIRD (Wikipedie). Přehled novinek v diskusním listu a v aktualizované dokumentaci.

Ladislav Hagara | Komentářů: 0
11.12. 09:22 | Pozvánky

V Praze dnes probíhá Konference e-infrastruktury CESNET. Na programu je řada zajímavých přednášek. Sledovat je lze i online na stránce konference.

Ladislav Hagara | Komentářů: 2
9.12. 20:11 | Nová verze

Byl vydán Debian 9.3, tj. třetí opravná verze Debianu 9 s kódovým názvem Stretch a Debian 8.10, tj. desátá opravná verze Debianu 8 s kódovým názvem Jessie. Řešeny jsou především bezpečnostní problémy, ale také několik vážných chyb. Instalační média Debianu 9 a Debianu 8 lze samozřejmě nadále k instalaci používat. Po instalaci stačí systém aktualizovat.

Ladislav Hagara | Komentářů: 12
9.12. 00:44 | Nová verze

Po 6 měsících vývoje od vydání verze 0.13.0 byla vydána verze 0.14.0 správce balíčků GNU Guix a na něm postavené systémové distribuce GuixSD (Guix System Distribution). Na vývoji se podílelo 88 vývojářů. Přibylo 1 211 nových balíčků. Jejich aktuální počet je 6 668. Aktualizována byla také dokumentace.

Ladislav Hagara | Komentářů: 4
8.12. 21:33 | Nová verze

Po půl roce vývoje od vydání verze 5.9 byla vydána nová stabilní verze 5.10 toolkitu Qt. Přehled novinek na wiki stránce. Současně byla vydána nová verze 4.5.0 integrovaného vývojového prostředí (IDE) Qt Creator nebo verze 1.10 nástroje pro překlad a sestavení programů ze zdrojových kódů Qbs.

Ladislav Hagara | Komentářů: 0
Jak se vás potenciálně dotkne trend odstraňování analogového audio konektoru typu 3,5mm jack z „chytrých telefonů“?
 (8%)
 (1%)
 (1%)
 (1%)
 (75%)
 (14%)
Celkem 977 hlasů
 Komentářů: 45, poslední 1.12. 19:00
    Rozcestník

    Dotaz: sed parse html tag

    TheTechnic avatar 6.4.2010 22:25 TheTechnic | skóre: 7
    sed parse html tag
    Přečteno: 402×

    Ahojte, viete mi poradit ako by sa dal vyparsovat vsetok text zo zdrojoveho kodu html stranky, povedzme ze chcem vsetko text medzi tag-mi <pre> a konciacim jeho tagom </pre>

    pricom tieto tagy sa niekolko krat opakuju a chcem vsetko text medzi nimi, vsetko ostatne nejako potrebujem dostat prec.

    Odpovědi

    Fuky avatar 6.4.2010 22:45 Fuky | skóre: 52 | blog: 4u
    Rozbalit Rozbalit vše Re: sed parse html tag
    $ cat index.html |sed -n 's/<pre>\(.*\)<\/pre>/\1/p'
    
    TheTechnic avatar 6.4.2010 23:09 TheTechnic | skóre: 7
    Rozbalit Rozbalit vše Re: sed parse html tag

    super! :) Len problem je v tom, ze mi to nezoberie do ohladu ked mam v zdrojovom kode blok s danym tagom, cize ak mi to nematchne na jedno riadku, tak to nevypise, neviem ako to osetrit? napr.

    <pre>aaaaa
    bbbbbbbbbbbb
    cccccccccccc
    dddddddddddd
    ############ </pre>

    Proste tagy byvaju rozne zalomene. Diky za echo :)

    6.4.2010 23:22 Michal Kubeček | skóre: 71 | Luštěnice
    Rozbalit Rozbalit vše Re: sed parse html tag
    Na něco takového není sed vhodný nástroj, i když by k tomu asi nějak znásilnit šel.
    TheTechnic avatar 6.4.2010 23:29 TheTechnic | skóre: 7
    Rozbalit Rozbalit vše Re: sed parse html tag
    vies teda odporucit iny nastroj, s awk by to neslo lahsie? sice vela sa spomina na internete perl, ale ten je pre mna spanielska dolina, zatial skusam pouzit ten sed.
    Fuky avatar 7.4.2010 00:13 Fuky | skóre: 52 | blog: 4u
    Rozbalit Rozbalit vše Re: sed parse html tag

    Jedno z možných řešení je modul lxml pro Python, HTML soubor pošli na vstup následujícímu skriptu:

    #! /usr/bin/env python
    # -*- coding: utf-8 -*-
    
    import sys
    from lxml import etree
    
    parser = etree.HTMLParser()
    tree = etree.parse(sys.stdin, parser)
    expr = "//*[local-name() = $name]"
    pre_elts = tree.xpath(expr, name="pre")
    
    for pre_elt in pre_elts:
        print pre_elt.text
    

    Pokud používáš distribuci založenou na Debianu musíš mít nainstalovaný balíček python-lxml.

    Fuky avatar 7.4.2010 00:18 Fuky | skóre: 52 | blog: 4u
    Rozbalit Rozbalit vše Re: sed parse html tag
    7.4.2010 00:58 Michal Kubeček | skóre: 71 | Luštěnice
    Rozbalit Rozbalit vše Re: sed parse html tag
    Těžko říct, mně by přišlo nejjednodušší napsat si to v C.
    7.4.2010 11:11 imploder | skóre: 11
    Rozbalit Rozbalit vše Re: sed parse html tag
    Příloha:
    V perlu:
    my $text = join "", <STDIN>;
    my @vnitrky = $text =~ /<pre>(.*?)<\/pre>/sg;
    foreach (@vnitrky) { print $_; }
    
    7.4.2010 05:05 deadmail
    Rozbalit Rozbalit vše Re: sed parse html tag
    Napr. takto:
    sed 's_</pre>_&\n_' SUBOR | sed -nr -e \
    '/<pre>/{:a;s_</pre>_&_;tb;N;ba;:b;s_.*<pre>(.*)</pre>_\1_;p}'
    
    Najprv rozdelime, aby v kazdom riadku bol najviac jeden tag pre. A potom nacitame az po koncovy tag a zobrazime iba obsah ...
    7.4.2010 05:11 deadmail
    Rozbalit Rozbalit vše Re: sed parse html tag
    A mozno jednoduchsie:
    sed 's_</pre>_&\n_' SUBOR | sed -nr -e '/<pre>/,/<\/pre>/
    {
     /.*<pre>/s___
     /<\/pre>/s___
     p
    }'
    
    TheTechnic avatar 7.4.2010 10:01 TheTechnic | skóre: 7
    Rozbalit Rozbalit vše Re: sed parse html tag
    Wow skvele velmi si mi pomohol :) a diky za rady vsetkym ;) Sed powaaa! :D

    Este mi ostali v subore znaky ^M na konci riadkov, pre zmazanie bolo potrebne napr. vo vime pozuit prikaz :%s/\r$// a nasledne na subor pouzit prikaz, ktory maze prazdne riadky a to je pomocou sed '/^$/d'. A tada vsetko co bolo treba je na svete :)

    Este raz dakujem za rady.
    7.4.2010 11:16 deadmail
    Rozbalit Rozbalit vše Re: sed parse html tag
    takze vsetko spojene dokopy:
    sed 's_</pre>_&\n_;/^$/d;s/\r$//' SUBOR | sed -nr '\_<pre>_,\_</pre>_{s_.*<pre>|</pre>__g;p}'
    
    7.4.2010 05:13 deadmail
    Rozbalit Rozbalit vše Re: sed parse html tag
    A mozno jednoduchsie - opravene riadkovanie:
    sed 's_</pre>_&\n_' SUBOR | sed -nr -e '/<pre>/,/<\/pre>/{
     /.*<pre>/s___
     /<\/pre>/s___
     p
    }'
    
    7.4.2010 14:11 l4m4
    Rozbalit Rozbalit vše Re: sed parse html tag
    Nejjednodušší je toto:
    sed -n '/<pre>/,/<\/pre>/{s:.*<pre>::;s:</pre>.*::;p}'
    ale předpokládá se zde, že tag pre skutečně obsahuje nějaké bloky textu, takže se jich nevyskytuje více na jednom řádku.
    7.4.2010 14:45 deadmail
    Rozbalit Rozbalit vše Re: sed parse html tag
    toje presne moje riesenie, bez prvej casti a teda nefunguje ak ich viac na jednom iadku (co som tam pisal) - je to aj v tom doplneni vyssie skratene cez bodkociarky.
    7.4.2010 14:49 deadmail
    Rozbalit Rozbalit vše Re: sed parse html tag
    a este tam je skratene nahradzovanie - jedno namiesto dvoch

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.