abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×

včera 14:33 | Zajímavý projekt

Blender Animation Studio zveřejnilo první epizodu z připravovaného animovaného seriálu The Daily Dweebs o domácím mazlíčkovi jménem Dixey. Ke zhlédnutí také ve 3D s rozlišením 8K.

Ladislav Hagara | Komentářů: 0
včera 12:34 | Komunita

Aktualizovanou počítačovou hru Warhammer 40,000: Dawn of War III v ceně 39,99 eur běžící také na Linuxu lze o víkendu na Steamu hrát zdarma a případně ještě v pondělí koupit s 50% slevou. Do soboty 19:00 lze na Humble Bundle získat zdarma Steam klíč k počítačové hře Sid Meier's Civilization® III v ceně 4,99 eur běžící také ve Wine.

Ladislav Hagara | Komentářů: 0
včera 00:22 | Nasazení Linuxu

Společnost Samsung oznámila, že skrze dokovací stanici DeX a aplikaci Linux on Galaxy bude možno na Samsung Galaxy S8 a S8+ a Galaxy Note 8 provozovat Linux. Distribuce nebyly blíže upřesněny.

Phantom Alien | Komentářů: 10
19.10. 23:55 | Komunita

Společnost Purism na svém blogu oznámila, že její notebooky Librem jsou nově dodávány se zrušeným (neutralized and disabled) Intel Management Engine (ME). Aktualizací corebootu na již prodaných noteboocích lze Management Engine také zrušit. Více v podrobném článku.

Ladislav Hagara | Komentářů: 0
19.10. 21:44 | Nová verze

Organizace Apache Software Foundation (ASF) na svém blogu slaví páté výročí kancelářského balíku Apache OpenOffice jako jejího Top-Level projektu. Při této příležitosti byl vydán Apache OpenOffice 4.1.4 (AOO 4.1.4). Podrobnosti v poznámkách k vydání. Dlouhé čekání na novou verzi tak skončilo.

Ladislav Hagara | Komentářů: 6
19.10. 19:22 | Pozvánky

Již příští týden - 26. a 27. října se v Praze v hotelu Olšanka odehraje OpenWRT Summit. Na webu konference naleznete program a možnost zakoupení lístků - ty stojí 55 dolarů. Čtvrtek bude přednáškový a v pátek se budou odehrávat převážně workshopy a meetingy.

Miška | Komentářů: 1
19.10. 13:44 | Nová verze

Bylo vydáno Ubuntu 17.10 s kódovým názvem Artful Aardvark. Ke stažení jsou Ubuntu Desktop a Server, Ubuntu Cloud Images, Ubuntu Netboot, Kubuntu, Lubuntu a Lubuntu Alternate, Lubuntu Next, Ubuntu Budgie, Ubuntu Kylin, Ubuntu MATE, Ubuntu Studio a Xubuntu. Podrobnosti v poznámkách k vydání.

Ladislav Hagara | Komentářů: 22
19.10. 13:00 | Komunita

MojeFedora.cz informuje, že Fedora 27 dostane podporu pro AAC. Podpora multimediálních formátů je ve výchozí instalaci Fedory tradičně limitovaná kvůli softwarovým patentům, ale desktopový tým Red Hatu se ji i tak snaží v poslední době co nejvíce rozšířit. Už nějaký čas obsahuje kodeky pro MP3, H.264, AC3 a nyní byl přidán také kodek pro další velmi rozšířený zvukový formát – AAC.

Ladislav Hagara | Komentářů: 2
18.10. 23:55 | Pozvánky

Spolek OpenAlt zve příznivce otevřených technologií a otevřeného přístupu na 145. brněnský sraz, který proběhne v pátek 20. října od 18:00 hodin v restauraci Time Out na adrese Novoměstská 2 v Řečkovicích. Jedná se o poslední sraz před konferencí OpenAlt 2017, jež proběhne o víkendu 4. a 5. listopadu 2017 na FIT VUT v Brně. Běží registrace účastníků.

Ladislav Hagara | Komentářů: 0
18.10. 21:44 | Nová verze

Byla vydána verze 5.2.0 multiplatformního virtualizačního nástroje Oracle VM VirtualBox. Jedná se o první stabilní verzi z nové větve 5.2. Z novinek lze zmínit například možnost exportování VM do Oracle Cloudu, bezobslužnou instalaci hostovaného systému nebo vylepšené GUI. Podrobnosti v seznamu změn. Aktualizována byla také dokumentace.

Ladislav Hagara | Komentářů: 2
Jak se vás potenciálně dotkne trend odstraňování analogového audio konektoru typu 3,5mm jack z „chytrých telefonů“?
 (10%)
 (1%)
 (1%)
 (1%)
 (75%)
 (12%)
Celkem 144 hlasů
 Komentářů: 7, poslední 19.10. 23:06
    Rozcestník

    Dotaz: sed parse html tag

    TheTechnic avatar 6.4.2010 22:25 TheTechnic | skóre: 7
    sed parse html tag
    Přečteno: 402×

    Ahojte, viete mi poradit ako by sa dal vyparsovat vsetok text zo zdrojoveho kodu html stranky, povedzme ze chcem vsetko text medzi tag-mi <pre> a konciacim jeho tagom </pre>

    pricom tieto tagy sa niekolko krat opakuju a chcem vsetko text medzi nimi, vsetko ostatne nejako potrebujem dostat prec.

    Odpovědi

    Fuky avatar 6.4.2010 22:45 Fuky | skóre: 52 | blog: 4u
    Rozbalit Rozbalit vše Re: sed parse html tag
    $ cat index.html |sed -n 's/<pre>\(.*\)<\/pre>/\1/p'
    
    TheTechnic avatar 6.4.2010 23:09 TheTechnic | skóre: 7
    Rozbalit Rozbalit vše Re: sed parse html tag

    super! :) Len problem je v tom, ze mi to nezoberie do ohladu ked mam v zdrojovom kode blok s danym tagom, cize ak mi to nematchne na jedno riadku, tak to nevypise, neviem ako to osetrit? napr.

    <pre>aaaaa
    bbbbbbbbbbbb
    cccccccccccc
    dddddddddddd
    ############ </pre>

    Proste tagy byvaju rozne zalomene. Diky za echo :)

    6.4.2010 23:22 Michal Kubeček | skóre: 71 | Luštěnice
    Rozbalit Rozbalit vše Re: sed parse html tag
    Na něco takového není sed vhodný nástroj, i když by k tomu asi nějak znásilnit šel.
    TheTechnic avatar 6.4.2010 23:29 TheTechnic | skóre: 7
    Rozbalit Rozbalit vše Re: sed parse html tag
    vies teda odporucit iny nastroj, s awk by to neslo lahsie? sice vela sa spomina na internete perl, ale ten je pre mna spanielska dolina, zatial skusam pouzit ten sed.
    Fuky avatar 7.4.2010 00:13 Fuky | skóre: 52 | blog: 4u
    Rozbalit Rozbalit vše Re: sed parse html tag

    Jedno z možných řešení je modul lxml pro Python, HTML soubor pošli na vstup následujícímu skriptu:

    #! /usr/bin/env python
    # -*- coding: utf-8 -*-
    
    import sys
    from lxml import etree
    
    parser = etree.HTMLParser()
    tree = etree.parse(sys.stdin, parser)
    expr = "//*[local-name() = $name]"
    pre_elts = tree.xpath(expr, name="pre")
    
    for pre_elt in pre_elts:
        print pre_elt.text
    

    Pokud používáš distribuci založenou na Debianu musíš mít nainstalovaný balíček python-lxml.

    Fuky avatar 7.4.2010 00:18 Fuky | skóre: 52 | blog: 4u
    Rozbalit Rozbalit vše Re: sed parse html tag
    7.4.2010 00:58 Michal Kubeček | skóre: 71 | Luštěnice
    Rozbalit Rozbalit vše Re: sed parse html tag
    Těžko říct, mně by přišlo nejjednodušší napsat si to v C.
    7.4.2010 11:11 imploder | skóre: 11
    Rozbalit Rozbalit vše Re: sed parse html tag
    Příloha:
    V perlu:
    my $text = join "", <STDIN>;
    my @vnitrky = $text =~ /<pre>(.*?)<\/pre>/sg;
    foreach (@vnitrky) { print $_; }
    
    7.4.2010 05:05 deadmail
    Rozbalit Rozbalit vše Re: sed parse html tag
    Napr. takto:
    sed 's_</pre>_&\n_' SUBOR | sed -nr -e \
    '/<pre>/{:a;s_</pre>_&_;tb;N;ba;:b;s_.*<pre>(.*)</pre>_\1_;p}'
    
    Najprv rozdelime, aby v kazdom riadku bol najviac jeden tag pre. A potom nacitame az po koncovy tag a zobrazime iba obsah ...
    7.4.2010 05:11 deadmail
    Rozbalit Rozbalit vše Re: sed parse html tag
    A mozno jednoduchsie:
    sed 's_</pre>_&\n_' SUBOR | sed -nr -e '/<pre>/,/<\/pre>/
    {
     /.*<pre>/s___
     /<\/pre>/s___
     p
    }'
    
    TheTechnic avatar 7.4.2010 10:01 TheTechnic | skóre: 7
    Rozbalit Rozbalit vše Re: sed parse html tag
    Wow skvele velmi si mi pomohol :) a diky za rady vsetkym ;) Sed powaaa! :D

    Este mi ostali v subore znaky ^M na konci riadkov, pre zmazanie bolo potrebne napr. vo vime pozuit prikaz :%s/\r$// a nasledne na subor pouzit prikaz, ktory maze prazdne riadky a to je pomocou sed '/^$/d'. A tada vsetko co bolo treba je na svete :)

    Este raz dakujem za rady.
    7.4.2010 11:16 deadmail
    Rozbalit Rozbalit vše Re: sed parse html tag
    takze vsetko spojene dokopy:
    sed 's_</pre>_&\n_;/^$/d;s/\r$//' SUBOR | sed -nr '\_<pre>_,\_</pre>_{s_.*<pre>|</pre>__g;p}'
    
    7.4.2010 05:13 deadmail
    Rozbalit Rozbalit vše Re: sed parse html tag
    A mozno jednoduchsie - opravene riadkovanie:
    sed 's_</pre>_&\n_' SUBOR | sed -nr -e '/<pre>/,/<\/pre>/{
     /.*<pre>/s___
     /<\/pre>/s___
     p
    }'
    
    7.4.2010 14:11 l4m4
    Rozbalit Rozbalit vše Re: sed parse html tag
    Nejjednodušší je toto:
    sed -n '/<pre>/,/<\/pre>/{s:.*<pre>::;s:</pre>.*::;p}'
    ale předpokládá se zde, že tag pre skutečně obsahuje nějaké bloky textu, takže se jich nevyskytuje více na jednom řádku.
    7.4.2010 14:45 deadmail
    Rozbalit Rozbalit vše Re: sed parse html tag
    toje presne moje riesenie, bez prvej casti a teda nefunguje ak ich viac na jednom iadku (co som tam pisal) - je to aj v tom doplneni vyssie skratene cez bodkociarky.
    7.4.2010 14:49 deadmail
    Rozbalit Rozbalit vše Re: sed parse html tag
    a este tam je skratene nahradzovanie - jedno namiesto dvoch

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.