abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 01:22 | Nová verze

    Podman (Pod Manager), nástroj umožňující vytvářet a provozovat kontejnery, aniž by uživatel potřeboval práva roota, byl vydán v nové major verzi 6.0.0. Přehled novinek v poznámkách k vydání. Řešena je i vážná bezpečnostní chyba CVE-2026-57231.

    Ladislav Hagara | Komentářů: 0
    dnes 00:11 | IT novinky

    Společnost Sony oznámila, že od ledna 2028 přestane vydávat nové hry pro PlayStation na fyzických discích. Všechny budoucí tituly budou dostupné výhradně v digitální podobě na PlayStation Store.

    Ladislav Hagara | Komentářů: 0
    včera 16:55 | Nová verze

    Google Chrome 150 byl prohlášen za stabilní. Nejnovější stabilní verze 150.0.7871.46 přináší řadu novinek. Podrobný přehled v poznámkách k vydání. Opraveno bylo 433 bezpečnostních chyb. Vylepšeny byly také nástroje pro vývojáře.

    Ladislav Hagara | Komentářů: 0
    včera 13:00 | Nová verze

    Soudní dvůr Evropské unie potvrdil rekordní pokutu 4,125 miliardy eur (100 miliard Kč) americké technologické firmě Google ze skupiny Alphabet. Pokutu firmě v roce 2018 vyměřila Evropská komise (EK) za to, že Google podle ní zneužívá operačního systému Android k potlačení konkurence na trhu vyhledávacích služeb.

    Ladislav Hagara | Komentářů: 17
    včera 12:44 | IT novinky

    Administrativa amerického prezidenta Donalda Trumpa povolila firmě Anthropic obnovit plný přístup klientů k modelům umělé inteligence (AI) Fable 5 a Mythos 5. Ty byly nedostupné bezmála tři týdny kvůli bezpečnostním obavám vlády, třebaže americké ministerstvo obchodu minulý pátek povolilo omezený přístup k modelu Mythos 5 pro některé „důvěryhodné“ domácí organizace.

    Ladislav Hagara | Komentářů: 1
    včera 12:22 | Zajímavý článek

    Francúzska organizácia na ochranu spotrebiteľa, po viac než ôsmych rokoch skúmania, žaluje Epson za plánované zastarávanie tlačiarní. Súd sa začína dnes, 2. 7. 2026, vo francúzskom Nanterre.

    Vlado99 | Komentářů: 5
    včera 03:00 | Zajímavý software

    Erin Catto, autor open source 2D fyzikálního enginu Box2D (Wikipedie), představil nový 3D fyzikální engine Box3D. Engine je již používán ve hře The Legend of California.

    Ladislav Hagara | Komentářů: 0
    včera 01:00 | Nová verze

    Byla vydána nová verze 4.0.0 multiplatformního svobodného frameworku pro zpracování obrazu G'MIC (GREYC's Magic for Image Computing, Wikipedie). Přehled novinek i s náhledy nových filtrů na PIXLS.US.

    Ladislav Hagara | Komentářů: 1
    1.7. 14:22 | Zajímavý článek

    Český statistický úřad (ČSÚ): Průměrná hrubá měsíční mzda ICT specialistů v roce 2025 meziročně vzrostla o 6 % na téměř 100 tisíc korun. Nejlépe placeni byli vývojáři softwaru. Dlouhodobým trendem zůstává nízké zastoupení žen, a to jak mezi specialisty, tak studenty těchto oborů.

    Ladislav Hagara | Komentářů: 15
    1.7. 14:11 | IT novinky

    Ochranný svaz autorský (OSA) připravuje žalobu na společnost Suno, která umožňuje generování hudby pomocí umělé inteligence (AI). ČTK to sdělil předseda představenstva OSA Roman Strejček. Suno podle něj bez souhlasu využívá k trénování svých modelů hudbu autorů, které svaz zastupuje. Nedávný investigativní materiál magazínu The Atlantic ukázal, že firmy jako Suno nebo Udio k trénování modelů používají rozsáhlé databáze obsahující miliony skladeb. V databázích, které časopis zveřejnil, lze dohledat i písně řady českých a slovenských umělců.

    Ladislav Hagara | Komentářů: 3
    Které desktopové prostředí na Linuxu používáte?
     (11%)
     (8%)
     (2%)
     (17%)
     (31%)
     (4%)
     (6%)
     (3%)
     (16%)
     (26%)
    Celkem 2038 hlasů
     Komentářů: 30, poslední 3.4. 20:20
    Rozcestník


    Dotaz: Parsovani HTML pomoci regularnich vyrazu

    Bundas avatar 20.9.2014 18:17 Bundas | skóre: 14 | Pardubice
    Parsovani HTML pomoci regularnich vyrazu
    Přečteno: 476×

    Ahojte vsichni.

    Mam nekolik odkazu:
    <a href="/dafuq/lol/1/">1</a>
    <a href="/dafuq/lol/2/">2</a>
    <a href="/dafuq/lol/3/">3</a>
    <a href="/dafuq/lol/4/">...</a>
    <a href="/dafuq/lol/8/">8</a>
    <a href="/dafuq/lol/9/">9</a>

    Potrebuju z nich dostat tu cislovku na konci odkazu (napr. <a href="/dafuq/lol/9/">9</a>) pomoci regularniho vyrazu. Jak to mam udelat? Regexy mi vubec, vubec nejdou. Predem diky za pomoc

    Abe the Messiah has come.

    Řešení dotazu:


    Odpovědi

    Řešení 1× (Bundas (tazatel))
    Bundas avatar 20.9.2014 18:30 Bundas | skóre: 14 | Pardubice
    Rozbalit Rozbalit vše Re: Parsovani HTML pomoci regularnich vyrazu

    Uz jsem to vyresil

     

    <a href="/dafuq/[^/]*/([^/\"]*)/">[^<>/]*</a>

    Abe the Messiah has come.
    20.9.2014 19:21 Kit | skóre: 46 | Brno
    Rozbalit Rozbalit vše Re: Parsovani HTML pomoci regularnich vyrazu
    Zkus ještě utilitu xmllint. Ta umí parsovat HTML o něco lépe.
    Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.
    20.9.2014 19:58 Kit | skóre: 46 | Brno
    Rozbalit Rozbalit vše Re: Parsovani HTML pomoci regularnich vyrazu
    Místo regexpu se dá použít také XQuery:
    for $x in doc("input.html")//a
        return substring-before(substring-after($x/@href, 'lol/'), '/')
    
    Možná to nevypadá tak elegantně jako regexp, ale poradí si to i s více odkazy na řádku, zalomenými atributy, komentáři...
    Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.
    Jakub Lucký avatar 20.9.2014 23:36 Jakub Lucký | skóre: 40 | Praha
    Rozbalit Rozbalit vše Re: Parsovani HTML pomoci regularnich vyrazu
    If you understand, things are just as they are; if you do not understand, things are just as they are.
    Josef Kufner avatar 21.9.2014 01:01 Josef Kufner | skóre: 70
    Rozbalit Rozbalit vše Re: Parsovani HTML pomoci regularnich vyrazu
    lynx -dump -listonly -nonumbers http://abclinuxu.cz/
    Na vytáhnutí odkazů z HTML to je velice praktické. Pak už ty regulární výrazy lze použít snadno.
    Hello world ! Segmentation fault (core dumped)
    21.9.2014 08:09 Kit | skóre: 46 | Brno
    Rozbalit Rozbalit vše Re: Parsovani HTML pomoci regularnich vyrazu
    Paráda. Lynx používám, ale o této volbě jsem netušil. Díky.
    Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.
    Fuky avatar 21.9.2014 09:07 Fuky | skóre: 52 | blog: 4u
    Rozbalit Rozbalit vše Re: Parsovani HTML pomoci regularnich vyrazu

    Na parsování HTML bych doporučil nástroje k tomu určené a ne regulární výrazy.

    $ vim get_a_href.py
    #! /usr/bin/env python
    # -*- coding: utf-8 -*-
    
    import sys
    from lxml.html import parse
    
    if (len(sys.argv) != 2):
        print "Usage: %s FILENAME or URL" % sys.argv[0]
        sys.exit()
    
    page = parse(sys.argv[1])
    urls = page.xpath('//a/@href')
    
    for url in urls:
        print url
    $ chmod +x get_a_href.py
    
    21.9.2014 15:04 Petr | skóre: 29
    Rozbalit Rozbalit vše Re: Parsovani HTML pomoci regularnich vyrazu
    Jeste bych se pripojil ke kolegovi, mam podobny dotaz ale ohledne parsovani XML - pro obcasne potreby pouzivam reg. vyrazy, je nejaky silnejsi nastroj v linuxu pod licenci GNU?
    Fuky avatar 21.9.2014 15:09 Fuky | skóre: 52 | blog: 4u
    Rozbalit Rozbalit vše Re: Parsovani HTML pomoci regularnich vyrazu
    21.9.2014 15:29 Kit | skóre: 46 | Brno
    Rozbalit Rozbalit vše Re: Parsovani HTML pomoci regularnich vyrazu
    xmllint, xmlstarlet, xqilla, xsltproc, xmlto,...
    Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.
    Josef Kufner avatar 21.9.2014 15:31 Josef Kufner | skóre: 70
    Rozbalit Rozbalit vše Re: Parsovani HTML pomoci regularnich vyrazu
    Je, ale těžko se hledají. Ono většinou se s XML pracuje z větších programů prostřednictvím knihoven a pro příkazový řádek toho moc není.

    Zkus: xpath, xmllint, xsltproc

    Například z XML v dotazu:
    <html>
    <a href="/dafuq/lol/1/">1</a>
    <a href="/dafuq/lol/2/">2</a>
    <a href="/dafuq/lol/3/">3</a>
    <a href="/dafuq/lol/4/">4</a>
    <a href="/dafuq/lol/5/">5</a>
    <a href="/dafuq/lol/6/">6</a>
    <a href="/dafuq/lol/7/">7</a>
    <a href="/dafuq/lol/8/">8</a>
    <a href="/dafuq/lol/9/">9</a>
    </html>
    Lze všechny URL získat takto:
    xpath -q -e '//a/@href' soubor.xml
    Výsledek:
     href="/dafuq/lol/1/"
     href="/dafuq/lol/2/"
     href="/dafuq/lol/3/"
     href="/dafuq/lol/4/"
     href="/dafuq/lol/5/"
     href="/dafuq/lol/6/"
     href="/dafuq/lol/7/"
     href="/dafuq/lol/8/"
     href="/dafuq/lol/9/"
    Hello world ! Segmentation fault (core dumped)
    21.9.2014 15:53 Kit | skóre: 46 | Brno
    Rozbalit Rozbalit vše Re: Parsovani HTML pomoci regularnich vyrazu
    Teď koukám na xpath. Dalo by se z toho dostat např.
    /dafuq/lol/1/
    /dafuq/lol/2/
    /dafuq/lol/3/
    /dafuq/lol/4/
    /dafuq/lol/8/
    /dafuq/lol/9/
    
    nebo
    1, 2, 3, 4, 8, 9
    jinak než sedem? Obvykle používám xsltproc, což je na některé drobnosti zbytečně těžký kalibr. Na jednodušší věci momentálně používám program xqilla, ale úplně mi nesedí.
    Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.
    21.9.2014 16:17 Kit | skóre: 46 | Brno
    Rozbalit Rozbalit vše Re: Parsovani HTML pomoci regularnich vyrazu
    Tak už jsem na to přišel sám. Stačí v tom perlovém skriptu xpath vyměnit volání metody toString za getNodeValue a případně dál upravit dle potřeby.
    Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.
    Josef Kufner avatar 21.9.2014 17:35 Josef Kufner | skóre: 70
    Rozbalit Rozbalit vše Re: Parsovani HTML pomoci regularnich vyrazu
    Nechceš to dát jako volbu a poslat autorům patch?
    Hello world ! Segmentation fault (core dumped)
    21.9.2014 17:56 Kit | skóre: 46 | Brno
    Rozbalit Rozbalit vše Re: Parsovani HTML pomoci regularnich vyrazu
    To není špatný nápad. Celý ten skript má jen 200 řádek, dá se to v něm snadno najít, ale přidání další volby pro mne není úplně triviální, protože v Perlu moc nedělám.

    Asi bych to musel nejprve trochu refaktorovat, aby se to tam dalo přidat jako volba. Otázkou je, zda má smysl se tím zabývat, protože podobných utilit je (jak vidno) hromada.
    Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.
    Josef Kufner avatar 21.9.2014 18:36 Josef Kufner | skóre: 70
    Rozbalit Rozbalit vše Re: Parsovani HTML pomoci regularnich vyrazu
    Tak aspoň pošli feature request s diffem, třeba to doplní. Ono těch snadno použitelných nástrojů zas tak moc není.
    Hello world ! Segmentation fault (core dumped)
    21.9.2014 19:14 Kit | skóre: 46 | Brno
    Rozbalit Rozbalit vše Re: Parsovani HTML pomoci regularnich vyrazu
    Nerad dodělávám další vlastnosti. Raději odstraňuji ty, které považuji za zbytečné. Po odstranění zbytečných řádek zbylo z původních 205 jen 10.

    Máme kolem sebe tolik univerzálně použitelných nástrojů, až se mi někdy jeví jako univerzálně nepoužitelné. Redukce je občas nezbytná.
    Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.
    21.9.2014 19:07 Kit | skóre: 46 | Brno
    Rozbalit Rozbalit vše Re: Parsovani HTML pomoci regularnich vyrazu
    Tak místo odpovědi autorům jsem ten skript trochu zkrátil a posílám ho sem:
    #!/usr/bin/perl -w
    
    use XML::XPath;
    $xpath = XML::XPath->new(ioref => \*STDIN);
    my $names = $xpath->find('//a/@href');
    for my $node ($names->get_nodelist) {
        $_ = $node->getNodeValue;
        s|^.*/([^/]*)/$|$1|;
        print $_, "\n";
    }
    
    A to je celé. Volby jsou pryč, vstupem je STDIN. Dělá to jen to, co chce tazatel, ale přímo z HTML.
    Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.