Portál AbcLinuxu, 5. května 2025 23:01
Ahojte vsichni.
Mam nekolik odkazu:
<a href="/dafuq/lol/1/">1</a>
<a href="/dafuq/lol/2/">2</a>
<a href="/dafuq/lol/3/">3</a>
<a href="/dafuq/lol/4/">...</a>
<a href="/dafuq/lol/8/">8</a>
<a href="/dafuq/lol/9/">9</a>
Potrebuju z nich dostat tu cislovku na konci odkazu (napr. <a href="/dafuq/lol/9/">9</a>) pomoci regularniho vyrazu. Jak to mam udelat? Regexy mi vubec, vubec nejdou. Predem diky za pomoc
Řešení dotazu:
Uz jsem to vyresil
<a href="/dafuq/[^/]*/([^/\"]*)/">[^<>/]*</a>
xmllint
. Ta umí parsovat HTML o něco lépe.
for $x in doc("input.html")//a return substring-before(substring-after($x/@href, 'lol/'), '/')Možná to nevypadá tak elegantně jako regexp, ale poradí si to i s více odkazy na řádku, zalomenými atributy, komentáři...
lynx -dump -listonly -nonumbers http://abclinuxu.cz/Na vytáhnutí odkazů z HTML to je velice praktické. Pak už ty regulární výrazy lze použít snadno.
Na parsování HTML bych doporučil nástroje k tomu určené a ne regulární výrazy.
$ vim get_a_href.py #! /usr/bin/env python # -*- coding: utf-8 -*- import sys from lxml.html import parse if (len(sys.argv) != 2): print "Usage: %s FILENAME or URL" % sys.argv[0] sys.exit() page = parse(sys.argv[1]) urls = page.xpath('//a/@href') for url in urls: print url $ chmod +x get_a_href.py
<html> <a href="/dafuq/lol/1/">1</a> <a href="/dafuq/lol/2/">2</a> <a href="/dafuq/lol/3/">3</a> <a href="/dafuq/lol/4/">4</a> <a href="/dafuq/lol/5/">5</a> <a href="/dafuq/lol/6/">6</a> <a href="/dafuq/lol/7/">7</a> <a href="/dafuq/lol/8/">8</a> <a href="/dafuq/lol/9/">9</a> </html>Lze všechny URL získat takto:
xpath -q -e '//a/@href' soubor.xmlVýsledek:
href="/dafuq/lol/1/" href="/dafuq/lol/2/" href="/dafuq/lol/3/" href="/dafuq/lol/4/" href="/dafuq/lol/5/" href="/dafuq/lol/6/" href="/dafuq/lol/7/" href="/dafuq/lol/8/" href="/dafuq/lol/9/"
/dafuq/lol/1/ /dafuq/lol/2/ /dafuq/lol/3/ /dafuq/lol/4/ /dafuq/lol/8/ /dafuq/lol/9/nebo
1, 2, 3, 4, 8, 9jinak než sedem? Obvykle používám xsltproc, což je na některé drobnosti zbytečně těžký kalibr. Na jednodušší věci momentálně používám program xqilla, ale úplně mi nesedí.
xpath
vyměnit volání metody toString
za getNodeValue
a případně dál upravit dle potřeby.
#!/usr/bin/perl -w use XML::XPath; $xpath = XML::XPath->new(ioref => \*STDIN); my $names = $xpath->find('//a/@href'); for my $node ($names->get_nodelist) { $_ = $node->getNodeValue; s|^.*/([^/]*)/$|$1|; print $_, "\n"; }A to je celé. Volby jsou pryč, vstupem je STDIN. Dělá to jen to, co chce tazatel, ale přímo z HTML.
Tiskni
Sdílej:
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.