Portál AbcLinuxu, 13. května 2025 23:56
use File::Extract::HTML; print File::Extract::HTML::extract("soubor.html");
#!/usr/bin/perl use File::Extract::HTML; print File::Extract::HTML::extract("pokus.html");Hlasi:
delli:~/perl# ./htmlparser.pl Can't locate File/Extract/HTML.pm in @INC (@INC contains: /etc/perl /usr/local/lib/perl/5.8.8 /usr/local/share/perl/5.8.8 /usr/lib/perl5 /usr/share/perl5 /usr/lib/perl/5.8 /usr/share/perl/5.8 /usr/local/lib/site_perl .) at ./htmlparser.pl line 3. BEGIN failed--compilation aborted at ./htmlparser.pl line 3.
No ale když ten modul nemáte (velmi pravděpodobně) nainstalovaný, tak ho asi těžko můžete použít...
delli:~# perl -MCPAN -e 'install File::Extract::HTML' CPAN: Storable loaded ok Going to read /root/.cpan/Metadata Database was generated on Tue, 11 Dec 2007 00:37:43 GMT File::Extract::HTML is up to date. delli:~# mc delli:~/perl# ./htmlparser.pl Can't locate object method "mime_type" via package "test.html" (perhaps you forgot to load "test.html"?) at /usr/local/share/perl/5.8.8/File/Extract/HTML.pm line 25.
use File::Extract::HTML; my $e = File::Extract::HTML->new(); my $r = $e->extract($filename); print $r->text;
s/<LI>/  c; /gi
Nejsem si jist, umí-li FILE::EXTRACT entity
Systemově HTML::Parser, který dokáže definovat, co s jednotlivými tokeny/tagy
#!/usr/bin/perl
#use File::Extract::HTML;
#print File::Extract::HTML::extract("test.html");
open(SOUBOR, ">soubor.txt");
use File::Extract::HTML;
my $e = File::Extract::HTML->new();
my $r = $e->extract("test.html");
print SOUBOR $r->text;
close(SOUBOR);
Jednoduchá www stránkaVítejte na mé jednoduché www stránce Menu: HomeAktualityOstatnbíPoložka Tabulka: řádek1sloupec1sloupec2sloupec3řádek2sloupec1sloupec2sloupec3řádek3sloupec1sloupec2sloupec3
A ja bych potreboval aby byli mezi jednotlivyma polozkama mezery:
Jednoduchá www stránka Vítejte na mé jednoduché www stránce Menu: Home Aktuality Ostatnbí Položka Tabulka: řádek1 sloupec1 sloupec2 sloupec3 řádek2 sloupec1 sloupec2 sloupec3 řádek3 sloupec1 sloupec2 sloupec3
Tiskni
Sdílej:
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.