Portál AbcLinuxu, 8. května 2025 22:52

Dotaz: PERL - Získání dat mezi danými TAGY z PHP souboru

28.9.2009 16:51 saky | skóre: 1
PERL - Získání dat mezi danými TAGY z PHP souboru
Přečteno: 545×
Odpovědět | Admin

 Dobrý den. 

Potřeboval bych dostat z php stránky informace obsažené mezi danými TAGy. 

Mám nyní tento kód: 

my $url = 'http://www.example.com/data.php'; 

use LWP::Simple; 

my $content = get $url; 

my @slovo = split(" ", $content); 

print "Celý soubor obsahuje: $content \n"; 

 

 

Jde však o poměrně dlouhou stránku a text který chci získat do proměnné $obsah je uzavřen uprostřed stránky, 

mezi < div id="dulezity_text">...Potřebný text...< /div>. 

Lze nějak získat vše mezi těmito tagy?

 

Moc děkuji všem :o)

 

 

 

 


Řešení dotazu:


Nástroje: Začni sledovat (0) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

28.9.2009 17:24 Vojtěch Horký | skóre: 39 | blog: Vojtův zápisník | Praha
Rozbalit Rozbalit vše Re: PERL - Získání dat mezi danými TAGY z PHP souboru
Odpovědět | | Sbalit | Link | Blokovat | Admin
A nějaký dobře mířený regulární výraz by nestačil? Něco jako
if $content =~ /<div\s+id="dulezity_text"\s+>(.*)<\/div>/ {
    my $text = $1;
} else {
    # není tam
}
Ale jestli v tom divu může být další div, tak bude možná lepší nějaký parser pro HTML než tvořit složité výrazy.
I am always ready to learn although I do not always like to be taught. (W. Churchill)
28.9.2009 17:49 saky | skóre: 1
Rozbalit Rozbalit vše Re: PERL - Získání dat mezi danými TAGY z PHP souboru

 Děkuji moc, to je přesně to co jsem hledal, avšak bohužel mi to stejně nefunguje..

Mám to ještě zabaleno a posláno na příkaz stránka.. Možná mám chybu ve formátu. V kódu mám nyní toto:

 

 

      if ($arg =~ /!stranka/i) {

    my $url = 'http://www.example.com/data.php';

      use LWP::Simple;

    my $content = get $url;

    my @slovo = split(" ", $content);

   if $content =~ /<div\s+id="predpoved_nej_text"\s+>(.*)<\/div>/ {

    my $text = $1;

    print "Soubor obsahuje: $text \n";

     } else {

    print "Soubor neobsahuje žádné informace \n";   

    }  

     } 

 

Nevíte, kde je chyba? .-)

Řešení 1× (saky (tazatel))
28.9.2009 18:34 pht | skóre: 48 | blog: pht
Rozbalit Rozbalit vše Re: PERL - Získání dat mezi danými TAGY z PHP souboru
/<div\s+id="dulezity_text"\s*>(.*?)<\/div>/
In Ada the typical infinite loop would normally be terminated by detonation.
28.9.2009 18:35 pht | skóre: 48 | blog: pht
Rozbalit Rozbalit vše Re: PERL - Získání dat mezi danými TAGY z PHP souboru
Jo, a obvykle je dobré za to dát /xms nebo aspoň /ms, protože spoléhat se na konce řádků v HTML není dobré :)
In Ada the typical infinite loop would normally be terminated by detonation.
28.9.2009 20:39 saky | skóre: 1
Rozbalit Rozbalit vše Re: PERL - Získání dat mezi danými TAGY z PHP souboru

 Bohužel ani tak to nejede... Aplikace ihned spadne i po nahrazení regulérních výrazů dle Vás..

29.9.2009 07:27 pht | skóre: 48 | blog: pht
Rozbalit Rozbalit vše Re: PERL - Získání dat mezi danými TAGY z PHP souboru
Možná by bylo dobrý nějak popsat jaký text dostanete a co přesně z něho chcete dostat a co to znamená že spadne... takhle je to střílení do hnoje naslepo...
In Ada the typical infinite loop would normally be terminated by detonation.
Řešení 1× (saky (tazatel))
29.9.2009 14:39 NeoV | skóre: 23
Rozbalit Rozbalit vše Re: PERL - Získání dat mezi danými TAGY z PHP souboru

 S poslednymi upravami je regex urcite spravny a plne funkcny... mozno by som este upravil moznost vyskytu oboch typov uvodzoviek:

    $content =~ /<div\s+id=["']dulezity_text["']\s*>(.*?)<\/div>/ms

 

btw. ste si isty, ze div element neobsahuje ine atributy ??? Pretoze ak ano (napr. style alebo class,...) tak potom je treba pouzit regex v style:

    $content =~ /<div[^>]+?id=["']dulezity_text["'][^>]*>(.*?)<\/div>/ms

 

Vysledok je potom ulozeny do $1 build-in premennej Perlu...

29.9.2009 14:48 petr_p | skóre: 59 | blog: pb
Rozbalit Rozbalit vše Re: PERL - Získání dat mezi danými TAGY z PHP souboru
Pak tam taky může být atribut id, lang, base, title a kdo ví co ještě. Jak říkám, hrabat se v (X)HTML pomocí řádkové orientovaného editoru je hloupost.
29.9.2009 15:08 pht | skóre: 48 | blog: pht
Rozbalit Rozbalit vše Re: PERL - Získání dat mezi danými TAGY z PHP souboru
Jenže tohle není řádkově orientovaný editor. Extrakce drobných pasáží z HTML pomocí regexpů v Perlu je podstatně jednodušší a rychlejší, než stavět parser na potažmo špatný vstup, protože co si budeme nalhávat, dobrá půlka stránek validátorem nejprojde.
In Ada the typical infinite loop would normally be terminated by detonation.
29.9.2009 16:08 petr_p | skóre: 59 | blog: pb
Rozbalit Rozbalit vše Re: PERL - Získání dat mezi danými TAGY z PHP souboru
Právě že HTML::Parser stráví i špatný kód. Jasně, pokud programátor ví, jaký bude vstup, tak regulární výraz je odpovídající nástroj. Pokud ale chcete pokrýt volnost HTML (kam volitelné atributy podle mě patří), tak je lepší použít Parser.
29.9.2009 16:32 pht | skóre: 48 | blog: pht
Rozbalit Rozbalit vše Re: PERL - Získání dat mezi danými TAGY z PHP souboru
Volitelné atributy vyřídíte pomocí .*? nebo něčeho takového; s regexpama můžete dosáhnout dost velké adaptivity proti efektu autorově rupnutí v kouli, případně extrahovat jednoduše několik nesouvisejících věcí do pole, atp.

Písmenko "e" v Perl je od "extract", a operátor =~ by se neměl podceňovat.
In Ada the typical infinite loop would normally be terminated by detonation.
Řešení 1× (saky (tazatel))
30.9.2009 14:53 ams
Rozbalit Rozbalit vše Re: PERL - Získání dat mezi danými TAGY z PHP souboru

Chybi Vam zavorky kolem podminky v 'if'. Musi byt

if ( $content =~ /tady je ten regexp/ ) {

} else {

}

30.9.2009 15:26 NeoV | skóre: 23
Rozbalit Rozbalit vše Re: PERL - Získání dat mezi danými TAGY z PHP souboru

 hehe dobry postreh.. ale ved na toto mu predsa musel priamo poukazal kompilator hlaskou v style:

syntax error at FILE line N , near "if $content"

, alebo nieco podobne :-)

29.9.2009 11:59 petr_p | skóre: 59 | blog: pb
Rozbalit Rozbalit vše Re: PERL - Získání dat mezi danými TAGY z PHP souboru
Odpovědět | | Sbalit | Link | Blokovat | Admin
Doporučuji použít HTML::Parser. Ušetříte si spoustu nervů se špatně utvořeným HTML.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.