abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    včera 15:33 | Nová verze

    Open source platforma Home Assistant (Demo, GitHub, Wikipedie) pro monitorování a řízení inteligentní domácnosti byla vydána v nové verzi 2025.8.

    Ladislav Hagara | Komentářů: 2
    včera 14:22 | IT novinky

    Herní studio Hangar 13 vydalo novou Mafii. Mafia: Domovina je zasazena do krutého sicilského podsvětí na začátku 20. století. Na ProtonDB je zatím bez záznamu.

    Ladislav Hagara | Komentářů: 0
    včera 13:22 | IT novinky

    Operátor O2 má opět problémy. Jako omluvu za pondělní zhoršenou dostupnost služeb dal všem zákazníkům poukaz v hodnotě 300 Kč na nákup telefonu nebo příslušenství.

    Ladislav Hagara | Komentářů: 5
    včera 05:55 | IT novinky

    Společnost OpenAI představila GPT-5 (YouTube).

    Ladislav Hagara | Komentářů: 0
    včera 05:00 | Nová verze

    Byla vydána (𝕏) červencová aktualizace aneb nová verze 1.103 editoru zdrojových kódů Visual Studio Code (Wikipedie). Přehled novinek i s náhledy a videi v poznámkách k vydání. Ve verzi 1.103 vyjde také VSCodium, tj. komunitní sestavení Visual Studia Code bez telemetrie a licenčních podmínek Microsoftu.

    Ladislav Hagara | Komentářů: 0
    7.8. 17:33 | IT novinky

    Americký prezident Donald Trump vyzval nového generálního ředitele firmy na výrobu čipů Intel, aby odstoupil. Prezident to zdůvodnil vazbami nového šéfa Lip-Bu Tana na čínské firmy.

    Ladislav Hagara | Komentářů: 8
    7.8. 16:55 | Nová verze

    Bylo vydáno Ubuntu 24.04.3 LTS, tj. třetí opravné vydání Ubuntu 24.04 LTS s kódovým názvem Noble Numbat. Přehled novinek a oprav na Discourse.

    Ladislav Hagara | Komentářů: 0
    7.8. 16:44 | Nová verze

    Byla vydána verze 1.89.0 programovacího jazyka Rust (Wikipedie). Podrobnosti v poznámkách k vydání. Vyzkoušet Rust lze například na stránce Rust by Example.

    Ladislav Hagara | Komentářů: 0
    7.8. 12:22 | IT novinky

    Americká technologická společnost Apple uskuteční v USA další investice ve výši sta miliard dolarů (2,1 bilionu korun). Oznámil to ve středu šéf firmy Tim Cook při setkání v Bílém domě s americkým prezidentem Donaldem Trumpem. Trump zároveň oznámil záměr zavést stoprocentní clo na polovodiče z dovozu.

    Ladislav Hagara | Komentářů: 5
    7.8. 04:55 | Nová verze

    Zálohovací server Proxmox Backup Server byl vydán v nové stabilní verzi 4.0. Založen je na Debianu 13 Trixie.

    Ladislav Hagara | Komentářů: 0
    Kolik tabů máte standardně otevřeno ve web prohlížeči?
     (46%)
     (21%)
     (4%)
     (5%)
     (3%)
     (1%)
     (1%)
     (18%)
    Celkem 312 hlasů
     Komentářů: 23, poslední 4.8. 13:01
    Rozcestník

    Dotaz: perl - vypreparovani textu z html

    11.12.2007 01:53 motorcb | skóre: 12
    perl - vypreparovani textu z html
    Přečteno: 633×
    Zdravim. Chtel bych se zeptat jestli je pomoci perlu mozne vypreparovat pouze text z html stranky... Nemate nekdo takovy script?

    Odpovědi

    11.12.2007 05:35 Michal Čihař | skóre: 61 | blog: Bláboly | Praha
    Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html
    Po zadání do Googlu mi jako první výsledek vypadl modul HTML::FormatText, zkoušel si ho?
    11.12.2007 07:51 happy barney | skóre: 34 | blog: dont_worry_be_happy
    Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html
    - s/<[^>]+>//gs
    - HTML::Parser
    - HTML::Tree
    11.12.2007 11:19 motorcb | skóre: 12
    Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html
    Take nevim jak se na to mam Google zeptat :( Protoze to sotva dokazu popsat 2 vetama cesky :) V tom je taky velky problem :(
    11.12.2007 11:36 ams
    Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html
    Kdyz jde o Perl, prvni misto kde je vhodne zacit hledat je CPAN. Kdyz tam zadate napr. "html extract text" tak dostanete jako prvni odkaz modul File::Extract::HTML. Pak uz staci
    use File::Extract::HTML;
    print File::Extract::HTML::extract("soubor.html");
    
    11.12.2007 12:37 motorcb | skóre: 12
    Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html
    #!/usr/bin/perl
    use File::Extract::HTML;
    print File::Extract::HTML::extract("pokus.html");
    
    Hlasi:
    delli:~/perl# ./htmlparser.pl
    Can't locate File/Extract/HTML.pm in @INC (@INC contains: /etc/perl /usr/local/lib/perl/5.8.8 /usr/local/share/perl/5.8.8 /usr/lib/perl5 /usr/share/perl5 /usr/lib/perl/5.8 /usr/share/perl/5.8 /usr/local/lib/site_perl .) at ./htmlparser.pl line 3.
    BEGIN failed--compilation aborted at ./htmlparser.pl line 3.
    
    11.12.2007 12:39 myšák | skóre: 26 | blog: EmentuX | Ostrava
    Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html

    No ale když ten modul nemáte (velmi pravděpodobně) nainstalovaný, tak ho asi těžko můžete použít...

    Je nesmírně těžké být idiotem, konkurence je obrovská...
    11.12.2007 12:44 motorcb | skóre: 12
    Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html
    Ano, s nejvetsi pravdepodobnosti ho nemam nainstalovany. Jak se prosim nainstaluje? Diky
    11.12.2007 12:57 Käyttäjä 11133 | skóre: 58 | blog: Ajattelee menneisyyttä
    Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html
    To záleží na distribuci..
    11.12.2007 12:59 Käyttäjä 11133 | skóre: 58 | blog: Ajattelee menneisyyttä
    Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html
    Mohlo by stačit nakopírovat někam tenhle soubor, pokud na tento modul nemáte balíček. Ale kam ho nakopírovat IMHO záleží na distribuci.
    11.12.2007 13:05 happy barney | skóre: 34 | blog: dont_worry_be_happy
    Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html
    perl -MCPAN -e 'install File::Extract::HTML'
    11.12.2007 13:39 motorcb | skóre: 12
    Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html
    Distribuce Debian
    delli:~# perl -MCPAN -e 'install File::Extract::HTML'
    CPAN: Storable loaded ok
    Going to read /root/.cpan/Metadata
      Database was generated on Tue, 11 Dec 2007 00:37:43 GMT
    File::Extract::HTML is up to date.
    delli:~# mc
    delli:~/perl# ./htmlparser.pl
    Can't locate object method "mime_type" via package "test.html" (perhaps you forgot to load "test.html"?) at /usr/local/share/perl/5.8.8/File/Extract/HTML.pm line 25.
    
    11.12.2007 13:52 outsider
    Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html
    Manualova stranka nefunguje? Sice vim, co je spatne, ale kdyz vidim tak malo snahy... se mi skoro nechce ani radit...
    11.12.2007 13:56 motorcb | skóre: 12
    Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html
    Opravdu nevim pod cim by se to nechalo najit :(
    11.12.2007 14:09 outsider
    Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html
    Prekvapive

    man File::Extract::HTML

    a

    man File::Extract

    a

    man File::Extract::Result
    11.12.2007 13:55 outsider
    Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html
    Asi takhle by to mohlo fungovat (ale nemam vyzkouseno):
    use File::Extract::HTML;
    my $e = File::Extract::HTML->new();
    my $r = $e->extract($filename);
    print $r->text;
    
    11.12.2007 14:23 motorcb | skóre: 12
    Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html
    Funguje to super,ale neslo by to jeste poupravit aby to davalo mezery mezi to co bylo v tagach? ted to dela toto:

    kdyz mam nekolik odkazu za sebou v li,tak ty odkazy tocpe hned za sebe a je bych mezi ne potreboval mezery.HOMEAKTUALITYNOVINKY a ja bych mezi ty tagy potreboval dat mezeru HOME AKTUALITY NOVINKY Jinak by to bylo uplne dokonaly :) Nevedel by nekdo jak na to?
    12.12.2007 13:01 mlz
    Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html
    Nesystemové: s/<LI>/  c; /gi Nejsem si jist, umí-li FILE::EXTRACT entity

    Systemově HTML::Parser, který dokáže definovat, co s jednotlivými tokeny/tagy
    22.12.2007 23:20 motorcb | skóre: 12
    Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html
    Ukázková html stránka:

    <html>

    <head>
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
    <title>Jednoduchá www stránkalt;/title>
    </head>

    <body>

    <p>Ví­tejte na mé jednoduché www stránce</p>

    Menu:
    <ul>
    <li>Home</li>
    <li>Aktuality</li>
    <li>Ostatnbí</li>
    <li>Položka</li>
    </ul<

    Tabulka:
    <table>
    <tr>
    <td width="25%">řádek1</td>
    <td width="25%">sloupec1</td>
    <td width="25%">sloupec2</td>
    <td width="25%">sloupec3</td>
    </tr>
    <tr>
    <td width="25%">řádek2</td>
    <td width="25%">sloupec1</td>
    <td width="25%">sloupec2</td>
    <td width="25%">sloupec3</td>
    </tr>
    <tr>
    <td width="25%">řádek3</td>
    <td width="25%">sloupec1</td>
    <td width="25%">sloupec2</td>
    <td width="25%">loupec3</td>
    </tr>
    </table>

    </body>
    </html>
    Na kterou byl poslan tento script:

    #!/usr/bin/perl
    #use File::Extract::HTML;
    #print File::Extract::HTML::extract("test.html");
    open(SOUBOR, ">soubor.txt");
    use File::Extract::HTML;
    my $e = File::Extract::HTML->new();
    my $r = $e->extract("test.html");
    print SOUBOR $r->text;
    close(SOUBOR);


    Vyplivne:

    Jednoduchá www stránkaVítejte na mé jednoduché www stránce Menu: HomeAktualityOstatnbíPoložka Tabulka: řádek1sloupec1sloupec2sloupec3řádek2sloupec1sloupec2sloupec3řádek3sloupec1sloupec2sloupec3

    A ja bych potreboval aby byli mezi jednotlivyma polozkama mezery: Jednoduchá www stránka Vítejte na mé jednoduché www stránce Menu: Home Aktuality Ostatnbí Položka Tabulka: řádek1 sloupec1 sloupec2 sloupec3 řádek2 sloupec1 sloupec2 sloupec3 řádek3 sloupec1 sloupec2 sloupec3
    Nevedel by nekdo? Predem kekuji :)

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.