Přihlášení | Registrace

napište » Zprávičky

inzerujte » Pracovní nabídky

Fedora Asahi Remix 40

včera 21:55 | Nová verze

Byl vydán Fedora Asahi Remix 40, tj. linuxová distribuce pro Apple Silicon vycházející z Fedora Linuxu 40.

Ladislav Hagara | Komentářů: 4

Raspberry Pi Connect

včera 20:22 | IT novinky

Představena byla služba Raspberry Pi Connect usnadňující vzdálený grafický přístup k vašim Raspberry Pi z webového prohlížeče. Odkudkoli. Zdarma. Zatím v beta verzi. Detaily v dokumentaci.

Ladislav Hagara | Komentářů: 0

Trinity Desktop Environment (TDE) R14.1.2

včera 12:55 | Nová verze

Byla vydána verze R14.1.2 desktopového prostředí Trinity Desktop Environment (TDE, fork KDE 3.5). Přehled novinek v poznámkách k vydání, podrobnosti v seznamu změn.

JZD | Komentářů: 0

Google Store již také v Česku

7.5. 18:55 | IT novinky

Dnešním dnem lze již také v Česku nakupovat na Google Store (telefony a sluchátka Google Pixel).

Ladislav Hagara | Komentářů: 10

iPad Pro s čipem Apple M4, předělaný iPad Air ve dvou velikostech a nový Apple Pencil Pro

7.5. 18:33 | IT novinky

Apple představil (keynote) iPad Pro s čipem Apple M4, předělaný iPad Air ve dvou velikostech a nový Apple Pencil Pro.

Ladislav Hagara | Komentářů: 2

GCC 14.1

7.5. 17:11 | Nová verze

Richard Biener oznámil vydání verze 14.1 (14.1.0) kolekce kompilátorů pro různé programovací jazyky GCC (GNU Compiler Collection). Jedná se o první stabilní verzi řady 14. Přehled změn, nových vlastností a oprav a aktualizovaná dokumentace na stránkách projektu. Některé zdrojové kódy, které bylo možné přeložit s předchozími verzemi GCC, bude nutné upravit.

Ladislav Hagara | Komentářů: 0

2023 Free Software Awards

7.5. 13:44 | Komunita

Free Software Foundation zveřejnila ocenění Free Software Awards za rok 2023. Vybráni byli Bruno Haible za dlouhodobé příspěvky a správu knihovny Gnulib, nováček Nick Logozzo za front-end Parabolic pro yt-dlp a tým Mission logiciels libres francouzského státu za nasazování svobodného softwaru do praxe.

Fluttershy, yay! | Komentářů: 0

Před 10 lety Microsoft dokončil akvizici divize mobilních telefonů společnosti Nokia

7.5. 13:11 | IT novinky

Před 10 lety Microsoft dokončil akvizici divize mobilních telefonů společnosti Nokia a pod značkou Microsoft Mobile ji zanedlouho pohřbil.

Ladislav Hagara | Komentářů: 2

Fedora 40 release party v Praze

6.5. 21:33 | Komunita

Fedora 40 release party v Praze proběhne v pátek 17. května od 18:30 v prostorách společnosti Etnetera Core na adrese Jankovcova 1037/49, Praha 7. Součástí bude program kratších přednášek o novinkách ve Fedoře.

Ladislav Hagara | Komentářů: 5

Dohoda mezi Stack Overflow a OpenAI

6.5. 21:11 | IT novinky

Stack Overflow se dohodl s OpenAI o zpřístupnění obsahu Stack Overflow pro vylepšení OpenAI AI modelů.

Ladislav Hagara | Komentářů: 1

Centrum | Napsat | Starší

navrhněte » Anketa

Podle hypotézy Mrtvý Internet mj. tvoří většinu online interakcí boti.

Jsem bot. (63%)

Jsem člověk. (7%)

Opravdu jsem člověk! (14%)

Jsem něco jiného. (16%)

Celkem 139 hlasů

Komentářů: 10, poslední včera 17:35

Rozcestník

AbcLinuxu

HDmag.cz

AbcLinuxu:/ Poradna / Programovací poradna / perl - vypreparovani textu z html

Štítky: Debian, distribuce, HTML, KDE, mc, Perl, programování, správci souborů, textové editory, Vim, web

Dotaz: perl - vypreparovani textu z html

11.12.2007 01:53 motorcb | skóre: 12
perl - vypreparovani textu z html

Přečteno: 602×

Odpovědět | Admin

Zdravim. Chtel bych se zeptat jestli je pomoci perlu mozne vypreparovat pouze text z html stranky... Nemate nekdo takovy script?

Nástroje: Začni sledovat (0) ?

Odpovědi

11.12.2007 05:35 Michal Čihař | skóre: 61 | blog: Bláboly | Praha
Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html

Po zadání do Googlu mi jako první výsledek vypadl modul HTML::FormatText, zkoušel si ho?

Weblate - překládání přes web | Gammu SMSD - posílání SMS | Blog

11.12.2007 07:51 happy barney | skóre: 34 | blog: dont_worry_be_happy
Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html

- s/<[^>]+>//gs
- HTML::Parser
- HTML::Tree

11.12.2007 11:19 motorcb | skóre: 12
Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html

Take nevim jak se na to mam Google zeptat :( Protoze to sotva dokazu popsat 2 vetama cesky :) V tom je taky velky problem :(

11.12.2007 11:36 ams
Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html

Kdyz jde o Perl, prvni misto kde je vhodne zacit hledat je CPAN. Kdyz tam zadate napr. "html extract text" tak dostanete jako prvni odkaz modul File::Extract::HTML. Pak uz staci

use File::Extract::HTML;
print File::Extract::HTML::extract("soubor.html");

11.12.2007 12:37 motorcb | skóre: 12
Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html

#!/usr/bin/perl
use File::Extract::HTML;
print File::Extract::HTML::extract("pokus.html");

Hlasi:

delli:~/perl# ./htmlparser.pl
Can't locate File/Extract/HTML.pm in @INC (@INC contains: /etc/perl /usr/local/lib/perl/5.8.8 /usr/local/share/perl/5.8.8 /usr/lib/perl5 /usr/share/perl5 /usr/lib/perl/5.8 /usr/share/perl/5.8 /usr/local/lib/site_perl .) at ./htmlparser.pl line 3.
BEGIN failed--compilation aborted at ./htmlparser.pl line 3.

11.12.2007 12:39 myšák | skóre: 26 | blog: EmentuX | Ostrava
Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html

No ale když ten modul nemáte (velmi pravděpodobně) nainstalovaný, tak ho asi těžko můžete použít...

Je nesmírně těžké být idiotem, konkurence je obrovská...

11.12.2007 12:44 motorcb | skóre: 12
Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html

Ano, s nejvetsi pravdepodobnosti ho nemam nainstalovany. Jak se prosim nainstaluje? Diky

11.12.2007 12:57 Käyttäjä 11133 | skóre: 58 | blog: Ajattelee menneisyyttä
Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html

To záleží na distribuci..

11.12.2007 12:59 Käyttäjä 11133 | skóre: 58 | blog: Ajattelee menneisyyttä
Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html

Mohlo by stačit nakopírovat někam tenhle soubor, pokud na tento modul nemáte balíček. Ale kam ho nakopírovat IMHO záleží na distribuci.

11.12.2007 13:05 happy barney | skóre: 34 | blog: dont_worry_be_happy
Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html

perl -MCPAN -e 'install File::Extract::HTML'

11.12.2007 13:39 motorcb | skóre: 12
Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html

Distribuce Debian

delli:~# perl -MCPAN -e 'install File::Extract::HTML'
CPAN: Storable loaded ok
Going to read /root/.cpan/Metadata
  Database was generated on Tue, 11 Dec 2007 00:37:43 GMT
File::Extract::HTML is up to date.
delli:~# mc
delli:~/perl# ./htmlparser.pl
Can't locate object method "mime_type" via package "test.html" (perhaps you forgot to load "test.html"?) at /usr/local/share/perl/5.8.8/File/Extract/HTML.pm line 25.

11.12.2007 13:52 outsider
Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html

Manualova stranka nefunguje? Sice vim, co je spatne, ale kdyz vidim tak malo snahy... se mi skoro nechce ani radit...

11.12.2007 13:56 motorcb | skóre: 12
Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html

Opravdu nevim pod cim by se to nechalo najit :(

11.12.2007 14:09 outsider
Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html

Prekvapive

man File::Extract::HTML

man File::Extract

man File::Extract::Result

11.12.2007 13:55 outsider
Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html

Asi takhle by to mohlo fungovat (ale nemam vyzkouseno):

use File::Extract::HTML;
my $e = File::Extract::HTML->new();
my $r = $e->extract($filename);
print $r->text;

11.12.2007 14:23 motorcb | skóre: 12
Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html

Funguje to super,ale neslo by to jeste poupravit aby to davalo mezery mezi to co bylo v tagach? ted to dela toto:

kdyz mam nekolik odkazu za sebou v li,tak ty odkazy tocpe hned za sebe a je bych mezi ne potreboval mezery.HOMEAKTUALITYNOVINKY a ja bych mezi ty tagy potreboval dat mezeru HOME AKTUALITY NOVINKY Jinak by to bylo uplne dokonaly :) Nevedel by nekdo jak na to?

12.12.2007 13:01 mlz
Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html

Nesystemové:


s/<LI>/  c; /gi

Nejsem si jist, umí-li FILE::EXTRACT entity

Systemově HTML::Parser, který dokáže definovat, co s jednotlivými tokeny/tagy

22.12.2007 23:20 motorcb | skóre: 12
Rozbalit Rozbalit vše Re: perl - vypreparovani textu z html

Ukázková html stránka:

<html>

<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<title>Jednoduchá www stránkalt;/title>
</head>

<body>

<p>Vítejte na mé jednoduché www stránce</p>

Menu:
<ul>
<li>Home</li>
<li>Aktuality</li>
<li>Ostatnbí</li>
<li>Položka</li>
</ul<

Tabulka:
<table>
<tr>
<td width="25%">řádek1</td>
<td width="25%">sloupec1</td>
<td width="25%">sloupec2</td>
<td width="25%">sloupec3</td>
</tr>
<tr>
<td width="25%">řádek2</td>
<td width="25%">sloupec1</td>
<td width="25%">sloupec2</td>
<td width="25%">sloupec3</td>
</tr>
<tr>
<td width="25%">řádek3</td>
<td width="25%">sloupec1</td>
<td width="25%">sloupec2</td>
<td width="25%">loupec3</td>
</tr>
</table>

</body>
</html>
Na kterou byl poslan tento script:


#!/usr/bin/perl

#use File::Extract::HTML;

#print File::Extract::HTML::extract("test.html");

open(SOUBOR, ">soubor.txt");

use File::Extract::HTML;

my $e = File::Extract::HTML->new();

my $r = $e->extract("test.html");

print SOUBOR $r->text;

close(SOUBOR);

Vyplivne:


Jednoduchá www stránkaVítejte na mé jednoduché www stránce Menu: HomeAktualityOstatnbíPoložka Tabulka: řádek1sloupec1sloupec2sloupec3řádek2sloupec1sloupec2sloupec3řádek3sloupec1sloupec2sloupec3

A ja bych potreboval aby byli mezi jednotlivyma polozkama mezery:


Jednoduchá www stránka Vítejte na mé jednoduché www stránce Menu: Home Aktuality Ostatnbí Položka Tabulka: řádek1 sloupec1 sloupec2 sloupec3 řádek2 sloupec1 sloupec2 sloupec3 řádek3 sloupec1 sloupec2 sloupec3

Nevedel by nekdo? Predem kekuji :)

Založit nové vlákno • Nahoru

Tiskni Sdílej:

Píšeme jinde

ISSN 1214-1267 www.czech-server.cz

Redakce | Inzerce | Podmínky použití | Osobní údaje