Inzerujte na AbcPráce.cz od 950 Kč

napište » Zprávičky

včera 15:44 | Zajímavý software

Asterinas (GitHub) je v Rustu napsané jádro operačního systému poskytující s jádrem Linux kompatibilní ABI. Vydána byla verze 0.18.0. První distribucí postavenou nad jádrem Asterinas je Asterinas NixOS. Nejedná se o oficiální projekt NixOS a nemá nic společného s NixOS Foundation.

Ladislav Hagara | Komentářů: 1

Kritická zranitelnost v nf_tables (CVE-2026-23111)

včera 13:22 | Zajímavý článek

Podrobně byla rozebrána kritická zranitelnost v nf_tables (CVE-2026-23111). Další lokální eskalace práv na Linuxu. V upstreamu byla zranitelnost již v únoru opravena. Ve zdrojovém kódu stačilo odstranit 1 vykřičník.

Ladislav Hagara | Komentářů: 1

EK nařídila Metě obnovit bezplatný přístup AI konkurence k WhatsAppu

včera 12:11 | Nová verze

Evropská komise (EK) nařídila americké společnosti Meta, že musí znovu umožnit bezplatný přístup konkurenčním obecně zaměřeným asistentům umělé inteligence (AI) k WhatsAppu a tento přístup musí zachovat až do ukončení antimonopolního šetření. Opatření je dočasné a má zabránit vážnému a nevratnému poškození konkurence na rychle rostoucím trhu s obecnými AI asistenty. Meta uvedla, že se proti rozhodnutí odvolá.

Ladislav Hagara | Komentářů: 7

Claude Fable 5 a Claude Mythos 5

včera 11:44 | IT novinky

Společnost Anthropic představila AI modely Claude Fable 5 a Claude Mythos 5. Claude Fable 5 je první model třídy Mythos určený pro běžné použití.

Ladislav Hagara | Komentářů: 0

Alpine Linux 3.24.0

včera 04:44 | Nová verze

Byla vydána nová stabilní verze 3.24.0, tj. první z nové řady 3.24, minimalistické linuxové distribuce zaměřené na bezpečnost Alpine Linux (Wikipedie) postavené na standardní knihovně jazyka C musl libc a BusyBoxu. Přehled novinek v poznámkách k vydání.

Ladislav Hagara | Komentářů: 1

Vývoj operačního systému Redox OS (05/2026)

včera 03:33 | Komunita

Na čem pracují vývojáři v Rustu napsaného mikrokernelového unixového operačního systému Redox OS (Wikipedie)? Byl publikován přehled vývoje za květen. Vypíchnout lze nový scheduler EEVDF nebo port desktopového prostředí Xfce na Redox OS.

Ladislav Hagara | Komentářů: 0

Upozornění pro uživatele Asahi Linuxu: Neaktualizujte macOS na verzi 27 Golden Gate!

9.6. 22:22 | Komunita

Upozornění pro uživatele Asahi Linuxu: Neaktualizujte macOS na verzi 27 Golden Gate! Apple změnil detekci spouštěcích oddílů. Po aktualizaci oddíl s Asahi Linuxem nevidí. Snad je to jenom chyba.

Ladislav Hagara | Komentářů: 5

Prezentace a videa z Dne IPv6 jsou na webu akce

9.6. 15:11 | Komunita

Na webu konference Den IPv6, která se konala 4. června v Národní technické knihovně v pražských Dejvicích, jsou nyní k dispozici všechny prezentace (v PDF) a jejich videozáznamy. Organizátory konference byly i letos sdružení CESNET, CZ.NIC a NIX.CZ.

VSladek | Komentářů: 0

digiKam 9.1.0

9.6. 13:11 | Nová verze

Byla vydána nová verze 9.1.0 správce sbírky fotografií digiKam (Wikipedie). Přehled novinek i s náhledy v oficiálním oznámení (NEWS). Vypíchnout lze vylepšené vyhledávání nebo podporu Pixel Motion Photos. Nejnovější digiKam je ke stažení také jako balíček ve formátu AppImage. Stačí jej stáhnout, nastavit právo ke spuštění a spustit.

Ladislav Hagara | Komentářů: 1

Přihlaste přednášku na LinuxDays 2026

9.6. 11:44 | Pozvánky

Přihlaste svou přednášku na další ročník konference LinuxDays, který proběhne 3. a 4. října na FIT ČVUT v pražských Dejvicích. Příjem témat poběží do konce prázdnin, pak proběhne veřejné hlasování a následně sestavení programu.

Petr Krčmář | Komentářů: 3

Centrum | Napsat | Starší

navrhněte » Anketa

Komentářů: 30, poslední 3.4. 20:20

Rozcestník

AbcLinuxu

HDmag.cz

AbcLinuxu:/ Poradna / Programovací poradna / sed parse html tag

Štítky: HTML, sed, tag, web

Dotaz: sed parse html tag

6.4.2010 22:25 TheTechnic | skóre: 7
sed parse html tag

Přečteno: 487×

Odpovědět | Admin

Ahojte, viete mi poradit ako by sa dal vyparsovat vsetok text zo zdrojoveho kodu html stranky, povedzme ze chcem vsetko text medzi tag-mi <pre> a konciacim jeho tagom </pre>

pricom tieto tagy sa niekolko krat opakuju a chcem vsetko text medzi nimi, vsetko ostatne nejako potrebujem dostat prec.

Nástroje: Začni sledovat (2) ?

Odpovědi

6.4.2010 22:45 Fuky | skóre: 52 | blog: 4u
Rozbalit Rozbalit vše Re: sed parse html tag

$ cat index.html |sed -n 's/<pre>\(.*\)<\/pre>/\1/p'

-- RÁMO: psí tábor , ETriatlon: Výuka plavání

6.4.2010 23:09 TheTechnic | skóre: 7
Rozbalit Rozbalit vše Re: sed parse html tag

super! :) Len problem je v tom, ze mi to nezoberie do ohladu ked mam v zdrojovom kode blok s danym tagom, cize ak mi to nematchne na jedno riadku, tak to nevypise, neviem ako to osetrit? napr.

<pre>aaaaa
bbbbbbbbbbbb
cccccccccccc
dddddddddddd
############ </pre>

Proste tagy byvaju rozne zalomene. Diky za echo :)

6.4.2010 23:22 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: sed parse html tag

Na něco takového není sed vhodný nástroj, i když by k tomu asi nějak znásilnit šel.

6.4.2010 23:29 TheTechnic | skóre: 7
Rozbalit Rozbalit vše Re: sed parse html tag

vies teda odporucit iny nastroj, s awk by to neslo lahsie? sice vela sa spomina na internete perl, ale ten je pre mna spanielska dolina, zatial skusam pouzit ten sed.

7.4.2010 00:13 Fuky | skóre: 52 | blog: 4u
Rozbalit Rozbalit vše Re: sed parse html tag

Jedno z možných řešení je modul lxml pro Python, HTML soubor pošli na vstup následujícímu skriptu:

#! /usr/bin/env python
# -*- coding: utf-8 -*-

import sys
from lxml import etree

parser = etree.HTMLParser()
tree = etree.parse(sys.stdin, parser)
expr = "//*[local-name() = $name]"
pre_elts = tree.xpath(expr, name="pre")

for pre_elt in pre_elts:
    print pre_elt.text

Pokud používáš distribuci založenou na Debianu musíš mít nainstalovaný balíček python-lxml.

-- RÁMO: psí tábor , ETriatlon: Výuka plavání

7.4.2010 00:18 Fuky | skóre: 52 | blog: 4u
Rozbalit Rozbalit vše Re: sed parse html tag

BTW: Někoho by mohl zajímat Python HTML Parser Performance.

-- RÁMO: psí tábor , ETriatlon: Výuka plavání

7.4.2010 00:58 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: sed parse html tag

Těžko říct, mně by přišlo nejjednodušší napsat si to v C.

7.4.2010 11:11 imploder | skóre: 11
Rozbalit Rozbalit vše Re: sed parse html tag

Příloha:

vyparsovat-tag.pl (318 bytů)

V perlu:

my $text = join "", <STDIN>;
my @vnitrky = $text =~ /<pre>(.*?)<\/pre>/sg;
foreach (@vnitrky) { print $_; }

7.4.2010 05:05 deadmail
Rozbalit Rozbalit vše Re: sed parse html tag

Napr. takto:

sed 's_</pre>_&\n_' SUBOR | sed -nr -e \
'/<pre>/{:a;s_</pre>_&_;tb;N;ba;:b;s_.*<pre>(.*)</pre>_\1_;p}'

Najprv rozdelime, aby v kazdom riadku bol najviac jeden tag pre. A potom nacitame az po koncovy tag a zobrazime iba obsah ...

7.4.2010 05:11 deadmail
Rozbalit Rozbalit vše Re: sed parse html tag

A mozno jednoduchsie:

sed 's_</pre>_&\n_' SUBOR | sed -nr -e '/<pre>/,/<\/pre>/
{
 /.*<pre>/s___
 /<\/pre>/s___
 p
}'

7.4.2010 10:01 TheTechnic | skóre: 7
Rozbalit Rozbalit vše Re: sed parse html tag

Wow skvele velmi si mi pomohol :) a diky za rady vsetkym ;) Sed powaaa! :D

Este mi ostali v subore znaky ^M na konci riadkov, pre zmazanie bolo potrebne napr. vo vime pozuit prikaz :%s/\r$// a nasledne na subor pouzit prikaz, ktory maze prazdne riadky a to je pomocou sed '/^$/d'. A tada vsetko co bolo treba je na svete :)

Este raz dakujem za rady.

7.4.2010 11:16 deadmail
Rozbalit Rozbalit vše Re: sed parse html tag

takze vsetko spojene dokopy:

sed 's_</pre>_&\n_;/^$/d;s/\r$//' SUBOR | sed -nr '\_<pre>_,\_</pre>_{s_.*<pre>|</pre>__g;p}'

7.4.2010 05:13 deadmail
Rozbalit Rozbalit vše Re: sed parse html tag

A mozno jednoduchsie - opravene riadkovanie:

sed 's_</pre>_&\n_' SUBOR | sed -nr -e '/<pre>/,/<\/pre>/{
 /.*<pre>/s___
 /<\/pre>/s___
 p
}'

7.4.2010 14:11 l4m4
Rozbalit Rozbalit vše Re: sed parse html tag

Nejjednodušší je toto:

sed -n '/<pre>/,/<\/pre>/{s:.*<pre>::;s:</pre>.*::;p}'

ale předpokládá se zde, že tag pre skutečně obsahuje nějaké bloky textu, takže se jich nevyskytuje více na jednom řádku.

7.4.2010 14:45 deadmail
Rozbalit Rozbalit vše Re: sed parse html tag

toje presne moje riesenie, bez prvej casti a teda nefunguje ak ich viac na jednom iadku (co som tam pisal) - je to aj v tom doplneni vyssie skratene cez bodkociarky.

7.4.2010 14:49 deadmail
Rozbalit Rozbalit vše Re: sed parse html tag

a este tam je skratene nahradzovanie - jedno namiesto dvoch

Založit nové vlákno • Nahoru

Tiskni Sdílej: