Přihlášení | Registrace

napište » Zprávičky

dnes 21:33 | Nová verze

Byla vydána verze 3.0 (Mastodon) nástroje pro záznam a sdílení terminálových sezení asciinema (GitHub). S novou verzí formátu záznamu asciicast v3, podporou live streamingu a především kompletním přepisem z Pythonu do Rustu.

Ladislav Hagara | Komentářů: 0

Canonical oznámil, že bude podporovat a distribuovat toolkit NVIDIA CUDA v Ubuntu

dnes 21:00 | Komunita

Canonical oznámil, že bude podporovat a distribuovat toolkit NVIDIA CUDA (Wikipedie) v Ubuntu.

Ladislav Hagara | Komentářů: 0

Hodnota společnosti Alphabet překonala hranici tří bilionů dolarů

dnes 20:44 | IT novinky

Tržní hodnota americké společnosti Alphabet, která je majitelem internetového vyhledávače Google, dnes poprvé překonala hranici tří bilionů dolarů (62,1 bilionu Kč). Alphabet se připojil k malé skupině společností, které tuto hranici pokořily. Jsou mezi nimi zatím americké firmy Nvidia, Microsoft a Apple.

Ladislav Hagara | Komentářů: 0

Washington a Peking se dohodly na pokračování TikToku v USA

dnes 20:33 | IT novinky

Spojené státy a Čína dosáhly dohody ohledně pokračování populární čínské platformy pro sdílení krátkých videí TikTok v USA. V příspěvku na síti Truth Social to dnes naznačil americký prezident Donald Trump. Dosažení rámcové dohody o TikToku vzápětí oznámil americký ministr financí Scott Bessent, který v Madridu jedná s čínskými představiteli o vzájemných obchodních vztazích mezi USA a Čínou. Bessentova slova později potvrdila také čínská strana.

Ladislav Hagara | Komentářů: 0

MKVToolNix 95.0. Podpora Matrosky míří do Firefoxu

dnes 16:55 | Komunita

MKVToolNix, tj. sada nástrojů pro práci s formátem (medialnym kontajnerom) Matroska, byl vydán ve verzi 95.0. Podpora přehrávání formátu Matroska míří do Firefoxu [Bug 1422891, Technický popis]. Přehrávání lze již testovat ve Firefoxu Nightly.

Ladislav Hagara | Komentářů: 0

Pozvánka na 211. sraz spolku OpenAlt

13.9. 17:33 | Pozvánky

Spolek OpenAlt zve příznivce otevřených řešení a přístupu na 211. sraz, který proběhne v pátek 19. září od 18:00 ve Studentském klubu U Kachničky na Fakultě informačních technologií Vysokého učení technického na adrese Božetěchova 2/1. Na srazu proběhne přednáška Jiřího Eischmanna o nové verzi prostředí GNOME 49. Nemáte-li možnost se zúčastnit osobně, přednáškový blok bude opět streamován živě na server VHSky.cz a následně i zpřístupněn záznam.

Ladislav Hagara | Komentářů: 0

Microsoft se vyhnul pokutě EU, slíbil oddělit Teams od programů Office

13.9. 01:33 | IT novinky

Microsoft se vyhnul pokutě od Evropské komise za zneužívání svého dominantního postavení na trhu v souvislosti s aplikací Teams. S komisí se dohodl na závazcích, které slíbil splnit. Unijní exekutivě se nelíbilo, že firma svazuje svůj nástroj pro chatování a videohovory Teams se sadou kancelářských programů Office. Microsoft nyní slíbil jasné oddělení aplikace od kancelářských nástrojů, jako jsou Word, Excel a Outlook. Na Microsoft si

… více »

Ladislav Hagara | Komentářů: 10

Samba 4.23.0

12.9. 14:00 | Nová verze

Samba (Wikipedie), svobodná implementace SMB a Active Directory, byla vydána ve verzi 4.23.0. Počínaje verzí Samba 4.23 jsou unixová rozšíření SMB3 ve výchozím nastavení povolena. Přidána byla podpora SMB3 přes QUIC. Nová utilita smb_prometheus_endpoint exportuje metriky ve formátu Prometheus.

Ladislav Hagara | Komentářů: 0

F-Droid: Jak FOSS projekty řeší žádosti o odstranění nelegálního obsahu

12.9. 12:00 | Zajímavý článek

Správcovský tým repozitáře F-Droid pro Android sdílí doporučení, jak řešit žádosti o odstranění nelegálního obsahu. Základem je mít nastavené formální procesy, vyhrazenou e-mailovou adresu a být transparentní. Zdůrazňují také důležitost volby jurisdikce (F-Droid je v Nizozemsku).

|🇵🇸 | Komentářů: 20

Další zranitelnost v procesorech: VMScape (CVE-2025-40300)

12.9. 05:33 | Bezpečnostní upozornění

Byly publikovány informace o další zranitelnosti v procesorech. Nejnovější zranitelnost byla pojmenována VMScape (CVE-2025-40300, GitHub) a v upstream Linuxech je již opravena. Jedná se o variantu Spectre. KVM host může číst data z uživatelského prostoru hypervizoru, např. QEMU.

Ladislav Hagara | Komentářů: 0

Centrum | Napsat | Starší

navrhněte » Anketa

Pro otevření více webových stránek ve webovém prohlížečí používám

Taby (81%)

Panely (7%)

Záložky (3%)

Listy (3%)

Něco jiného (4%)

Nic (2%)

Celkem 181 hlasů

Komentářů: 12, poslední 10.9. 13:00

Rozcestník

AbcLinuxu

HDmag.cz

AbcLinuxu:/ Poradna / Programovací poradna / sed parse html tag

Štítky: HTML, sed, tag, web

Dotaz: sed parse html tag

6.4.2010 22:25 TheTechnic | skóre: 7
sed parse html tag

Přečteno: 438×

Odpovědět | Admin

Ahojte, viete mi poradit ako by sa dal vyparsovat vsetok text zo zdrojoveho kodu html stranky, povedzme ze chcem vsetko text medzi tag-mi <pre> a konciacim jeho tagom </pre>

pricom tieto tagy sa niekolko krat opakuju a chcem vsetko text medzi nimi, vsetko ostatne nejako potrebujem dostat prec.

Nástroje: Začni sledovat (2) ?

Odpovědi

6.4.2010 22:45 Fuky | skóre: 52 | blog: 4u
Rozbalit Rozbalit vše Re: sed parse html tag

$ cat index.html |sed -n 's/<pre>\(.*\)<\/pre>/\1/p'

-- RÁMO: psí tábor , ETriatlon: Výuka plavání

6.4.2010 23:09 TheTechnic | skóre: 7
Rozbalit Rozbalit vše Re: sed parse html tag

super! :) Len problem je v tom, ze mi to nezoberie do ohladu ked mam v zdrojovom kode blok s danym tagom, cize ak mi to nematchne na jedno riadku, tak to nevypise, neviem ako to osetrit? napr.

<pre>aaaaa
bbbbbbbbbbbb
cccccccccccc
dddddddddddd
############ </pre>

Proste tagy byvaju rozne zalomene. Diky za echo :)

6.4.2010 23:22 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: sed parse html tag

Na něco takového není sed vhodný nástroj, i když by k tomu asi nějak znásilnit šel.

6.4.2010 23:29 TheTechnic | skóre: 7
Rozbalit Rozbalit vše Re: sed parse html tag

vies teda odporucit iny nastroj, s awk by to neslo lahsie? sice vela sa spomina na internete perl, ale ten je pre mna spanielska dolina, zatial skusam pouzit ten sed.

7.4.2010 00:13 Fuky | skóre: 52 | blog: 4u
Rozbalit Rozbalit vše Re: sed parse html tag

Jedno z možných řešení je modul lxml pro Python, HTML soubor pošli na vstup následujícímu skriptu:

#! /usr/bin/env python
# -*- coding: utf-8 -*-

import sys
from lxml import etree

parser = etree.HTMLParser()
tree = etree.parse(sys.stdin, parser)
expr = "//*[local-name() = $name]"
pre_elts = tree.xpath(expr, name="pre")

for pre_elt in pre_elts:
    print pre_elt.text

Pokud používáš distribuci založenou na Debianu musíš mít nainstalovaný balíček python-lxml.

-- RÁMO: psí tábor , ETriatlon: Výuka plavání

7.4.2010 00:18 Fuky | skóre: 52 | blog: 4u
Rozbalit Rozbalit vše Re: sed parse html tag

BTW: Někoho by mohl zajímat Python HTML Parser Performance.

-- RÁMO: psí tábor , ETriatlon: Výuka plavání

7.4.2010 00:58 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: sed parse html tag

Těžko říct, mně by přišlo nejjednodušší napsat si to v C.

7.4.2010 11:11 imploder | skóre: 11
Rozbalit Rozbalit vše Re: sed parse html tag

Příloha:

vyparsovat-tag.pl (318 bytů)

V perlu:

my $text = join "", <STDIN>;
my @vnitrky = $text =~ /<pre>(.*?)<\/pre>/sg;
foreach (@vnitrky) { print $_; }

7.4.2010 05:05 deadmail
Rozbalit Rozbalit vše Re: sed parse html tag

Napr. takto:

sed 's_</pre>_&\n_' SUBOR | sed -nr -e \
'/<pre>/{:a;s_</pre>_&_;tb;N;ba;:b;s_.*<pre>(.*)</pre>_\1_;p}'

Najprv rozdelime, aby v kazdom riadku bol najviac jeden tag pre. A potom nacitame az po koncovy tag a zobrazime iba obsah ...

7.4.2010 05:11 deadmail
Rozbalit Rozbalit vše Re: sed parse html tag

A mozno jednoduchsie:

sed 's_</pre>_&\n_' SUBOR | sed -nr -e '/<pre>/,/<\/pre>/
{
 /.*<pre>/s___
 /<\/pre>/s___
 p
}'

7.4.2010 10:01 TheTechnic | skóre: 7
Rozbalit Rozbalit vše Re: sed parse html tag

Wow skvele velmi si mi pomohol :) a diky za rady vsetkym ;) Sed powaaa! :D

Este mi ostali v subore znaky ^M na konci riadkov, pre zmazanie bolo potrebne napr. vo vime pozuit prikaz :%s/\r$// a nasledne na subor pouzit prikaz, ktory maze prazdne riadky a to je pomocou sed '/^$/d'. A tada vsetko co bolo treba je na svete :)

Este raz dakujem za rady.

7.4.2010 11:16 deadmail
Rozbalit Rozbalit vše Re: sed parse html tag

takze vsetko spojene dokopy:

sed 's_</pre>_&\n_;/^$/d;s/\r$//' SUBOR | sed -nr '\_<pre>_,\_</pre>_{s_.*<pre>|</pre>__g;p}'

7.4.2010 05:13 deadmail
Rozbalit Rozbalit vše Re: sed parse html tag

A mozno jednoduchsie - opravene riadkovanie:

sed 's_</pre>_&\n_' SUBOR | sed -nr -e '/<pre>/,/<\/pre>/{
 /.*<pre>/s___
 /<\/pre>/s___
 p
}'

7.4.2010 14:11 l4m4
Rozbalit Rozbalit vše Re: sed parse html tag

Nejjednodušší je toto:

sed -n '/<pre>/,/<\/pre>/{s:.*<pre>::;s:</pre>.*::;p}'

ale předpokládá se zde, že tag pre skutečně obsahuje nějaké bloky textu, takže se jich nevyskytuje více na jednom řádku.

7.4.2010 14:45 deadmail
Rozbalit Rozbalit vše Re: sed parse html tag

toje presne moje riesenie, bez prvej casti a teda nefunguje ak ich viac na jednom iadku (co som tam pisal) - je to aj v tom doplneni vyssie skratene cez bodkociarky.

7.4.2010 14:49 deadmail
Rozbalit Rozbalit vše Re: sed parse html tag

a este tam je skratene nahradzovanie - jedno namiesto dvoch

Založit nové vlákno • Nahoru

Tiskni Sdílej:

Píšeme jinde

ISSN 1214-1267 www.czech-server.cz

Redakce | Inzerce | Podmínky použití | Osobní údaje