Přihlášení | Registrace

napište » Zprávičky

Firefox 143.0

včera 21:44 | Nová verze

Byl vydán Mozilla Firefox 143.0. Přehled novinek v poznámkách k vydání a poznámkách k vydání pro vývojáře. Nově se Firefox při ukončování anonymního režimu zeptá, zda chcete smazat stažené soubory. Dialog pro povolení přístupu ke kameře zobrazuje náhled. Obzvláště užitečné při přepínání mezi více kamerami. Řešeny jsou rovněž bezpečnostní chyby. Nový Firefox 143 bude brzy k dispozici také na Flathubu a Snapcraftu.

Ladislav Hagara | Komentářů: 0

Fedora Linux 43 Beta

včera 17:22 | Nová verze

Byla vydána betaverze Fedora Linuxu 43 (ChangeSet), tj. poslední zastávka před vydáním finální verze, která je naplánována na úterý 21. října.

Ladislav Hagara | Komentářů: 0

Ghostty 1.2

včera 12:22 | Nová verze

Multiplatformní emulátor terminálu Ghostty byl vydán ve verzi 1.2 (𝕏, Mastodon). Přehled novinek, vylepšení a nových efektů v poznámkách k vydání.

Ladislav Hagara | Komentářů: 0

Godot 4.5

včera 00:11 | Nová verze

Byla vydána nová verze 4.5 (𝕏, Bluesky, Mastodon) multiplatformního open source herního enginu Godot (Wikipedie, GitHub). Přehled novinek i s náhledy v příspěvku na blogu.

Ladislav Hagara | Komentářů: 0

asciinema CLI 3.0

15.9. 21:33 | Nová verze

Byla vydána verze 3.0 (Mastodon) nástroje pro záznam a sdílení terminálových sezení asciinema (GitHub). S novou verzí formátu záznamu asciicast v3, podporou live streamingu a především kompletním přepisem z Pythonu do Rustu.

Ladislav Hagara | Komentářů: 0

Canonical oznámil, že bude podporovat a distribuovat toolkit NVIDIA CUDA v Ubuntu

15.9. 21:00 | Komunita

Canonical oznámil, že bude podporovat a distribuovat toolkit NVIDIA CUDA (Wikipedie) v Ubuntu.

Ladislav Hagara | Komentářů: 0

Hodnota společnosti Alphabet překonala hranici tří bilionů dolarů

15.9. 20:44 | IT novinky

Tržní hodnota americké společnosti Alphabet, která je majitelem internetového vyhledávače Google, dnes poprvé překonala hranici tří bilionů dolarů (62,1 bilionu Kč). Alphabet se připojil k malé skupině společností, které tuto hranici pokořily. Jsou mezi nimi zatím americké firmy Nvidia, Microsoft a Apple.

Ladislav Hagara | Komentářů: 2

Washington a Peking se dohodly na pokračování TikToku v USA

15.9. 20:33 | IT novinky

Spojené státy a Čína dosáhly dohody ohledně pokračování populární čínské platformy pro sdílení krátkých videí TikTok v USA. V příspěvku na síti Truth Social to dnes naznačil americký prezident Donald Trump. Dosažení rámcové dohody o TikToku vzápětí oznámil americký ministr financí Scott Bessent, který v Madridu jedná s čínskými představiteli o vzájemných obchodních vztazích mezi USA a Čínou. Bessentova slova později potvrdila také čínská strana.

Ladislav Hagara | Komentářů: 0

MKVToolNix 95.0. Podpora Matrosky míří do Firefoxu

15.9. 16:55 | Komunita

MKVToolNix, tj. sada nástrojů pro práci s formátem (medialnym kontajnerom) Matroska, byl vydán ve verzi 95.0. Podpora přehrávání formátu Matroska míří do Firefoxu [Bug 1422891, Technický popis]. Přehrávání lze již testovat ve Firefoxu Nightly.

Ladislav Hagara | Komentářů: 0

Pozvánka na 211. sraz spolku OpenAlt

13.9. 17:33 | Pozvánky

Spolek OpenAlt zve příznivce otevřených řešení a přístupu na 211. sraz, který proběhne v pátek 19. září od 18:00 ve Studentském klubu U Kachničky na Fakultě informačních technologií Vysokého učení technického na adrese Božetěchova 2/1. Na srazu proběhne přednáška Jiřího Eischmanna o nové verzi prostředí GNOME 49. Nemáte-li možnost se zúčastnit osobně, přednáškový blok bude opět streamován živě na server VHSky.cz a následně i zpřístupněn záznam.

Ladislav Hagara | Komentářů: 0

Centrum | Napsat | Starší

navrhněte » Anketa

Pro otevření více webových stránek ve webovém prohlížečí používám

Taby (81%)

Panely (6%)

Záložky (4%)

Listy (3%)

Něco jiného (4%)

Nic (2%)

Celkem 187 hlasů

Komentářů: 12, poslední 10.9. 13:00

Rozcestník

AbcLinuxu

HDmag.cz

AbcLinuxu:/ Poradna / Programovací poradna / sed parse html tag

Štítky: HTML, sed, tag, web

Dotaz: sed parse html tag

6.4.2010 22:25 TheTechnic | skóre: 7
sed parse html tag

Přečteno: 438×

Odpovědět | Admin

Ahojte, viete mi poradit ako by sa dal vyparsovat vsetok text zo zdrojoveho kodu html stranky, povedzme ze chcem vsetko text medzi tag-mi <pre> a konciacim jeho tagom </pre>

pricom tieto tagy sa niekolko krat opakuju a chcem vsetko text medzi nimi, vsetko ostatne nejako potrebujem dostat prec.

Nástroje: Začni sledovat (2) ?

Odpovědi

6.4.2010 22:45 Fuky | skóre: 52 | blog: 4u
Rozbalit Rozbalit vše Re: sed parse html tag

$ cat index.html |sed -n 's/<pre>\(.*\)<\/pre>/\1/p'

-- RÁMO: psí tábor , ETriatlon: Výuka plavání

6.4.2010 23:09 TheTechnic | skóre: 7
Rozbalit Rozbalit vše Re: sed parse html tag

super! :) Len problem je v tom, ze mi to nezoberie do ohladu ked mam v zdrojovom kode blok s danym tagom, cize ak mi to nematchne na jedno riadku, tak to nevypise, neviem ako to osetrit? napr.

<pre>aaaaa
bbbbbbbbbbbb
cccccccccccc
dddddddddddd
############ </pre>

Proste tagy byvaju rozne zalomene. Diky za echo :)

6.4.2010 23:22 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: sed parse html tag

Na něco takového není sed vhodný nástroj, i když by k tomu asi nějak znásilnit šel.

6.4.2010 23:29 TheTechnic | skóre: 7
Rozbalit Rozbalit vše Re: sed parse html tag

vies teda odporucit iny nastroj, s awk by to neslo lahsie? sice vela sa spomina na internete perl, ale ten je pre mna spanielska dolina, zatial skusam pouzit ten sed.

7.4.2010 00:13 Fuky | skóre: 52 | blog: 4u
Rozbalit Rozbalit vše Re: sed parse html tag

Jedno z možných řešení je modul lxml pro Python, HTML soubor pošli na vstup následujícímu skriptu:

#! /usr/bin/env python
# -*- coding: utf-8 -*-

import sys
from lxml import etree

parser = etree.HTMLParser()
tree = etree.parse(sys.stdin, parser)
expr = "//*[local-name() = $name]"
pre_elts = tree.xpath(expr, name="pre")

for pre_elt in pre_elts:
    print pre_elt.text

Pokud používáš distribuci založenou na Debianu musíš mít nainstalovaný balíček python-lxml.

-- RÁMO: psí tábor , ETriatlon: Výuka plavání

7.4.2010 00:18 Fuky | skóre: 52 | blog: 4u
Rozbalit Rozbalit vše Re: sed parse html tag

BTW: Někoho by mohl zajímat Python HTML Parser Performance.

-- RÁMO: psí tábor , ETriatlon: Výuka plavání

7.4.2010 00:58 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: sed parse html tag

Těžko říct, mně by přišlo nejjednodušší napsat si to v C.

7.4.2010 11:11 imploder | skóre: 11
Rozbalit Rozbalit vše Re: sed parse html tag

Příloha:

vyparsovat-tag.pl (318 bytů)

V perlu:

my $text = join "", <STDIN>;
my @vnitrky = $text =~ /<pre>(.*?)<\/pre>/sg;
foreach (@vnitrky) { print $_; }

7.4.2010 05:05 deadmail
Rozbalit Rozbalit vše Re: sed parse html tag

Napr. takto:

sed 's_</pre>_&\n_' SUBOR | sed -nr -e \
'/<pre>/{:a;s_</pre>_&_;tb;N;ba;:b;s_.*<pre>(.*)</pre>_\1_;p}'

Najprv rozdelime, aby v kazdom riadku bol najviac jeden tag pre. A potom nacitame az po koncovy tag a zobrazime iba obsah ...

7.4.2010 05:11 deadmail
Rozbalit Rozbalit vše Re: sed parse html tag

A mozno jednoduchsie:

sed 's_</pre>_&\n_' SUBOR | sed -nr -e '/<pre>/,/<\/pre>/
{
 /.*<pre>/s___
 /<\/pre>/s___
 p
}'

7.4.2010 10:01 TheTechnic | skóre: 7
Rozbalit Rozbalit vše Re: sed parse html tag

Wow skvele velmi si mi pomohol :) a diky za rady vsetkym ;) Sed powaaa! :D

Este mi ostali v subore znaky ^M na konci riadkov, pre zmazanie bolo potrebne napr. vo vime pozuit prikaz :%s/\r$// a nasledne na subor pouzit prikaz, ktory maze prazdne riadky a to je pomocou sed '/^$/d'. A tada vsetko co bolo treba je na svete :)

Este raz dakujem za rady.

7.4.2010 11:16 deadmail
Rozbalit Rozbalit vše Re: sed parse html tag

takze vsetko spojene dokopy:

sed 's_</pre>_&\n_;/^$/d;s/\r$//' SUBOR | sed -nr '\_<pre>_,\_</pre>_{s_.*<pre>|</pre>__g;p}'

7.4.2010 05:13 deadmail
Rozbalit Rozbalit vše Re: sed parse html tag

A mozno jednoduchsie - opravene riadkovanie:

sed 's_</pre>_&\n_' SUBOR | sed -nr -e '/<pre>/,/<\/pre>/{
 /.*<pre>/s___
 /<\/pre>/s___
 p
}'

7.4.2010 14:11 l4m4
Rozbalit Rozbalit vše Re: sed parse html tag

Nejjednodušší je toto:

sed -n '/<pre>/,/<\/pre>/{s:.*<pre>::;s:</pre>.*::;p}'

ale předpokládá se zde, že tag pre skutečně obsahuje nějaké bloky textu, takže se jich nevyskytuje více na jednom řádku.

7.4.2010 14:45 deadmail
Rozbalit Rozbalit vše Re: sed parse html tag

toje presne moje riesenie, bez prvej casti a teda nefunguje ak ich viac na jednom iadku (co som tam pisal) - je to aj v tom doplneni vyssie skratene cez bodkociarky.

7.4.2010 14:49 deadmail
Rozbalit Rozbalit vše Re: sed parse html tag

a este tam je skratene nahradzovanie - jedno namiesto dvoch

Založit nové vlákno • Nahoru

Tiskni Sdílej:

Píšeme jinde

ISSN 1214-1267 www.czech-server.cz

Redakce | Inzerce | Podmínky použití | Osobní údaje