Přihlášení | Registrace

napište » Zprávičky

včera 17:33 | Nová verze

Canonical vydal (email, blog, YouTube) Ubuntu 24.04 LTS Noble Numbat. Přehled novinek v poznámkách k vydání a také příspěvcích na blogu: novinky v desktopu a novinky v bezpečnosti. Vydány byly také oficiální deriváty Edubuntu, Kubuntu, Lubuntu, Ubuntu Budgie, Ubuntu Cinnamon, Ubuntu Kylin, Ubuntu MATE, Ubuntu Studio, Ubuntu Unity a Xubuntu. Jedná se o 10. LTS verzi.

Ladislav Hagara | Komentářů: 5

Videozáznam z Czech Open Source Policy Forum 2024

včera 14:22 | Komunita

Na YouTube je k dispozici videozáznam z včerejšího Czech Open Source Policy Forum 2024.

Ladislav Hagara | Komentářů: 1

Fossil 2.24

včera 13:22 | Nová verze

Fossil (Wikipedie) byl vydán ve verzi 2.24. Jedná se o distribuovaný systém správy verzí propojený se správou chyb, wiki stránek a blogů s integrovaným webovým rozhraním. Vše běží z jednoho jediného spustitelného souboru a uloženo je v SQLite databázi.

Ladislav Hagara | Komentářů: 0

Vivaldi 6.7

včera 12:44 | Nová verze

Byla vydána nová stabilní verze 6.7 webového prohlížeče Vivaldi (Wikipedie). Postavena je na Chromiu 124. Přehled novinek i s náhledy v příspěvku na blogu. Vypíchnout lze Spořič paměti (Memory Saver) automaticky hibernující karty, které nebyly nějakou dobu používány nebo vylepšené Odběry (Feed Reader).

Ladislav Hagara | Komentářů: 0

Node.js 22

včera 04:55 | Nová verze

OpenJS Foundation, oficiální projekt konsorcia Linux Foundation, oznámila vydání verze 22 otevřeného multiplatformního prostředí pro vývoj a běh síťových aplikací napsaných v JavaScriptu Node.js (Wikipedie). V říjnu se verze 22 stane novou aktivní LTS verzí. Podpora je plánována do dubna 2027.

Ladislav Hagara | Komentářů: 0

Proxmox Virtual Environment 8.2

včera 04:22 | Nová verze

Byla vydána verze 8.2 open source virtualizační platformy Proxmox VE (Proxmox Virtual Environment, Wikipedie) založené na Debianu. Přehled novinek v poznámkách k vydání a v informačním videu. Zdůrazněn je průvodce migrací hostů z VMware ESXi do Proxmoxu.

Ladislav Hagara | Komentářů: 0

R 4.4.0 (Puppy Cup)

včera 04:11 | Nová verze

R (Wikipedie), programovací jazyk a prostředí určené pro statistickou analýzu dat a jejich grafické zobrazení, bylo vydáno ve verzi 4.4.0. Její kódové jméno je Puppy Cup.

Ladislav Hagara | Komentářů: 0

IBM kupuje společnost HashiCorp za 6,4 miliardy dolarů

24.4. 22:44 | IT novinky

IBM kupuje společnost HashiCorp (Terraform, Packer, Vault, Boundary, Consul, Nomad, Waypoint, Vagrant, …) za 6,4 miliardy dolarů, tj. 35 dolarů za akcii.

Ladislav Hagara | Komentářů: 12

TrueNAS SCALE 24.04 “Dragonfish”

24.4. 15:55 | Nová verze

Byl vydán TrueNAS SCALE 24.04 “Dragonfish”. Přehled novinek této open source storage platformy postavené na Debianu v poznámkách k vydání.

Ladislav Hagara | Komentářů: 0

Raspberry Pi Compute Module 4S s 2 GB, 4 GB a 8 GB paměti

24.4. 13:44 | IT novinky

Oznámeny byly nové Raspberry Pi Compute Module 4S. Vedle původní 1 GB varianty jsou nově k dispozici také varianty s 2 GB, 4 GB a 8 GB paměti. Compute Modules 4S mají na rozdíl od Compute Module 4 tvar a velikost Compute Module 3+ a předchozích. Lze tak provést snadný upgrade.

Ladislav Hagara | Komentářů: 0

Centrum | Napsat | Starší

navrhněte » Anketa

KDE Plasma 6

už používám (73%)

čekám, až se dostane do mé distibuce (9%)

čekám na pozdější vydání v řadě (2%)

preferuji jiné desktopové prostředí (16%)

Celkem 765 hlasů

Komentářů: 4, poslední 6.4. 15:51

Rozcestník

AbcLinuxu

HDmag.cz

AbcLinuxu:/ Poradna / Linuxová poradna / zpracování textu v SEDu

Štítky: cURL, HTML, Internet, web

Dotaz: zpracování textu v SEDu

26.11.2009 10:51 Jaromír Šauer
zpracování textu v SEDu

Přečteno: 236×

Odpovědět | Admin

Dobrý den potřeboval bych poradit se zpracováním textu v konzoli pomocí SEDu . Pomocí curl stáhuji html soubor z kterého potřebuji vytáhnout určité informace . Tuším že to půjde pomocí sedu , ale nějak se mi nedaří pochopit jak to funguje .

Konkrétně : stáhnu si html : http://aktualne.centrum.cz/zahranici/evropa/clanek.phtml?id=653920

potřebuji vytáhnout datumu článku , čas , a titulek jako proměné s kterým budu poté dále pracovat .

Děkuji za koukoliv radu .

Šauer J.

Řešení dotazu:

Nástroje: Začni sledovat (0) ?

Odpovědi

26.11.2009 13:37 ams
Rozbalit Rozbalit vše Re: zpracování textu v SEDu

SED na to neni dost dobre staveny, ostatne vytahovat data z html pomoci regexpu neni spravne i kdyz se to pomerne casto dela. Presto tady je neco, co by mohlo fungovat:

url='http://aktualne.centrum.cz/zahranici/evropa/clanek.phtml?id=653920'
wget -O clanek.html "$url"
titulek=`grep -o '<h1 class="titulek-clanku">[^<]*' clanek.html | cut -c28-`
cas_datum=`grep -o '<span class="cas">[^<]*' clanek.html | head -n1`
cas=`echo "$cas_datum" | grep -Eo '[0-9]{2}:[0-9]{2}'`
datum=`echo "$cas_datum" | grep -Eo '[0-9]{2}\.[0-9]{2}\.[0-9]{4}'`
echo -e "Titulek: $titulek\nCas: $cas, Datum: $datum"

27.11.2009 11:20 Jaromír Šauer
Rozbalit Rozbalit vše Re: zpracování textu v SEDu

Děkuji , titulek mi ještě trošku zlobil, nicméně jsem to dal dohromady .

27.11.2009 13:10 Ash | skóre: 53
Rozbalit Rozbalit vše Re: zpracování textu v SEDu

Opatrně na data a čas, ne vždy máte jistotu že třeba 1.12. bude zapsáno jako 01.12. V tom sedu by to bylo zbastleno třeba:

url='http://aktualne.centrum.cz/zahranici/evropa/clanek.phtml?id=653920'
wget -q -O - "$url" | iconv -f iso8859-2 -t utf-8 > clanek.html
titulek=$(sed -n -e 's/.*<h1 class="titulek-clanku">\([^<]*\).*/\1/p' clanek.html)
datum=$(sed -n -e 's/.*titulek-clanku.*<span class="cas">[^|]*|[^0-9\.]*\([0-9\.]*\).*/\1/p' clanek.html)
cas=$(sed -n -e 's/.*titulek-clanku.*<span class="cas">\s*\([0-9:]*\).*$/\1/p' clanek.html)
echo -e "Titulek: $titulek\nCas: $cas, Datum: $datum"

Obecně lze kombinaci grep/head/cut omezit na sed.

Založit nové vlákno • Nahoru

Tiskni Sdílej:

Píšeme jinde

ISSN 1214-1267 www.czech-server.cz

Redakce | Inzerce | Podmínky použití | Osobní údaje