Přihlášení | Registrace

napište » Zprávičky

Virtuální Bastlírna vol. 38: Co jste viděli na MakerFair?

dnes 12:44 | Pozvánky

V Praze o víkendu proběhla bastlířská událost roku - výstava Maker Fair v Praze. I strahovští bastlíři nelenili a bastly ostatních prozkoumali. Přijďte si proto i vy na Virtuální Bastlírnu popovídat, co Vás nejvíce zaujalo a jaké projekty jste si přinesli! Samozřejmě, nejen českou bastlířskou scénou je člověk živ - takže co se stalo ve světě a o čem mohou strahováci něco říct? Smutnou zprávou může být to, že provozovatel Sigfoxu jde do

… více »

bkralik | Komentářů: 0

IllllIllIIl.llIlI.lI

dnes 12:33 | Humor

Kam asi vede IllllIllIIl.llIlI.lI? Zkracovač URL llIlI.lI.

Ladislav Hagara | Komentářů: 0

Společnost OpenAI představila svůj nejnovější AI model GPT-4o

včera 22:00 | IT novinky

Společnost OpenAI představila svůj nejnovější AI model GPT-4o (o jako omni, tj. vše). Nově také "vidí" a "slyší". Videoukázky na 𝕏 nebo YouTube.

Ladislav Hagara | Komentářů: 0

Reportáž z ceremonie podpisu kořenové zóny DNS

včera 15:44 | Zajímavý článek

Ondřej Filip publikoval reportáž z ceremonie podpisu kořenové zóny DNS. Zhlédnout lze také jeho nedávnou přednášku Jak se podepisuje kořenová zóna Internetu v rámci cyklu Fyzikální čtvrtky FEL ČVUT.

Ladislav Hagara | Komentářů: 0

Monitory určené pro programátory?

včera 14:22 | IT novinky

Společnost BenQ uvádí na trh novou řadu monitorů RD určenou pro programátory. První z nich je RD240Q.

Ladislav Hagara | Komentářů: 19

Superpočítač Frontier nadále zůstává nejvýkonnějším superpočítačem na světě (TOP500 06/2024)

včera 13:00 | IT novinky

Byl aktualizován seznam 500 nejvýkonnějších superpočítačů na světě TOP500. Nejvýkonnějším superpočítačem nadále zůstává Frontier od HPE (Cray) s výkonem 1,206 exaFLOPS. Druhá Aurora má oproti loňsku přibližně dvojnásobný počet jader a dvojnásobný výkon: 1,012 exaFLOPS. Novým počítačem v první desítce je na 6. místě Alps. Novým českým počítačem v TOP500 je na 112. místě C24 ve Škoda Auto v Mladé Boleslavi. Ostravská Karolina, GPU

… více »

Ladislav Hagara | Komentářů: 0

GHC (Glasgow Haskell Compiler) 9.10.1

včera 10:11 | Nová verze

GHC (Glasgow Haskell Compiler, Wikipedie), tj. překladač funkcionálního programovacího jazyka Haskell (Wikipedie), byl vydán ve verzi 9.10.1. Přehled novinek v poznámkách k vydání.

Ladislav Hagara | Komentářů: 0

Linux 6.9

včera 09:22 | Nová verze

Po 9 týdnech vývoje od vydání Linuxu 6.8 oznámil Linus Torvalds vydání Linuxu 6.9. Přehled novinek a vylepšení na LWN.net: první a druhá polovina začleňovacího okna. Později také na Linux Kernel Newbies.

Ladislav Hagara | Komentářů: 2

Pingora 0.2.0

11.5. 18:22 | Nová verze

Byla vydána verze 0.2.0 v Rustu napsaného frameworku Pingora pro vytváření rychlých, spolehlivých a programovatelných síťových systémů. Společnost Cloudflare jej letos v únoru uvolnila pod licencí Apache 2.0.

Ladislav Hagara | Komentářů: 0

xrdp 0.10.0

10.5. 19:11 | Nová verze

Open source RDP (Remote Desktop Protocol) server xrdp (Wikipedie) byl vydán ve verzi 0.10.0. Z novinek je vypíchnuta podpora GFX (Graphic Pipeline Extension). Nová větev řeší také několik bezpečnostních chyb.

Ladislav Hagara | Komentářů: 16

Centrum | Napsat | Starší

navrhněte » Anketa

Podle hypotézy Mrtvý Internet mj. tvoří většinu online interakcí boti.

Jsem bot. (72%)

Jsem člověk. (6%)

Opravdu jsem člověk! (10%)

Jsem něco jiného. (11%)

Celkem 228 hlasů

Komentářů: 16, poslední dnes 11:05

Rozcestník

AbcLinuxu

HDmag.cz

AbcLinuxu:/ Poradna / Linuxová poradna / SED - Vypsání všech URL z textu obsaženého na vstupu

Štítky: PHP, programování, sed

Dotaz: SED - Vypsání všech URL z textu obsaženého na vstupu

31.5.2008 16:07 JirkaK | skóre: 15 | blog:
SED - Vypsání všech URL z textu obsaženého na vstupu

Přečteno: 531×

Odpovědět | Admin

Zdravím, mám následující problém: mám text (řekněme obsah webové stránky), ze kterého potřebuji získat všechny URL, které se v něm vyskytují. Zkoušel jsem to prohnat SEDem, ale nepodařilo se mi vytvořit žádný regulární výraz, který by vyhovoval (moje myšlenka byla taková, že vše, co nebude odpovídat např. http:\/\/*.php (zjednodušeně), substituuji za prázdný řetězec. Bohužel jsem ale nikde nepřišel na to, jak regulární výraz invertovat (něco jako [^abcde] - ovšem tak, aby nebyla specifikována jen množina jednotlivých znaků, ale celých řetězců - např. myšlenka (nefunkční) byla něco jako s/[^(http:\/\/*\/.php)]//g ). V oblasti regulárních výrazů a SEDu jsem poměrně nováčkem, tak se omlouvám, pokud na to jdu nějak extra hloupě :) Předem všem dík za nakopnutí.

** Počítač bez window$, to je jako ryba bez bicyklu... ** echo 'Kdo neskáče, není Čech!'|sed s/Čech/cvičená\ opice/

Nástroje: Začni sledovat (0) ?

Odpovědi

31.5.2008 16:24 JirkaK | skóre: 15 | blog:
Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu

Ještě bych doplnil, že rozhodně netrvám na použití SEDu :) - klidně uvítám i jinou cestu, jak výše zmíněné zrealizovat.

** Počítač bez window$, to je jako ryba bez bicyklu... ** echo 'Kdo neskáče, není Čech!'|sed s/Čech/cvičená\ opice/

31.5.2008 18:21 mafo
Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu

petr@fsc:/tmp$ cat ./227507 | grep http | sed -n 's/.*http/http/p'| sed -n 's/$^.*"$.*/a\1/p'

vyhraj si s tim :P mam zkouskove :D

31.5.2008 18:36 JirkaK | skóre: 15 | blog:
Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu

Diky, snad se tim nejak prokousu :-)

P. S. Taky mam zkouskove O :-)

** Počítač bez window$, to je jako ryba bez bicyklu... ** echo 'Kdo neskáče, není Čech!'|sed s/Čech/cvičená\ opice/

31.5.2008 20:45 Ash | skóre: 53
Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu

UUOC a UUOG pohromadě, no to koukam :) Jinak myslím že nějaký nástroj to přímo umí, nejspíš links či lynx bych myslel.

Ve vimu používám pro zvýraznění a aktivaci odkazů výraz který by se dal použít v sedu asi takto:

sed -n -e "s/.*\(http:\/\/[_a-zA-Z0-9\.\-]\+\/\{1\}[-_:~\&=\?\.%+a-zA-Z0-9\/]*\).*/\1/p" *.html

31.5.2008 20:50 Ash | skóre: 53
Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu

Koukám že by se tam ještě docela hodil středník, třeba pro & takže:

sed -n -e "s/.*\(http:\/\/[_a-zA-Z0-9\.\-]\+\/\{1\}[-_:;~\&=\?\.%+a-zA-Z0-9\/]*\).*/\1/p" *.html

31.5.2008 21:37 JirkaK | skóre: 15 | blog:
Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu

Diky moc

** Počítač bez window$, to je jako ryba bez bicyklu... ** echo 'Kdo neskáče, není Čech!'|sed s/Čech/cvičená\ opice/

1.6.2008 00:51 gorin
Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu

Netuším, jaké jsou povolené znaky v URI, tak jsem se přidržel těch tvých. V regulárním výrazu předpokládáš povinně výskyt jednoho lomítka (navíc dost zvláštním zápisem \/\{1\}), což není správně - http://www.seznam.cz by ti to nenašlo.
Abych nešaškoval se stream editorem, když není potřeba nic editovat, použil jsem raději grep a regulární výraz přepsal:
egrep -o 'http://([[:alnum:]]|[_\.-])+(/([[:alnum:]]|[-_:;~&=?\.%+/])*)?' test.html

1.6.2008 09:40 Ash | skóre: 53
Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu

Jo to je pravda, už si nějak nevzpomínám proč tam mám to lomítko povinně, asi jsem tenkrát nevěděl jak napsat to tvoje (/([[:alnum:]]|[-_:;~&=?\.%+/])*)?, což je dobré, alespoň si to opravím, díky. Jinak se ale určitě jedná se o editaci textu, žádné šaškování (i když většina implementací grepu -o už několik let umí a tudíž se hodí).

1.6.2008 11:41 JirkaK | skóre: 15 | blog:
Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu

Diky moc i za tyhle dalsi prispevky :) To s tim egrepem vypada taky zajimave... Jeste jednou dik.

** Počítač bez window$, to je jako ryba bez bicyklu... ** echo 'Kdo neskáče, není Čech!'|sed s/Čech/cvičená\ opice/

1.6.2008 09:47 Ash | skóre: 53
Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu

Aha, tak už to vím proč tam mám lomítko povinně, protože jsem se chtěl vyhnout tomu aby se jako url matchovalo třeba

http://w

což se v tom tvém případě děje.

V případě tazatele je to celkem jedno, on předpokládá že v té html stránce budou víceméně jenom platná url, a já ve vimu nechci aby se mi http://www zobrazovalo jako url.

1.6.2008 09:49 Ash | skóre: 53
Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu

I když jsou jistě případy kdy to má smysl, pro lokální jména, takže místo neplatná jsem měl říct spíš lokální :)

1.6.2008 09:51 Ash | skóre: 53
Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu

V případě s povinným lomítkem jsem mohl třeba localhost matchnout právě tím, že se na konci přidám lomítko, byla to taková obezlička.

1.6.2008 11:25 gorin
Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu

Tvé tvrzení má otvor. Tedy díru :).
Vezmu-li například URI http://abclinuxu.cz, tak tvůj regulární výraz nevypíše nic, přitom jde o „platné url“. Bylo by odvážné předpokládat, že všechny odkazy v prohledávaném souboru musí nutně obsahovat lomítko.
Takže ses sice vyhnul některým neplatným URI (http://www), ovšem jako bonus i platným. Osobně dávám přednost získání false-positives, která se dají vyeliminovat v dalším kroku nebo přepsáním RE, než abych měl od začátku chybný RE. Navíc, nebezpečí, že je v textu neúmyslně obsažen řetězec http:// následovaný slovem, které nepředstavuje URI, mi přijde malé.

1.6.2008 18:57 Ash | skóre: 53
Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu

Ono právě i http://www je platné url (lokální server), čili to lomítko jsem měl jako takovou obezličku, ale jinak jak říkáš -- že by v html stránce bylo http://neurl je nepravděpodobné.

31.5.2008 22:52 mafo
Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu

OK beru napsal jsem to za par minut a nejsem zadny shellodbornik, ale proste fungovat to funguje a da se z toho kodu neco priucit...

Založit nové vlákno • Nahoru

Tiskni Sdílej:

Píšeme jinde

ISSN 1214-1267 www.czech-server.cz

Redakce | Inzerce | Podmínky použití | Osobní údaje