AbcLinuxu:/ Poradna / Linuxová poradna / SED - Vypsání všech URL z textu obsaženého na vstupu

Štítky: PHP, programování, sed

Dotaz: SED - Vypsání všech URL z textu obsaženého na vstupu

31.5.2008 16:07 JirkaK | skóre: 15 | blog:
SED - Vypsání všech URL z textu obsaženého na vstupu

Přečteno: 631×

Odpovědět | Admin

Zdravím, mám následující problém: mám text (řekněme obsah webové stránky), ze kterého potřebuji získat všechny URL, které se v něm vyskytují. Zkoušel jsem to prohnat SEDem, ale nepodařilo se mi vytvořit žádný regulární výraz, který by vyhovoval (moje myšlenka byla taková, že vše, co nebude odpovídat např. http:\/\/*.php (zjednodušeně), substituuji za prázdný řetězec. Bohužel jsem ale nikde nepřišel na to, jak regulární výraz invertovat (něco jako [^abcde] - ovšem tak, aby nebyla specifikována jen množina jednotlivých znaků, ale celých řetězců - např. myšlenka (nefunkční) byla něco jako s/[^(http:\/\/*\/.php)]//g ). V oblasti regulárních výrazů a SEDu jsem poměrně nováčkem, tak se omlouvám, pokud na to jdu nějak extra hloupě :) Předem všem dík za nakopnutí.

** Počítač bez window$, to je jako ryba bez bicyklu... ** echo 'Kdo neskáče, není Čech!'|sed s/Čech/cvičená\ opice/

Nástroje: Začni sledovat (0) ?

Odpovědi

31.5.2008 16:24 JirkaK | skóre: 15 | blog:
Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu

Ještě bych doplnil, že rozhodně netrvám na použití SEDu :) - klidně uvítám i jinou cestu, jak výše zmíněné zrealizovat.

** Počítač bez window$, to je jako ryba bez bicyklu... ** echo 'Kdo neskáče, není Čech!'|sed s/Čech/cvičená\ opice/

31.5.2008 18:21 mafo
Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu

petr@fsc:/tmp$ cat ./227507 | grep http | sed -n 's/.*http/http/p'| sed -n 's/$^.*"$.*/a\1/p'

vyhraj si s tim :P mam zkouskove :D

31.5.2008 18:36 JirkaK | skóre: 15 | blog:
Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu

Diky, snad se tim nejak prokousu :-)

P. S. Taky mam zkouskove O :-)

** Počítač bez window$, to je jako ryba bez bicyklu... ** echo 'Kdo neskáče, není Čech!'|sed s/Čech/cvičená\ opice/

31.5.2008 20:45 Ash | skóre: 53
Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu

UUOC a UUOG pohromadě, no to koukam :) Jinak myslím že nějaký nástroj to přímo umí, nejspíš links či lynx bych myslel.

Ve vimu používám pro zvýraznění a aktivaci odkazů výraz který by se dal použít v sedu asi takto:

sed -n -e "s/.*\(http:\/\/[_a-zA-Z0-9\.\-]\+\/\{1\}[-_:~\&=\?\.%+a-zA-Z0-9\/]*\).*/\1/p" *.html

31.5.2008 20:50 Ash | skóre: 53
Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu

Koukám že by se tam ještě docela hodil středník, třeba pro & takže:

sed -n -e "s/.*\(http:\/\/[_a-zA-Z0-9\.\-]\+\/\{1\}[-_:;~\&=\?\.%+a-zA-Z0-9\/]*\).*/\1/p" *.html

31.5.2008 21:37 JirkaK | skóre: 15 | blog:
Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu

Diky moc

** Počítač bez window$, to je jako ryba bez bicyklu... ** echo 'Kdo neskáče, není Čech!'|sed s/Čech/cvičená\ opice/

1.6.2008 00:51 gorin
Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu

Netuším, jaké jsou povolené znaky v URI, tak jsem se přidržel těch tvých. V regulárním výrazu předpokládáš povinně výskyt jednoho lomítka (navíc dost zvláštním zápisem \/\{1\}), což není správně - http://www.seznam.cz by ti to nenašlo.
Abych nešaškoval se stream editorem, když není potřeba nic editovat, použil jsem raději grep a regulární výraz přepsal:
egrep -o 'http://([[:alnum:]]|[_\.-])+(/([[:alnum:]]|[-_:;~&=?\.%+/])*)?' test.html

1.6.2008 09:40 Ash | skóre: 53
Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu

Jo to je pravda, už si nějak nevzpomínám proč tam mám to lomítko povinně, asi jsem tenkrát nevěděl jak napsat to tvoje (/([[:alnum:]]|[-_:;~&=?\.%+/])*)?, což je dobré, alespoň si to opravím, díky. Jinak se ale určitě jedná se o editaci textu, žádné šaškování (i když většina implementací grepu -o už několik let umí a tudíž se hodí).

1.6.2008 11:41 JirkaK | skóre: 15 | blog:
Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu

Diky moc i za tyhle dalsi prispevky :) To s tim egrepem vypada taky zajimave... Jeste jednou dik.

** Počítač bez window$, to je jako ryba bez bicyklu... ** echo 'Kdo neskáče, není Čech!'|sed s/Čech/cvičená\ opice/

1.6.2008 09:47 Ash | skóre: 53
Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu

Aha, tak už to vím proč tam mám lomítko povinně, protože jsem se chtěl vyhnout tomu aby se jako url matchovalo třeba

http://w

což se v tom tvém případě děje.

V případě tazatele je to celkem jedno, on předpokládá že v té html stránce budou víceméně jenom platná url, a já ve vimu nechci aby se mi http://www zobrazovalo jako url.

1.6.2008 09:49 Ash | skóre: 53
Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu

I když jsou jistě případy kdy to má smysl, pro lokální jména, takže místo neplatná jsem měl říct spíš lokální :)

1.6.2008 09:51 Ash | skóre: 53
Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu

V případě s povinným lomítkem jsem mohl třeba localhost matchnout právě tím, že se na konci přidám lomítko, byla to taková obezlička.

1.6.2008 11:25 gorin
Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu

Tvé tvrzení má otvor. Tedy díru :).
Vezmu-li například URI http://abclinuxu.cz, tak tvůj regulární výraz nevypíše nic, přitom jde o „platné url“. Bylo by odvážné předpokládat, že všechny odkazy v prohledávaném souboru musí nutně obsahovat lomítko.
Takže ses sice vyhnul některým neplatným URI (http://www), ovšem jako bonus i platným. Osobně dávám přednost získání false-positives, která se dají vyeliminovat v dalším kroku nebo přepsáním RE, než abych měl od začátku chybný RE. Navíc, nebezpečí, že je v textu neúmyslně obsažen řetězec http:// následovaný slovem, které nepředstavuje URI, mi přijde malé.

1.6.2008 18:57 Ash | skóre: 53
Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu

Ono právě i http://www je platné url (lokální server), čili to lomítko jsem měl jako takovou obezličku, ale jinak jak říkáš -- že by v html stránce bylo http://neurl je nepravděpodobné.

31.5.2008 22:52 mafo
Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu

OK beru napsal jsem to za par minut a nejsem zadny shellodbornik, ale proste fungovat to funguje a da se z toho kodu neco priucit...

Založit nové vlákno • Nahoru

Tiskni Sdílej: