abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 15:55 | Komunita

    FFmpeg nechal kvůli porušení autorských práv odstranit z GitHubu jeden z repozitářů patřících čínské technologické firmě Rockchip. Důvodem bylo porušení LGPL ze strany Rockchipu. Rockchip byl FFmpegem na porušování LGPL upozorněn již téměř před dvěma roky.

    🇨🇽 | Komentářů: 4
    dnes 15:44 | Zajímavý software

    K dispozici je nový CLI nástroj witr sloužící k analýze běžících procesů. Název je zkratkou slov why-is-this-running, 'proč tohle běží'. Klade si za cíl v 'jediném, lidsky čitelném, výstupu vysvětlit odkud daný spuštěný proces pochází, jak byl spuštěn a jaký řetězec systémů je zodpovědný za to, že tento proces právě teď běží'. Witr je napsán v jazyce Go.

    🇨🇽 | Komentářů: 0
    dnes 15:33 | Zajímavý software

    Yazi je správce souborů běžící v terminálu. Napsán je v programovacím jazyce Rust. Podporuje asynchronní I/O operace. Vydán byl v nové verzi 25.12.29. Instalovat jej lze také ze Snapcraftu.

    Ladislav Hagara | Komentářů: 0
    26.12. 18:44 | Komunita

    Od soboty do úterý probíhá v Hamburku konference 39C3 (Chaos Communication Congress) věnovaná také počítačové bezpečnosti nebo hardwaru. Program (jiná verze) slibuje řadu zajímavých přednášek. Streamy a záznamy budou k dispozici na media.ccc.de.

    Ladislav Hagara | Komentářů: 0
    26.12. 13:22 | Zajímavý software

    Byl představen nový Xserver Phoenix, kompletně od nuly vyvíjený v programovacím jazyce Zig. Projekt Phoenix si klade za cíl být moderní alternativou k X.Org serveru.

    🇨🇽 | Komentářů: 7
    26.12. 13:11 | Nová verze

    XLibre Xserver byl 21. prosince vydán ve verzi 25.1.0, 'winter solstice release'. Od založení tohoto forku X.Org serveru se jedná o vůbec první novou minor verzi (inkrementovalo se to druhé číslo v číselném kódu verze).

    🇨🇽 | Komentářů: 0
    26.12. 03:33 | Nová verze

    Wayback byl vydán ve verzi 0.3. Wayback je "tak akorát Waylandu, aby fungoval Xwayland". Jedná se o kompatibilní vrstvu umožňující běh plnohodnotných X11 desktopových prostředí s využitím komponent z Waylandu. Cílem je nakonec nahradit klasický server X.Org, a tím snížit zátěž údržby aplikací X11.

    Ladislav Hagara | Komentářů: 0
    25.12. 14:44 | Nová verze

    Byla vydána verze 4.0.0 programovacího jazyka Ruby (Wikipedie). S Ruby Box a ZJIT. Ruby lze vyzkoušet na webové stránce TryRuby. U příležitosti 30. narozenin, první veřejná verze Ruby 0.95 byla oznámena 21. prosince 1995, proběhl redesign webových stránek.

    Ladislav Hagara | Komentářů: 0
    24.12. 02:11 | Komunita

    Všem čtenářkám a čtenářům AbcLinuxu krásné Vánoce.

    Ladislav Hagara | Komentářů: 30
    24.12. 02:00 | Nová verze

    Byla vydána nová verze 7.0 linuxové distribuce Parrot OS (Wikipedie). S kódovým názvem Echo. Jedná se o linuxovou distribuci založenou na Debianu a zaměřenou na penetrační testování, digitální forenzní analýzu, reverzní inženýrství, hacking, anonymitu nebo kryptografii. Přehled novinek v příspěvku na blogu.

    Ladislav Hagara | Komentářů: 0
    Kdo vám letos nadělí dárek?
     (35%)
     (1%)
     (20%)
     (1%)
     (1%)
     (1%)
     (12%)
     (12%)
     (16%)
    Celkem 164 hlasů
     Komentářů: 18, poslední 24.12. 15:29
    Rozcestník

    Dotaz: SED - Vypsání všech URL z textu obsaženého na vstupu

    31.5.2008 16:07 JirkaK | skóre: 15 | blog:
    SED - Vypsání všech URL z textu obsaženého na vstupu
    Přečteno: 563×
    Zdravím, mám následující problém: mám text (řekněme obsah webové stránky), ze kterého potřebuji získat všechny URL, které se v něm vyskytují. Zkoušel jsem to prohnat SEDem, ale nepodařilo se mi vytvořit žádný regulární výraz, který by vyhovoval (moje myšlenka byla taková, že vše, co nebude odpovídat např. http:\/\/*.php (zjednodušeně), substituuji za prázdný řetězec. Bohužel jsem ale nikde nepřišel na to, jak regulární výraz invertovat (něco jako [^abcde] - ovšem tak, aby nebyla specifikována jen množina jednotlivých znaků, ale celých řetězců - např. myšlenka (nefunkční) byla něco jako s/[^(http:\/\/*\/.php)]//g ). V oblasti regulárních výrazů a SEDu jsem poměrně nováčkem, tak se omlouvám, pokud na to jdu nějak extra hloupě :) Předem všem dík za nakopnutí.
    ** Počítač bez window$, to je jako ryba bez bicyklu... ** echo 'Kdo neskáče, není Čech!'|sed s/Čech/cvičená\ opice/

    Odpovědi

    31.5.2008 16:24 JirkaK | skóre: 15 | blog:
    Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu
    Ještě bych doplnil, že rozhodně netrvám na použití SEDu :) - klidně uvítám i jinou cestu, jak výše zmíněné zrealizovat.
    ** Počítač bez window$, to je jako ryba bez bicyklu... ** echo 'Kdo neskáče, není Čech!'|sed s/Čech/cvičená\ opice/
    31.5.2008 18:21 mafo
    Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu
    petr@fsc:/tmp$ cat ./227507 | grep http | sed -n 's/.*http/http/p'| sed -n 's/\(^.*"\).*/a\1/p'

    vyhraj si s tim :P mam zkouskove :D
    31.5.2008 18:36 JirkaK | skóre: 15 | blog:
    Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu
    Diky, snad se tim nejak prokousu :-) P. S. Taky mam zkouskove O:-)
    ** Počítač bez window$, to je jako ryba bez bicyklu... ** echo 'Kdo neskáče, není Čech!'|sed s/Čech/cvičená\ opice/
    31.5.2008 20:45 Ash | skóre: 53
    Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu
    UUOC a UUOG pohromadě, no to koukam :) Jinak myslím že nějaký nástroj to přímo umí, nejspíš links či lynx bych myslel.

    Ve vimu používám pro zvýraznění a aktivaci odkazů výraz který by se dal použít v sedu asi takto:
    sed -n -e "s/.*\(http:\/\/[_a-zA-Z0-9\.\-]\+\/\{1\}[-_:~\&=\?\.%+a-zA-Z0-9\/]*\).*/\1/p" *.html
    31.5.2008 20:50 Ash | skóre: 53
    Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu
    Koukám že by se tam ještě docela hodil středník, třeba pro & takže:
    sed -n -e "s/.*\(http:\/\/[_a-zA-Z0-9\.\-]\+\/\{1\}[-_:;~\&=\?\.%+a-zA-Z0-9\/]*\).*/\1/p" *.html
    31.5.2008 21:37 JirkaK | skóre: 15 | blog:
    Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu
    Diky moc ;-)
    ** Počítač bez window$, to je jako ryba bez bicyklu... ** echo 'Kdo neskáče, není Čech!'|sed s/Čech/cvičená\ opice/
    1.6.2008 00:51 gorin
    Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu
    Netuším, jaké jsou povolené znaky v URI, tak jsem se přidržel těch tvých. V regulárním výrazu předpokládáš povinně výskyt jednoho lomítka (navíc dost zvláštním zápisem \/\{1\}), což není správně - http://www.seznam.cz by ti to nenašlo.
    Abych nešaškoval se stream editorem, když není potřeba nic editovat, použil jsem raději grep a regulární výraz přepsal:
    egrep -o 'http://([[:alnum:]]|[_\.-])+(/([[:alnum:]]|[-_:;~&=?\.%+/])*)?' test.html
    1.6.2008 09:40 Ash | skóre: 53
    Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu
    Jo to je pravda, už si nějak nevzpomínám proč tam mám to lomítko povinně, asi jsem tenkrát nevěděl jak napsat to tvoje (/([[:alnum:]]|[-_:;~&=?\.%+/])*)?, což je dobré, alespoň si to opravím, díky. Jinak se ale určitě jedná se o editaci textu, žádné šaškování (i když většina implementací grepu -o už několik let umí a tudíž se hodí).
    1.6.2008 11:41 JirkaK | skóre: 15 | blog:
    Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu
    Diky moc i za tyhle dalsi prispevky :) To s tim egrepem vypada taky zajimave... Jeste jednou dik.
    ** Počítač bez window$, to je jako ryba bez bicyklu... ** echo 'Kdo neskáče, není Čech!'|sed s/Čech/cvičená\ opice/
    1.6.2008 09:47 Ash | skóre: 53
    Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu
    Aha, tak už to vím proč tam mám lomítko povinně, protože jsem se chtěl vyhnout tomu aby se jako url matchovalo třeba
    http://w
    což se v tom tvém případě děje.

    V případě tazatele je to celkem jedno, on předpokládá že v té html stránce budou víceméně jenom platná url, a já ve vimu nechci aby se mi http://www zobrazovalo jako url.
    1.6.2008 09:49 Ash | skóre: 53
    Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu
    I když jsou jistě případy kdy to má smysl, pro lokální jména, takže místo neplatná jsem měl říct spíš lokální :)
    1.6.2008 09:51 Ash | skóre: 53
    Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu
    V případě s povinným lomítkem jsem mohl třeba localhost matchnout právě tím, že se na konci přidám lomítko, byla to taková obezlička.
    1.6.2008 11:25 gorin
    Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu
    Tvé tvrzení má otvor. Tedy díru :).
    Vezmu-li například URI http://abclinuxu.cz, tak tvůj regulární výraz nevypíše nic, přitom jde o „platné url“. Bylo by odvážné předpokládat, že všechny odkazy v prohledávaném souboru musí nutně obsahovat lomítko.
    Takže ses sice vyhnul některým neplatným URI (http://www), ovšem jako bonus i platným. Osobně dávám přednost získání false-positives, která se dají vyeliminovat v dalším kroku nebo přepsáním RE, než abych měl od začátku chybný RE. Navíc, nebezpečí, že je v textu neúmyslně obsažen řetězec http:// následovaný slovem, které nepředstavuje URI, mi přijde malé.
    1.6.2008 18:57 Ash | skóre: 53
    Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu
    Ono právě i http://www je platné url (lokální server), čili to lomítko jsem měl jako takovou obezličku, ale jinak jak říkáš -- že by v html stránce bylo http://neurl je nepravděpodobné.
    31.5.2008 22:52 mafo
    Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu
    OK beru napsal jsem to za par minut a nejsem zadny shellodbornik, ale proste fungovat to funguje a da se z toho kodu neco priucit...

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.