abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 14:00 | Zajímavý projekt

    Společnost Red Hat představila Fedora Hummingbird, tj. linuxovou distribuci s nativním kontejnerovým designem určenou pro vývojáře využívající AI agenty.

    Pinhead | Komentářů: 0
    dnes 02:22 | Zajímavý software

    Hru The Legend of Zelda: Twilight Princess od společnosti Nintendo si lze nově díky projektu Dusklight (původně Dusk) a reverznímu inženýrství zahrát i na počítačích a mobilních zařízeních. Vyžadována je kopie původní hry (textury, modely, hudba, zvukové efekty, …). Ukázka na YouTube. Projekt byl zahájen v srpnu 2020.

    Ladislav Hagara | Komentářů: 0
    dnes 01:11 | Nová verze

    Byla vydána nová major verze 29.0 programovacího jazyka Erlang (Wikipedie) a související platformy OTP (Open Telecom Platform, Wikipedie). Detailní přehled novinek na GitHubu.

    Ladislav Hagara | Komentářů: 0
    včera 21:22 | Bezpečnostní upozornění

    Po zranitelnostech Copy Fail a Dirty Frag přichází zranitelnost Fragnesia. Další lokální eskalace práv na Linuxu. Zatím v upstreamu neopravena. Přiřazeno ji bylo CVE-2026-46300.

    Ladislav Hagara | Komentářů: 1
    včera 14:00 | Komunita

    Sovereign Tech Agency (Wikipedie) prostřednictvím svého fondu Sovereign Tech Fund podpoří KDE částkou 1 285 200 eur.

    Ladislav Hagara | Komentářů: 6
    včera 12:55 | IT novinky

    Google na včerejší akci The Android Show | I/O Edition 2026 (YouTube) představil celou řadu novinek: Gemini Intelligence, notebooky Googlebook, novou generaci Android Auto, …

    Ladislav Hagara | Komentářů: 0
    včera 12:33 | IT novinky

    Evropská komise by do léta mohla předložit návrh normy omezující používání sociálních sítí dětmi v zájmu jejich bezpečí na internetu. Prohlásila to včera předsedkyně EK Ursula von der Leyenová, podle níž řada zemí Evropské unie volá po zavedení věkové hranice pro sociální sítě. EU částečně řeší bezpečnost dětí v digitálním prostředí v již platném nařízení o digitálních službách (DSA), podle německé političky to však není dostatečné a

    … více »
    Ladislav Hagara | Komentářů: 43
    včera 04:11 | Nová verze

    Multiplatformní open source aplikace scrcpy (Wikipedie) pro zrcadlení připojeného zařízení se systémem Android na desktopu a umožňující ovládání tohoto zařízení z desktopu, byla vydána v nové verzi 4.0.

    Ladislav Hagara | Komentářů: 0
    12.5. 23:22 | Pozvánky

    Chybí vám někdo, s kým byste si popovídali o bastlení, technice, počítačích a vědě? Nechcete riskovat debatu o sportu u piva v hospodě? Pak doražte na virtuální pokec u virtuálního piva v rámci Virtuální Bastlírny organizované strahovským MacGyverem již tento čtvrtek. Možná se ptáte, co se tak může probírat? Dají se probrat slavná výročí - kromě 55 let obvodu 555 (což je mimochodem prý andělské číslo) a vzpomínky na firmu Signetics -

    … více »
    bkralik | Komentářů: 2
    12.5. 23:11 | Zajímavý software

    GTK2-NG je komunitní fork GTK 2.24 (aktuální verze je 4.22). Oznámení a diskuse v diskusním fóru Devuanu, forku Debianu bez systemd. Není to jediný fork GTK 2. Ardour je například postaven na vlastním forku GTK 2 s názvem YTK.

    Ladislav Hagara | Komentářů: 0
    Které desktopové prostředí na Linuxu používáte?
     (13%)
     (8%)
     (2%)
     (14%)
     (31%)
     (4%)
     (6%)
     (3%)
     (16%)
     (25%)
    Celkem 1604 hlasů
     Komentářů: 30, poslední 3.4. 20:20
    Rozcestník

    Dotaz: SED - Vypsání všech URL z textu obsaženého na vstupu

    31.5.2008 16:07 JirkaK | skóre: 15 | blog:
    SED - Vypsání všech URL z textu obsaženého na vstupu
    Přečteno: 567×
    Zdravím, mám následující problém: mám text (řekněme obsah webové stránky), ze kterého potřebuji získat všechny URL, které se v něm vyskytují. Zkoušel jsem to prohnat SEDem, ale nepodařilo se mi vytvořit žádný regulární výraz, který by vyhovoval (moje myšlenka byla taková, že vše, co nebude odpovídat např. http:\/\/*.php (zjednodušeně), substituuji za prázdný řetězec. Bohužel jsem ale nikde nepřišel na to, jak regulární výraz invertovat (něco jako [^abcde] - ovšem tak, aby nebyla specifikována jen množina jednotlivých znaků, ale celých řetězců - např. myšlenka (nefunkční) byla něco jako s/[^(http:\/\/*\/.php)]//g ). V oblasti regulárních výrazů a SEDu jsem poměrně nováčkem, tak se omlouvám, pokud na to jdu nějak extra hloupě :) Předem všem dík za nakopnutí.
    ** Počítač bez window$, to je jako ryba bez bicyklu... ** echo 'Kdo neskáče, není Čech!'|sed s/Čech/cvičená\ opice/

    Odpovědi

    31.5.2008 16:24 JirkaK | skóre: 15 | blog:
    Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu
    Ještě bych doplnil, že rozhodně netrvám na použití SEDu :) - klidně uvítám i jinou cestu, jak výše zmíněné zrealizovat.
    ** Počítač bez window$, to je jako ryba bez bicyklu... ** echo 'Kdo neskáče, není Čech!'|sed s/Čech/cvičená\ opice/
    31.5.2008 18:21 mafo
    Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu
    petr@fsc:/tmp$ cat ./227507 | grep http | sed -n 's/.*http/http/p'| sed -n 's/\(^.*"\).*/a\1/p'

    vyhraj si s tim :P mam zkouskove :D
    31.5.2008 18:36 JirkaK | skóre: 15 | blog:
    Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu
    Diky, snad se tim nejak prokousu :-) P. S. Taky mam zkouskove O:-)
    ** Počítač bez window$, to je jako ryba bez bicyklu... ** echo 'Kdo neskáče, není Čech!'|sed s/Čech/cvičená\ opice/
    31.5.2008 20:45 Ash | skóre: 53
    Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu
    UUOC a UUOG pohromadě, no to koukam :) Jinak myslím že nějaký nástroj to přímo umí, nejspíš links či lynx bych myslel.

    Ve vimu používám pro zvýraznění a aktivaci odkazů výraz který by se dal použít v sedu asi takto:
    sed -n -e "s/.*\(http:\/\/[_a-zA-Z0-9\.\-]\+\/\{1\}[-_:~\&=\?\.%+a-zA-Z0-9\/]*\).*/\1/p" *.html
    31.5.2008 20:50 Ash | skóre: 53
    Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu
    Koukám že by se tam ještě docela hodil středník, třeba pro & takže:
    sed -n -e "s/.*\(http:\/\/[_a-zA-Z0-9\.\-]\+\/\{1\}[-_:;~\&=\?\.%+a-zA-Z0-9\/]*\).*/\1/p" *.html
    31.5.2008 21:37 JirkaK | skóre: 15 | blog:
    Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu
    Diky moc ;-)
    ** Počítač bez window$, to je jako ryba bez bicyklu... ** echo 'Kdo neskáče, není Čech!'|sed s/Čech/cvičená\ opice/
    1.6.2008 00:51 gorin
    Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu
    Netuším, jaké jsou povolené znaky v URI, tak jsem se přidržel těch tvých. V regulárním výrazu předpokládáš povinně výskyt jednoho lomítka (navíc dost zvláštním zápisem \/\{1\}), což není správně - http://www.seznam.cz by ti to nenašlo.
    Abych nešaškoval se stream editorem, když není potřeba nic editovat, použil jsem raději grep a regulární výraz přepsal:
    egrep -o 'http://([[:alnum:]]|[_\.-])+(/([[:alnum:]]|[-_:;~&=?\.%+/])*)?' test.html
    1.6.2008 09:40 Ash | skóre: 53
    Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu
    Jo to je pravda, už si nějak nevzpomínám proč tam mám to lomítko povinně, asi jsem tenkrát nevěděl jak napsat to tvoje (/([[:alnum:]]|[-_:;~&=?\.%+/])*)?, což je dobré, alespoň si to opravím, díky. Jinak se ale určitě jedná se o editaci textu, žádné šaškování (i když většina implementací grepu -o už několik let umí a tudíž se hodí).
    1.6.2008 11:41 JirkaK | skóre: 15 | blog:
    Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu
    Diky moc i za tyhle dalsi prispevky :) To s tim egrepem vypada taky zajimave... Jeste jednou dik.
    ** Počítač bez window$, to je jako ryba bez bicyklu... ** echo 'Kdo neskáče, není Čech!'|sed s/Čech/cvičená\ opice/
    1.6.2008 09:47 Ash | skóre: 53
    Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu
    Aha, tak už to vím proč tam mám lomítko povinně, protože jsem se chtěl vyhnout tomu aby se jako url matchovalo třeba
    http://w
    což se v tom tvém případě děje.

    V případě tazatele je to celkem jedno, on předpokládá že v té html stránce budou víceméně jenom platná url, a já ve vimu nechci aby se mi http://www zobrazovalo jako url.
    1.6.2008 09:49 Ash | skóre: 53
    Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu
    I když jsou jistě případy kdy to má smysl, pro lokální jména, takže místo neplatná jsem měl říct spíš lokální :)
    1.6.2008 09:51 Ash | skóre: 53
    Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu
    V případě s povinným lomítkem jsem mohl třeba localhost matchnout právě tím, že se na konci přidám lomítko, byla to taková obezlička.
    1.6.2008 11:25 gorin
    Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu
    Tvé tvrzení má otvor. Tedy díru :).
    Vezmu-li například URI http://abclinuxu.cz, tak tvůj regulární výraz nevypíše nic, přitom jde o „platné url“. Bylo by odvážné předpokládat, že všechny odkazy v prohledávaném souboru musí nutně obsahovat lomítko.
    Takže ses sice vyhnul některým neplatným URI (http://www), ovšem jako bonus i platným. Osobně dávám přednost získání false-positives, která se dají vyeliminovat v dalším kroku nebo přepsáním RE, než abych měl od začátku chybný RE. Navíc, nebezpečí, že je v textu neúmyslně obsažen řetězec http:// následovaný slovem, které nepředstavuje URI, mi přijde malé.
    1.6.2008 18:57 Ash | skóre: 53
    Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu
    Ono právě i http://www je platné url (lokální server), čili to lomítko jsem měl jako takovou obezličku, ale jinak jak říkáš -- že by v html stránce bylo http://neurl je nepravděpodobné.
    31.5.2008 22:52 mafo
    Rozbalit Rozbalit vše Re: SED - Vypsání všech URL z textu obsaženého na vstupu
    OK beru napsal jsem to za par minut a nejsem zadny shellodbornik, ale proste fungovat to funguje a da se z toho kodu neco priucit...

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.