abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 04:22 | IT novinky

    Byly vyhlášeni vítězové a zveřejněny vítězné zdrojové kódy (YouTube, GitHub) již 28. ročníku soutěže International Obfuscated C Code Contest (IOCCC), tj. soutěže o nejnepřehlednější (nejobfuskovanější) zdrojový kód v jazyce C.

    Ladislav Hagara | Komentářů: 2
    včera 14:22 | Komunita

    Na čem pracují vývojáři webového prohlížeče Ladybird (GitHub)? Byl publikován přehled vývoje za červenec (YouTube).

    Ladislav Hagara | Komentářů: 0
    včera 01:11 | Pozvánky

    Konečně se ochladilo, možná i díky tomu přestaly na chvíli padat rakety jako přezrálé hrušky, díky čemuž se na Virtuální Bastlírně dostane i na jiná, přízemnější témata. Pokud si chcete jako každý měsíc popovídat s dalšími bastlíři, techniky, vědci a profesory u virtuálního pokecu u piva, Virtuální Bastlírna je tu pro Vás.

    Ještě před ochlazením se drát na vedení V411 roztáhl o 17 metrů (přesné číslo není známé, ale drát nepřežil) a způsobil tak… více »
    bkralik | Komentářů: 0
    2.8. 23:44 | Komunita

    Na čem aktuálně pracují vývojáři GNOME a KDE Plasma? Pravidelný přehled novinek v Týden v GNOME a Týden v KDE Plasma.

    Ladislav Hagara | Komentářů: 0
    1.8. 15:44 | Nová verze

    PixiEditor byl vydán ve verzi 2.0. Jedná se o multiplatformní univerzální all-in-one 2D grafický editor. Zvládne rastrovou i vektorovou grafiku, pixel art, k tomu animace a efekty pomocí uzlového grafu. Zdrojové kódy jsou k dispozici na GitHubu pod licencí GNU LGPL 3.0.

    Ladislav Hagara | Komentářů: 2
    1.8. 13:22 | Nová verze

    Byly představeny novinky v Raspberry Pi Connect for Organisations. Vylepšen byl protokol auditu pro lepší zabezpečení. Raspberry Pi Connect je oficiální služba Raspberry Pi pro vzdálený přístup k jednodeskovým počítačům Raspberry Pi z webového prohlížeče. Verze pro organizace je placená. Cena je 0,50 dolaru za zařízení za měsíc.

    Ladislav Hagara | Komentářů: 0
    1.8. 01:33 | Zajímavý software

    CISA (Cybersecurity and Infrastructure Security Agency) oznámila veřejnou dostupnost škálovatelné a distribuované platformy Thorium pro automatizovanou analýzu malwaru. Zdrojové kódy jsou k dispozici na GitHubu.

    Ladislav Hagara | Komentářů: 0
    31.7. 17:22 | Nová verze Ladislav Hagara | Komentářů: 0
    31.7. 16:11 | Zajímavý software

    Společnost Proton AG stojící za Proton Mailem a dalšími službami přidala do svého portfolia Proton Authenticator. S otevřeným zdrojovým kódem a k dispozici na všech zařízeních. Snadno a bezpečně synchronizujte a zálohujte své 2FA kódy. K používání nepotřebujete Proton Account.

    Ladislav Hagara | Komentářů: 0
    30.7. 16:22 | Zajímavý článek

    Argentinec, který byl náhodně zachycen Google Street View kamerou, jak se zcela nahý prochází po svém dvorku, vysoudil od internetového giganta odškodné. Soud uznal, že jeho soukromí bylo opravdu porušeno – Google mu má vyplatit v přepočtu asi 12 500 dolarů.

    Ladislav Hagara | Komentářů: 16
    Kolik tabů máte standardně otevřeno ve web prohlížeči?
     (29%)
     (28%)
     (5%)
     (7%)
     (4%)
     (1%)
     (2%)
     (24%)
    Celkem 201 hlasů
     Komentářů: 22, poslední včera 22:55
    Rozcestník

    Blbinky v bashi (2) - Najčastejšie slová v srt titulkoch

    6.5.2009 00:22 | Přečteno: 1263× | iné

    #!/bin/bash
    SRT="$1"
    TMP1=`mktemp`
    if [ -z "$SRT" ]; then
      echo "USAGE: `basename $0` [file_in_cp1250_dos_eol.srt]"
      exit
    fi 
    cstocs 1250 utf8 "$SRT" | dos2unix | \
      grep -v '\-\->' | sed 's/<i>//g;s/<\/i>//g;s/[ ,.\*\(\)\"0123456789-\/]/\n/g' | \
      grep -v '^$' | perl -Mutf8 -pe 'utf8::decode($_);$_=lc($_);utf8::encode($_);' > "$TMP1"
    k=0
    m=`sort -u "$TMP1" | wc -l`
    for i in `sort -u "$TMP1"`; do
      k=$(($k+1))
      POCET=`grep '^'$i'$' "$TMP1" | wc -l`
      echo "$k/$m ... $POCET $i" > /dev/stderr
      echo $POCET $i
    done | sort -nr > "$SRT.stat"
    rm "$TMP1"
    

    Poznámky

    $ time srtstat 'The Code - Linux.srt' 2>/dev/null
    real	0m15.628s
    user	0m12.093s
    sys	0m11.821s
    (Intel Atom 1.6 GHz, 1 GB ram, SATA disk 250 GB hitachi 8MB cache)
    
    $ head -20 'The Code - Linux.srt.stat'
    106 a
    104 to
    85 je
    67 na
    63 v
    61 se
    42 že
    34 jsem
    33 z
    31 linux
    29 ale
    27 co
    24 s
    24 pro
    24 linuxu
    23 o
    23 jako
    22 byl
    21 si
    21 jsou
    
           

    Hodnocení: 70 %

            špatnédobré        

    Anketa

    Chcete pokračovanie tohoto mini seriálu?
     (88 %)
     (13 %)
    Celkem 40 hlasů

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    Komentáře

    Vložit další komentář

    jose17 avatar 6.5.2009 07:39 jose17 | skóre: 44 | blog: Joseho_blog | Bratislava
    Rozbalit Rozbalit vše Re: Blbinky v bashi (2) - Najčastejšie slová v srt titulkoch

    > zavyslosti

    nechcel si uz rovno napisat zavyslosty? :-)

    Ja vim, on vi, ty nano!
    6.5.2009 08:27 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: Blbinky v bashi (2) - Najčastejšie slová v srt titulkoch
    Tohle je fakt blbinka. Proč se to jmenuje blbinky v bashi, když tam voláš: sed, grep, cstocs, dos2unix jako zlatý hřeb na závěr - perl?
    default avatar 6.5.2009 09:30 default | skóre: 22 | Madrid
    Rozbalit Rozbalit vše Re: Blbinky v bashi (2) - Najčastejšie slová v srt titulkoch

    Protože to jde mnohem jednoduššeji napsat přimo v tom Perlu či AWK? Ale když si tak uvědomuji ty závislosti, jejich verze a jejich nepodporu UTF-8, tak si myslím, že nejjednodušší by to bylo v Javě. Žádný dos2unix, tr, iconv, whatever… Žádný řešení závislostí… :-D

    6.5.2009 21:09 kralyk z abclinuxu | skóre: 29 | blog:
    Rozbalit Rozbalit vše Re: Blbinky v bashi (2) - Najčastejšie slová v srt titulkoch
    Žádný řešení závislostí… :-D
    JRE ;-)
    hikikomori82 avatar 6.5.2009 10:55 hikikomori82 | skóre: 18 | blog: foobar | Košice
    Rozbalit Rozbalit vše Re: Blbinky v bashi (2) - Najčastejšie slová v srt titulkoch
    Ano, toto sa pytal niekto uz minule, mas nejaky lepsi nazov? Tieto skripty su z kategorie "napisat, pouzit, zahodit", pouzivaju vsetky dostupne commandline utility, bash je len pojitko. Nebudem predsa pouzivat nejaky iny jazyk alebo tento skript prepisovat len preto ze sa neda napisat 100% vystizny nazov blogu.
    6.5.2009 13:40 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: Blbinky v bashi (2) - Najčastejšie slová v srt titulkoch
    No kdybys ten blog nazval "Vtákoviny v shelle", bylo by to výstižnější ;-)
    hikikomori82 avatar 6.5.2009 15:53 hikikomori82 | skóre: 18 | blog: foobar | Košice
    Rozbalit Rozbalit vše Re: Blbinky v bashi (2) - Najčastejšie slová v srt titulkoch
    Rozmyslal som ze by som to skratil na "Blbinky (2) - Najčastejšie slová v srt titulkoch"
    6.5.2009 11:14 CEST
    Rozbalit Rozbalit vše Re: Blbinky v bashi (2) - Najčastejšie slová v srt titulkoch
    Hmmm, fakt jsi to s tim perlem prehnal. Pokud se to jmenuje "...v bashi", tak se zkus spis zamerit na bash. Jak do bashe nacpes perl, pripadne jeste jednu velkou rouru s pouzitim dalsich utilitek jako grep, sed a awk, tak uz je mozna lepsi napsat rovnou perl skript.

    BTW: U me umi i tr prevadet ISO-8859-2 mala na velka a obracene.

    Ja bych to v bashi resil spis takhle:
    time iconv -f cp1250 -t l2 a.srt \
    | sed -n -e '/^[0-9]\+[[:space:]]*$/d;/-->/d;s/<\/\?[^>]\+>//g;s/[^[:alpha:]]/ /g;s/[[:space:]]\+/\n/g;p;' \
    | tr '[:upper:]' '[:lower:]' \
    | grep -Ev '^[[:space:]]*$'  \
    | sort | uniq -c | sort -nr
    
    BTW: Titulky jsou z dilu HIMYM 4.21 a casy jsou
    real    0m0.152s
    user    0m0.024s
    sys     0m0.008s
    
    6.5.2009 21:00 ^([0-9a-fA-F]{2}([:-]?|$)){6}$
    Rozbalit Rozbalit vše Re: Blbinky v bashi (2) - Najčastejšie slová v srt titulkoch
    Hahaha, pobavil jsi me :-) To je prispevek dnesniho dne! Btw poznas, co sezere regularni vyraz v mem v nicku?

    Založit nové vláknoNahoru

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.