abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 05:22 | IT novinky

    Nezisková organizace Electronic Frontier Foundation (EFF) hájící občanské svobody v digitálním světě po téměř 20 letech opouští platformu X (dříve Twitter). Na platformách Bluesky, Mastodon, LinkedIn, Instagram, TikTok, Facebook, Threads a YouTube zůstává.

    Ladislav Hagara | Komentářů: 2
    dnes 03:33 | Nová verze

    Terminálový textový editor GNU nano byl vydán ve verzi 9.0. Vylepšuje chování horizontálního posouvání pohledu na dlouhé řádky a chování některých klávesových zkratek. Více v seznamu změn.

    |🇵🇸 | Komentářů: 0
    včera 19:22 | IT novinky

    Ministerstvo financí ve spolupráci s finanční správou dnes představilo beta verzi aplikace využívající umělou inteligenci pro předvyplnění daňového přiznání. Není třeba přepisovat údaje z různých potvrzení, ani hledat správné řádky, kam údaje napsat. Stačí nahrát dokumenty a využít AI.

    Ladislav Hagara | Komentářů: 7
    včera 18:33 | Zajímavý projekt

    Výrobce počítačových periferií Keychron zveřejnil repozitář se schématy šasi klávesnic a myší. Licence je restriktivní, zakazuje většinu komerčních užití a v podstatě jsou tak data vhodná pouze pro výukové účely, hlášení a opravy chyb, případně výrobu vlastního příslušenství.

    |🇵🇸 | Komentářů: 1
    včera 18:22 | Nová verze

    Správce balíčků APT, používaný v Debianu a odvozených distribucích, byl vydán ve verzi 3.2 (seznam změn). Mezi novinkami figurují nové příkazy pro práci s historií, včetně vracení transakcí.

    |🇵🇸 | Komentářů: 0
    včera 14:33 | IT novinky

    Společnost Anthropic oznámila Projekt Glasswing a s ní související AI model Claude Mythos Preview. Jedná se o iniciativu zaměřenou na kybernetickou bezpečnost, do které se zapojily velké technologické společnosti Amazon Web Services, Anthropic, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA a Palo Alto Networks. Anthropic věří, že nový AI model Claude Mythos Preview dokáže

    … více »
    Ladislav Hagara | Komentářů: 1
    včera 13:55 | Zajímavý software

    Firma Ojective Development vydala svůj nástroj pro monitorování a řízení odchozích síťových připojení Little Snitch i pro operační systém Linux. Linuxová verze se skládá ze tří komponent: eBPF program pro zachytávání provozu a webové rozhraní jsou uvolněny pod GNU GPLv2 a dostupné na GitHubu (převážně Rust a JavaScript), jádro backendu je proprietární pod vlastní licencí, nicméně zdarma k použití a redistribuci (cena přitom normálně … více »

    » FIDESZ🧡! « | Komentářů: 0
    8.4. 18:44 | IT novinky

    Vojenské zpravodajství (VZ) se v březnu zapojilo do mezinárodní operace proti aktivitám hackerské skupiny APT28, která je spojovaná s ruskou vojenskou zpravodajskou službou GRU a která přes slabě zabezpečené routery prováděla kybernetické útoky na státní a další organizace v ČR i zahraničí. Operaci vedl americký Federální úřad pro vyšetřování (FBI) a jejím cílem bylo odebrat útočníkům přístup k napadeným zařízením a ty následně … více »

    Ladislav Hagara | Komentářů: 34
    8.4. 16:44 | IT novinky

    Tvůrcem nejpopulárnější kryptoměny bitcoin, který se skrývá za pseudonymem Satoši Nakamoto (Satoshi Nakamoto), je britský kryptograf Adam Back. Na základě vlastní investigativní práce to tvrdí americký deník The New York Times (NYT). Několik indicií podle autorů jasně ukazuje na to, že Back a Nakamoto jsou stejný člověk. Jde mimo jiné o podobný odborný a osobnostní profil či totožné chyby a manýry v psaném projevu.

    Ladislav Hagara | Komentářů: 13
    8.4. 14:44 | Nová verze

    Google Chrome 147 byl prohlášen za stabilní. Nejnovější stabilní verze 147.0.7727.55 přináší řadu novinek z hlediska uživatelů i vývojářů. Podrobný přehled v poznámkách k vydání. Vylepšeny byly také nástroje pro vývojáře. Přehled novinek v Chrome DevTools 145 až 147 také na YouTube.

    Ladislav Hagara | Komentářů: 0
    Které desktopové prostředí na Linuxu používáte?
     (14%)
     (8%)
     (1%)
     (12%)
     (30%)
     (3%)
     (6%)
     (2%)
     (14%)
     (24%)
    Celkem 1257 hlasů
     Komentářů: 30, poslední 3.4. 20:20
    Rozcestník

    BashBastlení: Parsování HTML a ohákování textu

    26.9.2009 23:56 | Přečteno: 3037× | Linux | poslední úprava: 27.9.2009 13:43

    Občas si ubastlím nějaký "užitečný" skriptík. Co dnes: Skript, který mi každý den pošle SMS s přehledem suplování. | Přidání diakritiky ke stránce. | Referendum v Bashi.

    Bakaláři

    Gymnasium, které navštěvuji, používá IS Bakaláři. Ten vyblívá suplování do HTML souboru. Co kdyby se cronem spouštěl skript, který mi pošle SMS, jestli je nějaké suplování? Člověk by se ráno nemusel tlačit u Nastěnky...

    #!/bin/bash
    # Parsování suplování z Bakalářů
    # Nedostatečně otestovaná alfaverze (prověří Čas). Používejte na vlastní risiko.
    # Jan Hrach, <jenda zav hrach t eu>
    # 
    # Skript by pravděpodobně mohl fungovat i s jinými versemi Bakalářů,
    #  ale formát tabulky se může změnit.
    # Zejména další třída nemusí začínat "  " (dvěma mezerami), ale
    #  jen jednou (v jiné versi to tak skutečně je).
    # 
    # Skript má jediný parametr a tím je třída, pro kterou má získat suplování.
    # 
    # Testovací tabulky:
    #  http://gomora.hrach.eu/misc/suplobec-sample.htm (GSG Praha, na ní je skript odladěn)
    #  http://www.horackova.cz/suplovani/suplobec.htm (jiná verse BK)
    #
    
    SOUBOR=suplobec.htm
    TRIDA="$1"
    
    # wget a tak...
    # přihlášení a uložení sušenky, u nás má oficiálně platnost do konce session, takže by to
    # s --keep-session-cookies mělo stačit tak jednou za rok
    wget --save-cookies cookie.txt --keep-session-cookies "https://www.gsgpraha.cz/login.php" \
     --post-data="return=%2Fintranet%2F&username=hrachj&pass=----&loginButton=P%F8ihl%E1sit+se" -q -O /dev/null \
     --no-check-certificate
    # Tajné služby právě získaly vaše heslo. Gratulujeme.
    # Bohužel je stejně self-signed a nikde ve škole nevisí jeho fingeprint :-(
    
    # UPDATE: Centrální Mozek Lidstva dovoluje přihlásit se jenom jednou sušenkou najednou :-(
    
    # stáhnutí stránky se suplováním
    wget --load-cookies cookie.txt https://www.gsgpraha.cz/intranet/rozvrhy/suplobec.htm -O - -q \
     --no-check-certificate |\
     # Tajné služby právě získaly vaši sušenku. Gratulujeme.
     # je to ve win1250 s CRLF konci řádků
     recode cp1250..utf8 > $SOUBOR
    
    parsni_tr() {
      #vygrepnutí zpracovávaného řádku
      grep "  "$TRIDA $SOUBOR -A $((7 + $1)) | tail -n 7 |\
      #smazání tagů, komprese mezer - SMS musí být krátká, odstranění diakritiky, převedení na jeden řádek
      sed -e 's/<[^>]*>//g' | tr -d " " | iconv -f utf-8 -t us-ascii//translit | tr "\n" " " |\
      # když supluje, nemusí být uvedena cílová učebna
      sed -e 's/\ \;/ - /g' #|\
      # vyříznutí jen těch informací, které chci
      #cut -d " " -f 1,2,3,4,5,6
    }
    
    if grep "  "$TRIDA $SOUBOR > /dev/null; then
      # datum
      MESSAGE=`grep textlarge_3 $SOUBOR | cut -d " " -f 3`
      SUPL_NUM=0
      while true; do
        if [ $SUPL_NUM -gt 0 ]; then
          if grep "  "$TRIDA $SOUBOR -A $((7 + $SUPL_NUM * 10 )) | tail -n 8 | grep -E '(<p>  |</table>)' > /dev/null; then
            break
          fi
        fi
        if [ $SUPL_NUM -gt 100 ]; then
          # fallback
          #  1) může mu rupnout v kouli
          #  2) formát souboru se může změnit
          break
        fi
        SUPL_RES=`parsni_tr $(( $SUPL_NUM * 10 ))`
        MESSAGE="$MESSAGE $SUPL_RES,"
        SUPL_NUM=$(( $SUPL_NUM + 1 ))
      done
    else
      MESSAGE="$MESSAGE bohuzel nebylo tazeno zadne suplovani"
    fi
    
    MESSAGE=`echo $MESSAGE |\
      # misc. optimalisace délky
      sed -e 's/.hod/h/g' -e 's/ - /-/g' -e 's/supluje/supl/g' -e 's/spoji/spoj/g' -e 's/\,$//g' -e 's/odpada/odpad/g' -e 's/presun>>/pres/g' -e 's/presun/pres/g'`
    
    # Já si to posílám na mobil v síti T-Mobile
    # http://jenda.blog.root.cz/2007/10/29/sledovani-zmen-a-posilani-sms/
    echo $MESSAGE #| mail -s "SPL" ----@t-email.cz

    Pridani >> Přidání diakritiky

    Tady sídlí skript, kterému do formuláře dáte text a on vám ho vrátí ohákovaný. Je to ale dost opruz. Co si udělat bookmarklet - po kliknutí na záložku se vám stránka zobrazí ohákovaná? Použitelné hlavně při čtení NetMagu. Má to ještě trochu problémy s kódováním...

    Budete potřebovat webserver s Bashem. V LigHTTPd se to dělá takhle:

    cgi.assign = ( ".sh" => "/bin/bash" )

    Potom si přidáte do prohlížeče bookmark:

    javascript:window.location.href%20=%20"http://gomora.hrach.eu/ohakovani.sh?"%20+%20window.location.href;

    gomora.hrach.eu je můj experimentální server, můžete ho k tomu použít, ale nezaručuji, že bude mít 100% dostupnost. Skriptík vypadá takto a můžete si ho dát k sobě na server:

    echo "X-Powered-By: /bin/bash :-)"
    echo "Content-type: text/html; charset=UTF-8"
    echo ""
    
    STRANKA=`wget -q -O - "$QUERY_STRING" | sed -e 's/\&/%26/g'`
    
    
    wget -q -O - --post-data="usepre=1&text=$STRANKA" http://nlp.fi.muni.cz/cz_accent/index.php | tr -d "\n" | recode iso8859-2..utf8 | sed -e 's/.*    <TABLE cellpadding=10><TR><TD bgcolor=#b0e0ff>\(.*\)<\/PRE><\/TD><\/TR><\/TABLE>.*/\1/g' -e 's/\<\;/</g' -e 's/\>\;/>/g' -e 's/\&\;quot\;/\"/g' -e 's/\"\;/\"/g' -e 's/<PRE>//g' -e 's/\&\;nbsp\;/\ \;/g'

    Výsledek může vypadat třeba takto.

    Humr: irské referendum v Bashi

    REPLY=n; until [ "$REPLY" = y ]; do read -n 1 -s -p $'Souhlasíte s Lisabonskou smlouvou? [y/n]\n'; done; echo "Lisabonská smlouva schválena"
           

    Hodnocení: 100 %

            špatnédobré        

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    Komentáře

    Vložit další komentář

    Limoto avatar 26.9.2009 23:59 Limoto | skóre: 32 | blog: Limotův blog
    Rozbalit Rozbalit vše Re: BashBastlení: Parsování HTML a ohákování textu

    To suplování je dobrej nápad. To si taky pořídím :-)

    Jendа avatar 27.9.2009 00:04 Jendа | skóre: 78 | blog: Jenda | JO70FB
    Rozbalit Rozbalit vše Re: BashBastlení: Parsování HTML a ohákování textu
    [Ten google prozradí věcí... Už jsem mezi zdejší komunitou stařec ;-)]

    Tvá škola má taky Bakaláře?
    Limoto avatar 27.9.2009 00:07 Limoto | skóre: 32 | blog: Limotův blog
    Rozbalit Rozbalit vše Re: BashBastlení: Parsování HTML a ohákování textu

    Google je svině :-D

     

    Jo, má... Ale skript si stejně napíšu vlastní ;-)

    Jendа avatar 27.9.2009 00:10 Jendа | skóre: 78 | blog: Jenda | JO70FB
    Rozbalit Rozbalit vše Re: BashBastlení: Parsování HTML a ohákování textu
    Ale skript si stejně napíšu vlastní ;-)
    Lepší, jednodušší, co? Tak ho sem pak přidej. Mně to na jeden řádek nejde. ;-)
    27.9.2009 01:47 Sleep_Walker
    Rozbalit Rozbalit vše Re: BashBastlení: Parsování HTML a ohákování textu
    1. promenne do uvozovek, zvlast kdyz davas moznost uzivateli vstup (TRIDA=$1 - remember Bobby Tables ;)
    2. diky za info o hackujicim serveru, to jsem neznal
    3. add referendum - uvozovky a read ma i parametr -p :)
    Jendа avatar 27.9.2009 13:31 Jendа | skóre: 78 | blog: Jenda | JO70FB
    Rozbalit Rozbalit vše Re: BashBastlení: Parsování HTML a ohákování textu
    remember Bobby Tables
    Bakaláři používají jako databázi Postgres, tak to by mě zajímalo, jestli by to někoho s takovým jménem oescapovalo :-)
    diky za info o hackujicim serveru, to jsem neznal
    Ano, je škoda, že to někteří autoři zdejších blogů nepoužívají. Občas to sice doplní špatně (když je víc možností s různým smyslem - hackujícím, háčkujícím ;), ale i tak se výsledný text čte lépe než dlouhý text bez diakritiky.
    add referendum - uvozovky a read ma i parametr -p :)
    Dobrý nápad ;-)
    Jendа avatar 27.9.2009 13:45 Jendа | skóre: 78 | blog: Jenda | JO70FB
    Rozbalit Rozbalit vše Re: BashBastlení: Parsování HTML a ohákování textu
    Přečetl jsem si read -h ;-) a udělal jsem to ještě křupavější. To jsem zvědavý, jak to v tom Irsku 3.10. dopadne. Škoda, že nemají ^C...
    27.9.2009 07:06 pht | skóre: 48 | blog: pht
    Rozbalit Rozbalit vše Re: BashBastlení: Parsování HTML a ohákování textu
    STRANKA=`wget -q -O - $QUERY_STRING | sed -e 's/\&/%26/g'`
    to je dobrej backdoor...
    In Ada the typical infinite loop would normally be terminated by detonation.
    Jendа avatar 27.9.2009 13:25 Jendа | skóre: 78 | blog: Jenda | JO70FB
    Rozbalit Rozbalit vše Re: BashBastlení: Parsování HTML a ohákování textu
    1) Přidal jsem kolem toho uvozovky, ale to asi nepomůže, co? Asi bych měl kolem toho udělat PHP wrapper s escapeshellcmd(), nebo to jde vyřešit i nějak lépe?

    Ano, na skriptování jsem levý ;).

    2) Zkoušel jsem tomu i skriptu s wget $1 dávat jako parametr věci typu " | touch /tmp/soubor" a nějak se mi nedaří...
    27.9.2009 21:11 pht | skóre: 48 | blog: pht
    Rozbalit Rozbalit vše Re: BashBastlení: Parsování HTML a ohákování textu
    Uvozovky stačí.
    In Ada the typical infinite loop would normally be terminated by detonation.

    Založit nové vláknoNahoru

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.