abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Navštivte Abc obchůdek se samolepkami a přívěsky!
Rozšířené hledání
×
včera 22:45 | IT novinky
NASA, která společně s Rackspace stála u zrodu projektu OpenStack, se již nadále nebude podílet na dalším vývoji této "infrastructure-as-a-service" platformy. V NASA totiž došli k závěru, že vzhledem k podpoře OpenStacku ze strany společností jako Red Hat, AT&T a HP lze jejich práci považovat za dokončenou. Posléze se NASA plánuje stáhnout i z vývoje další platformy pro cloud computing jménem Nebula.
Migilenik | Komentářů: 0
včera 22:45 | Upozornění
Blíží se svátek IPv6 a s ním i konference IPv6 Day. Na návštěvníky této akce čeká nejen bohatý program, ale také jedna speciální nabídka – v průběhu setkání bude možné získat se slevou 66 procent třetí vydání knihy IPv6 vysokoškolského pedagoga a publicisty Pavla Satrapy, tedy za 105 korun. … více »
Vilem Sladek | Komentářů: 3
včera 16:14 | Pozvánky

Přijďte si zasprintovat na Djangu, jiném Python open-source projektu, nebo jen potkat ostatní vývojáře!

… více »
Whit | Komentářů: 0
včera 10:20 | Nová verze
Na zrcadlech a torrentech jsou již k dispozici ISO obrazy distribuce Mageia 2. Poznámky k vydání čtěte zde.
Liborek | Komentářů: 14
23.5. 13:47 | Pozvánky

Letos v říjnu se v Praze uskuteční hned několik konferencí. Odehraje se zde nově vzniklá konference LinuxDays. K ní se přidá čtvrtý ročník openSUSE Conference, dvanáctý ročník SUSE Labs conference a aby to nebylo málo, přidá se i první ročník Gentoo miniconf. A to vše ve stejné dny a na stejném místě.

… více »
Miška | Komentářů: 7
23.5. 13:27 | Zajímavý projekt
Printerd je název nového projektu tiskového démona, který bude využívat PolicyKit a D-Bus. Projekt je zatím na úplném začátku, takže nejde o nic vhodného k produkčnímu nasazení. Mimo jiné aktuálně akceptuje jako vstup jen PDF dokumenty.
Luboš Doležel (Doli) | Komentářů: 55
23.5. 13:25 | Zajímavý software
Tři vývojáři ze společnosti Engine Yard přecházejí po dohodě mezi firmami do Red Hatu. Jde o vývojáře zabývající se rozvojem projektu JRuby. To ukazuje, že Red Hat má zájem o podporu alternativních jazyků nad OpenJDK.
Luboš Doležel (Doli) | Komentářů: 1
23.5. 13:20 | Zajímavý software
Fedora přejde na knihovnu libusbx, což je fork původní knihovny libusb. Důvodem pro fork byl zjevný nedostatek času nebo zájmu ze strany správce projektu. libusbx už teď nabízí užitečné funkce navrch.
Luboš Doležel (Doli) | Komentářů: 4
23.5. 10:29 | Nová verze
Vyšlo LLVM 3.1. Vylepšení se dotýkají podpory C++ 11 nebo architektur ARM a MIPS. Dále se můžete těšit z Python bindings nebo nástroje AddressSanitizer pro detekci chyb při práci s pamětí.
Luboš Doležel (Doli) | Komentářů: 0
23.5. 00:01 | Nová verze
Vyšla nová verze open source služby pro sdílení a synchronizaci souborů ownCloud 4. Mezi hlavní novinky patří verzování, šifrování dat, vestavěný prohlížeč ODF souborů, nové API a další - podrobnější popis novinek a vylepšení zde.
Dirka | Komentářů: 1
Pokud by se prohlížeč Opera stal svobodným:
 (9%)
 (31%)
 (1%)
 (59%)
Celkem 226 hlasů
 Komentářů: 26, poslední dnes 14:44
    Rozcestník
    Reklama
    Autoškola testy online Levný benzín

    BashBastlení: Parsování HTML a ohákování textu

    26.9.2009 23:56 | Přečteno: 1347× | Linux | poslední úprava: 27.9.2009 13:43

    Občas si ubastlím nějaký "užitečný" skriptík. Co dnes: Skript, který mi každý den pošle SMS s přehledem suplování. | Přidání diakritiky ke stránce. | Referendum v Bashi.

    Bakaláři

    Gymnasium, které navštěvuji, používá IS Bakaláři. Ten vyblívá suplování do HTML souboru. Co kdyby se cronem spouštěl skript, který mi pošle SMS, jestli je nějaké suplování? Člověk by se ráno nemusel tlačit u Nastěnky...

    #!/bin/bash
    # Parsování suplování z Bakalářů
    # Nedostatečně otestovaná alfaverze (prověří Čas). Používejte na vlastní risiko.
    # Jan Hrach, <jenda zav hrach t eu>
    # 
    # Skript by pravděpodobně mohl fungovat i s jinými versemi Bakalářů,
    #  ale formát tabulky se může změnit.
    # Zejména další třída nemusí začínat "  " (dvěma mezerami), ale
    #  jen jednou (v jiné versi to tak skutečně je).
    # 
    # Skript má jediný parametr a tím je třída, pro kterou má získat suplování.
    # 
    # Testovací tabulky:
    #  http://gomora.hrach.eu/misc/suplobec-sample.htm (GSG Praha, na ní je skript odladěn)
    #  http://www.horackova.cz/suplovani/suplobec.htm (jiná verse BK)
    #
    
    SOUBOR=suplobec.htm
    TRIDA="$1"
    
    # wget a tak...
    # přihlášení a uložení sušenky, u nás má oficiálně platnost do konce session, takže by to
    # s --keep-session-cookies mělo stačit tak jednou za rok
    wget --save-cookies cookie.txt --keep-session-cookies "https://www.gsgpraha.cz/login.php" \
     --post-data="return=%2Fintranet%2F&username=hrachj&pass=----&loginButton=P%F8ihl%E1sit+se" -q -O /dev/null \
     --no-check-certificate
    # Tajné služby právě získaly vaše heslo. Gratulujeme.
    # Bohužel je stejně self-signed a nikde ve škole nevisí jeho fingeprint :-(
    
    # UPDATE: Centrální Mozek Lidstva dovoluje přihlásit se jenom jednou sušenkou najednou :-(
    
    # stáhnutí stránky se suplováním
    wget --load-cookies cookie.txt https://www.gsgpraha.cz/intranet/rozvrhy/suplobec.htm -O - -q \
     --no-check-certificate |\
     # Tajné služby právě získaly vaši sušenku. Gratulujeme.
     # je to ve win1250 s CRLF konci řádků
     recode cp1250..utf8 > $SOUBOR
    
    parsni_tr() {
      #vygrepnutí zpracovávaného řádku
      grep "  "$TRIDA $SOUBOR -A $((7 + $1)) | tail -n 7 |\
      #smazání tagů, komprese mezer - SMS musí být krátká, odstranění diakritiky, převedení na jeden řádek
      sed -e 's/<[^>]*>//g' | tr -d " " | iconv -f utf-8 -t us-ascii//translit | tr "\n" " " |\
      # když supluje, nemusí být uvedena cílová učebna
      sed -e 's/\ \;/ - /g' #|\
      # vyříznutí jen těch informací, které chci
      #cut -d " " -f 1,2,3,4,5,6
    }
    
    if grep "  "$TRIDA $SOUBOR > /dev/null; then
      # datum
      MESSAGE=`grep textlarge_3 $SOUBOR | cut -d " " -f 3`
      SUPL_NUM=0
      while true; do
        if [ $SUPL_NUM -gt 0 ]; then
          if grep "  "$TRIDA $SOUBOR -A $((7 + $SUPL_NUM * 10 )) | tail -n 8 | grep -E '(<p>  |</table>)' > /dev/null; then
            break
          fi
        fi
        if [ $SUPL_NUM -gt 100 ]; then
          # fallback
          #  1) může mu rupnout v kouli
          #  2) formát souboru se může změnit
          break
        fi
        SUPL_RES=`parsni_tr $(( $SUPL_NUM * 10 ))`
        MESSAGE="$MESSAGE $SUPL_RES,"
        SUPL_NUM=$(( $SUPL_NUM + 1 ))
      done
    else
      MESSAGE="$MESSAGE bohuzel nebylo tazeno zadne suplovani"
    fi
    
    MESSAGE=`echo $MESSAGE |\
      # misc. optimalisace délky
      sed -e 's/.hod/h/g' -e 's/ - /-/g' -e 's/supluje/supl/g' -e 's/spoji/spoj/g' -e 's/\,$//g' -e 's/odpada/odpad/g' -e 's/presun>>/pres/g' -e 's/presun/pres/g'`
    
    # Já si to posílám na mobil v síti T-Mobile
    # http://jenda.blog.root.cz/2007/10/29/sledovani-zmen-a-posilani-sms/
    echo $MESSAGE #| mail -s "SPL" ----@t-email.cz

    Pridani >> Přidání diakritiky

    Tady sídlí skript, kterému do formuláře dáte text a on vám ho vrátí ohákovaný. Je to ale dost opruz. Co si udělat bookmarklet - po kliknutí na záložku se vám stránka zobrazí ohákovaná? Použitelné hlavně při čtení NetMagu. Má to ještě trochu problémy s kódováním...

    Budete potřebovat webserver s Bashem. V LigHTTPd se to dělá takhle:

    cgi.assign = ( ".sh" => "/bin/bash" )

    Potom si přidáte do prohlížeče bookmark:

    javascript:window.location.href%20=%20"http://gomora.hrach.eu/ohakovani.sh?"%20+%20window.location.href;

    gomora.hrach.eu je můj experimentální server, můžete ho k tomu použít, ale nezaručuji, že bude mít 100% dostupnost. Skriptík vypadá takto a můžete si ho dát k sobě na server:

    echo "X-Powered-By: /bin/bash :-)"
    echo "Content-type: text/html; charset=UTF-8"
    echo ""
    
    STRANKA=`wget -q -O - "$QUERY_STRING" | sed -e 's/\&/%26/g'`
    
    
    wget -q -O - --post-data="usepre=1&text=$STRANKA" http://nlp.fi.muni.cz/cz_accent/index.php | tr -d "\n" | recode iso8859-2..utf8 | sed -e 's/.*    <TABLE cellpadding=10><TR><TD bgcolor=#b0e0ff>\(.*\)<\/PRE><\/TD><\/TR><\/TABLE>.*/\1/g' -e 's/\<\;/</g' -e 's/\>\;/>/g' -e 's/\&\;quot\;/\"/g' -e 's/\"\;/\"/g' -e 's/<PRE>//g' -e 's/\&\;nbsp\;/\ \;/g'

    Výsledek může vypadat třeba takto.

    Humr: irské referendum v Bashi

    REPLY=n; until [ "$REPLY" = y ]; do read -n 1 -s -p $'Souhlasíte s Lisabonskou smlouvou? [y/n]\n'; done; echo "Lisabonská smlouva schválena"
           

    Hodnocení: 100 %

            špatnédobré        

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    Komentáře

    Vložit další komentář

    Limoto avatar 26.9.2009 23:59 Limoto | skóre: 31 | blog: Limotův blog | Prostějov
    Rozbalit Rozbalit vše Re: BashBastlení: Parsování HTML a ohákování textu

    To suplování je dobrej nápad. To si taky pořídím :-)

    Jendа avatar 27.9.2009 00:04 Jendа | skóre: 61 | blog: Výlevníček | Praha
    Rozbalit Rozbalit vše Re: BashBastlení: Parsování HTML a ohákování textu
    [Ten google prozradí věcí... Už jsem mezi zdejší komunitou stařec ;-)]

    Tvá škola má taky Bakaláře?
    Limoto avatar 27.9.2009 00:07 Limoto | skóre: 31 | blog: Limotův blog | Prostějov
    Rozbalit Rozbalit vše Re: BashBastlení: Parsování HTML a ohákování textu

    Google je svině :-D

     

    Jo, má... Ale skript si stejně napíšu vlastní ;-)

    Jendа avatar 27.9.2009 00:10 Jendа | skóre: 61 | blog: Výlevníček | Praha
    Rozbalit Rozbalit vše Re: BashBastlení: Parsování HTML a ohákování textu
    Ale skript si stejně napíšu vlastní ;-)
    Lepší, jednodušší, co? Tak ho sem pak přidej. Mně to na jeden řádek nejde. ;-)
    27.9.2009 01:47 Sleep_Walker
    Rozbalit Rozbalit vše Re: BashBastlení: Parsování HTML a ohákování textu
    1. promenne do uvozovek, zvlast kdyz davas moznost uzivateli vstup (TRIDA=$1 - remember Bobby Tables ;)
    2. diky za info o hackujicim serveru, to jsem neznal
    3. add referendum - uvozovky a read ma i parametr -p :)
    Jendа avatar 27.9.2009 13:31 Jendа | skóre: 61 | blog: Výlevníček | Praha
    Rozbalit Rozbalit vše Re: BashBastlení: Parsování HTML a ohákování textu
    remember Bobby Tables
    Bakaláři používají jako databázi Postgres, tak to by mě zajímalo, jestli by to někoho s takovým jménem oescapovalo :-)
    diky za info o hackujicim serveru, to jsem neznal
    Ano, je škoda, že to někteří autoři zdejších blogů nepoužívají. Občas to sice doplní špatně (když je víc možností s různým smyslem - hackujícím, háčkujícím ;), ale i tak se výsledný text čte lépe než dlouhý text bez diakritiky.
    add referendum - uvozovky a read ma i parametr -p :)
    Dobrý nápad ;-)
    Jendа avatar 27.9.2009 13:45 Jendа | skóre: 61 | blog: Výlevníček | Praha
    Rozbalit Rozbalit vše Re: BashBastlení: Parsování HTML a ohákování textu
    Přečetl jsem si read -h ;-) a udělal jsem to ještě křupavější. To jsem zvědavý, jak to v tom Irsku 3.10. dopadne. Škoda, že nemají ^C...
    27.9.2009 07:06 pht | skóre: 48 | blog: pht
    Rozbalit Rozbalit vše Re: BashBastlení: Parsování HTML a ohákování textu
    STRANKA=`wget -q -O - $QUERY_STRING | sed -e 's/\&/%26/g'`
    to je dobrej backdoor...
    In Ada the typical infinite loop would normally be terminated by detonation.
    Jendа avatar 27.9.2009 13:25 Jendа | skóre: 61 | blog: Výlevníček | Praha
    Rozbalit Rozbalit vše Re: BashBastlení: Parsování HTML a ohákování textu
    1) Přidal jsem kolem toho uvozovky, ale to asi nepomůže, co? Asi bych měl kolem toho udělat PHP wrapper s escapeshellcmd(), nebo to jde vyřešit i nějak lépe?

    Ano, na skriptování jsem levý ;).

    2) Zkoušel jsem tomu i skriptu s wget $1 dávat jako parametr věci typu " | touch /tmp/soubor" a nějak se mi nedaří...
    27.9.2009 21:11 pht | skóre: 48 | blog: pht
    Rozbalit Rozbalit vše Re: BashBastlení: Parsování HTML a ohákování textu
    Uvozovky stačí.
    In Ada the typical infinite loop would normally be terminated by detonation.

    Založit nové vláknoNahoru

    ISSN 1214-1267   Powered by Hosting 90 Server hosting
    © 1999-2012 Argonit s. r. o. Všechna práva vyhrazena.