abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
včera 20:11 | Nová verze

Byl vydán Debian 10.10, tj. desátá opravná verze Debianu 10 s kódovým názvem Buster. Řešeny jsou především bezpečnostní problémy, ale také několik vážných chyb. Instalační média Debianu 10 lze samozřejmě nadále k instalaci používat. Po instalaci stačí systém aktualizovat.

Ladislav Hagara | Komentářů: 17
včera 16:33 | Nová verze

Tým pro zajištění kvality LibreOffice (QA) oznamuje, že LibreOffice 7.2 Beta1 je k dispozici k testování! LibreOffice 7.2 bude vydán jako finální verze v polovině srpna 2021, přičemž LibreOffice 7.2 Beta1 je druhou předběžnou verzí od zahájení vývoje verze 7.2 na konci listopadu 2020. Od předchozí verze LibreOffice 7.2 Alpha1 bylo do úložiště kódu odesláno 1163 revizí a opraveno 221 problémů. Podívejte se do poznámek k vydání, kde najdete nové funkce obsažené v této verzi LibreOffice.

Zdeněk Crhonek | Komentářů: 0
včera 00:33 | Zajímavý projekt

Rodina open source vstupních zařízení Ploopy se rozrostla o Ploopy Mini Trackball. Stavebnici lze předobjednat za 69,99 CAD (1 210 CZK).

Ladislav Hagara | Komentářů: 0
18.6. 15:44 | Nová verze

Byla vydána beta verze Linux Mintu 20.2 s kódovým jménem Uma. Na blogu Linux Mintu jsou hned tři oznámení. První o vydání Linux Mintu s prostředím Cinnamon, druhé o vydání Linux Mintu s prostředím MATE a třetí o vydání Linux Mintu s prostředím Xfce. Stejným způsobem jsou rozděleny také poznámky k vydání (Cinnamon, MATE, Xfce) a přehled novinek s náhledy (Cinnamon, MATE, Xfce). Linux Mint 20.2 bude podporován až do roku 2025.

Ladislav Hagara | Komentářů: 0
18.6. 08:00 | Nová verze

Byla vydána verze 1.53.0 programovacího jazyka Rust (Wikipedie). Podrobnosti v poznámkách k vydání. Vyzkoušet Rust lze například na stránce Rust by Example.

Ladislav Hagara | Komentářů: 2
17.6. 22:33 | Nová verze

Na GOG.com lze do soboty 19. června získat zdarma počítačovou hru Absolute Drift (YouTube).

Ladislav Hagara | Komentářů: 3
17.6. 21:00 | Bezpečnostní upozornění

Bezpečnostní výzkumníci odhalili zásadní slabinu v šifrovacích algoritmech GEA-1 a GEA-2 používaných mobilními zařízeními. Jejich podezření, že slabina nevznikla náhodou, ale zcela úmyslně, s cílem zjednodušit útok na uživatele, posléze mluvčí autorů algoritmu (ETSI) potvrdil.

JiK | Komentářů: 17
17.6. 16:22 | Nová verze

Wasmer byl vydán ve verzi 2.0. Jedná se o běhové prostředí pro programy ve WebAssembly. Zdrojové kódy jsou k dispozici na GitHubu pod licencí MIT.

Ladislav Hagara | Komentářů: 0
17.6. 09:00 | IT novinky

Josef Průša představil novou vylepšenou SLA 3D tiskárnu Original Prusa SL1S SPEED. Její cena je 49 990 Kč. S mycí a vytvrzovací stanicí 64 990 Kč.

Ladislav Hagara | Komentářů: 1
17.6. 08:00 | Nová verze

Byla vydána nová verze 1.32.0 sady nástrojů pro správu síťových připojení NetworkManager. Novinkám se v příspěvku na blogu věnuje Thomas Haller.

Ladislav Hagara | Komentářů: 2
Používáte kalkulačku?
 (10%)
 (32%)
 (61%)
 (27%)
 (13%)
Celkem 238 hlasů
 Komentářů: 25, poslední 18.6. 07:59
Rozcestník

BashBastlení: Parsování HTML a ohákování textu

26.9.2009 23:56 | Přečteno: 2683× | Linux | poslední úprava: 27.9.2009 13:43

Občas si ubastlím nějaký "užitečný" skriptík. Co dnes: Skript, který mi každý den pošle SMS s přehledem suplování. | Přidání diakritiky ke stránce. | Referendum v Bashi.

Bakaláři

Gymnasium, které navštěvuji, používá IS Bakaláři. Ten vyblívá suplování do HTML souboru. Co kdyby se cronem spouštěl skript, který mi pošle SMS, jestli je nějaké suplování? Člověk by se ráno nemusel tlačit u Nastěnky...

#!/bin/bash
# Parsování suplování z Bakalářů
# Nedostatečně otestovaná alfaverze (prověří Čas). Používejte na vlastní risiko.
# Jan Hrach, <jenda zav hrach t eu>
# 
# Skript by pravděpodobně mohl fungovat i s jinými versemi Bakalářů,
#  ale formát tabulky se může změnit.
# Zejména další třída nemusí začínat "  " (dvěma mezerami), ale
#  jen jednou (v jiné versi to tak skutečně je).
# 
# Skript má jediný parametr a tím je třída, pro kterou má získat suplování.
# 
# Testovací tabulky:
#  http://gomora.hrach.eu/misc/suplobec-sample.htm (GSG Praha, na ní je skript odladěn)
#  http://www.horackova.cz/suplovani/suplobec.htm (jiná verse BK)
#

SOUBOR=suplobec.htm
TRIDA="$1"

# wget a tak...
# přihlášení a uložení sušenky, u nás má oficiálně platnost do konce session, takže by to
# s --keep-session-cookies mělo stačit tak jednou za rok
wget --save-cookies cookie.txt --keep-session-cookies "https://www.gsgpraha.cz/login.php" \
 --post-data="return=%2Fintranet%2F&username=hrachj&pass=----&loginButton=P%F8ihl%E1sit+se" -q -O /dev/null \
 --no-check-certificate
# Tajné služby právě získaly vaše heslo. Gratulujeme.
# Bohužel je stejně self-signed a nikde ve škole nevisí jeho fingeprint :-(

# UPDATE: Centrální Mozek Lidstva dovoluje přihlásit se jenom jednou sušenkou najednou :-(

# stáhnutí stránky se suplováním
wget --load-cookies cookie.txt https://www.gsgpraha.cz/intranet/rozvrhy/suplobec.htm -O - -q \
 --no-check-certificate |\
 # Tajné služby právě získaly vaši sušenku. Gratulujeme.
 # je to ve win1250 s CRLF konci řádků
 recode cp1250..utf8 > $SOUBOR

parsni_tr() {
  #vygrepnutí zpracovávaného řádku
  grep "  "$TRIDA $SOUBOR -A $((7 + $1)) | tail -n 7 |\
  #smazání tagů, komprese mezer - SMS musí být krátká, odstranění diakritiky, převedení na jeden řádek
  sed -e 's/<[^>]*>//g' | tr -d " " | iconv -f utf-8 -t us-ascii//translit | tr "\n" " " |\
  # když supluje, nemusí být uvedena cílová učebna
  sed -e 's/\ \;/ - /g' #|\
  # vyříznutí jen těch informací, které chci
  #cut -d " " -f 1,2,3,4,5,6
}

if grep "  "$TRIDA $SOUBOR > /dev/null; then
  # datum
  MESSAGE=`grep textlarge_3 $SOUBOR | cut -d " " -f 3`
  SUPL_NUM=0
  while true; do
    if [ $SUPL_NUM -gt 0 ]; then
      if grep "  "$TRIDA $SOUBOR -A $((7 + $SUPL_NUM * 10 )) | tail -n 8 | grep -E '(<p>  |</table>)' > /dev/null; then
        break
      fi
    fi
    if [ $SUPL_NUM -gt 100 ]; then
      # fallback
      #  1) může mu rupnout v kouli
      #  2) formát souboru se může změnit
      break
    fi
    SUPL_RES=`parsni_tr $(( $SUPL_NUM * 10 ))`
    MESSAGE="$MESSAGE $SUPL_RES,"
    SUPL_NUM=$(( $SUPL_NUM + 1 ))
  done
else
  MESSAGE="$MESSAGE bohuzel nebylo tazeno zadne suplovani"
fi

MESSAGE=`echo $MESSAGE |\
  # misc. optimalisace délky
  sed -e 's/.hod/h/g' -e 's/ - /-/g' -e 's/supluje/supl/g' -e 's/spoji/spoj/g' -e 's/\,$//g' -e 's/odpada/odpad/g' -e 's/presun>>/pres/g' -e 's/presun/pres/g'`

# Já si to posílám na mobil v síti T-Mobile
# http://jenda.blog.root.cz/2007/10/29/sledovani-zmen-a-posilani-sms/
echo $MESSAGE #| mail -s "SPL" ----@t-email.cz

Pridani >> Přidání diakritiky

Tady sídlí skript, kterému do formuláře dáte text a on vám ho vrátí ohákovaný. Je to ale dost opruz. Co si udělat bookmarklet - po kliknutí na záložku se vám stránka zobrazí ohákovaná? Použitelné hlavně při čtení NetMagu. Má to ještě trochu problémy s kódováním...

Budete potřebovat webserver s Bashem. V LigHTTPd se to dělá takhle:

cgi.assign = ( ".sh" => "/bin/bash" )

Potom si přidáte do prohlížeče bookmark:

javascript:window.location.href%20=%20"http://gomora.hrach.eu/ohakovani.sh?"%20+%20window.location.href;

gomora.hrach.eu je můj experimentální server, můžete ho k tomu použít, ale nezaručuji, že bude mít 100% dostupnost. Skriptík vypadá takto a můžete si ho dát k sobě na server:

echo "X-Powered-By: /bin/bash :-)"
echo "Content-type: text/html; charset=UTF-8"
echo ""

STRANKA=`wget -q -O - "$QUERY_STRING" | sed -e 's/\&/%26/g'`


wget -q -O - --post-data="usepre=1&text=$STRANKA" http://nlp.fi.muni.cz/cz_accent/index.php | tr -d "\n" | recode iso8859-2..utf8 | sed -e 's/.*    <TABLE cellpadding=10><TR><TD bgcolor=#b0e0ff>\(.*\)<\/PRE><\/TD><\/TR><\/TABLE>.*/\1/g' -e 's/\<\;/</g' -e 's/\>\;/>/g' -e 's/\&\;quot\;/\"/g' -e 's/\"\;/\"/g' -e 's/<PRE>//g' -e 's/\&\;nbsp\;/\ \;/g'

Výsledek může vypadat třeba takto.

Humr: irské referendum v Bashi

REPLY=n; until [ "$REPLY" = y ]; do read -n 1 -s -p $'Souhlasíte s Lisabonskou smlouvou? [y/n]\n'; done; echo "Lisabonská smlouva schválena"
       

Hodnocení: 100 %

        špatnédobré        

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

Komentáře

Vložit další komentář

Limoto avatar 26.9.2009 23:59 Limoto | skóre: 32 | blog: Limotův blog
Rozbalit Rozbalit vše Re: BashBastlení: Parsování HTML a ohákování textu

To suplování je dobrej nápad. To si taky pořídím :-)

Jendа avatar 27.9.2009 00:04 Jendа | skóre: 77 | blog: Jenda | JO70FB
Rozbalit Rozbalit vše Re: BashBastlení: Parsování HTML a ohákování textu
[Ten google prozradí věcí... Už jsem mezi zdejší komunitou stařec ;-)]

Tvá škola má taky Bakaláře?
Once I was ending an email with "Regards," and realized how close the "t" and "g" keys are to each other.
Limoto avatar 27.9.2009 00:07 Limoto | skóre: 32 | blog: Limotův blog
Rozbalit Rozbalit vše Re: BashBastlení: Parsování HTML a ohákování textu

Google je svině :-D

 

Jo, má... Ale skript si stejně napíšu vlastní ;-)

Jendа avatar 27.9.2009 00:10 Jendа | skóre: 77 | blog: Jenda | JO70FB
Rozbalit Rozbalit vše Re: BashBastlení: Parsování HTML a ohákování textu
Ale skript si stejně napíšu vlastní ;-)
Lepší, jednodušší, co? Tak ho sem pak přidej. Mně to na jeden řádek nejde. ;-)
Once I was ending an email with "Regards," and realized how close the "t" and "g" keys are to each other.
27.9.2009 01:47 Sleep_Walker
Rozbalit Rozbalit vše Re: BashBastlení: Parsování HTML a ohákování textu
  1. promenne do uvozovek, zvlast kdyz davas moznost uzivateli vstup (TRIDA=$1 - remember Bobby Tables ;)
  2. diky za info o hackujicim serveru, to jsem neznal
  3. add referendum - uvozovky a read ma i parametr -p :)
Jendа avatar 27.9.2009 13:31 Jendа | skóre: 77 | blog: Jenda | JO70FB
Rozbalit Rozbalit vše Re: BashBastlení: Parsování HTML a ohákování textu
remember Bobby Tables
Bakaláři používají jako databázi Postgres, tak to by mě zajímalo, jestli by to někoho s takovým jménem oescapovalo :-)
diky za info o hackujicim serveru, to jsem neznal
Ano, je škoda, že to někteří autoři zdejších blogů nepoužívají. Občas to sice doplní špatně (když je víc možností s různým smyslem - hackujícím, háčkujícím ;), ale i tak se výsledný text čte lépe než dlouhý text bez diakritiky.
add referendum - uvozovky a read ma i parametr -p :)
Dobrý nápad ;-)
Once I was ending an email with "Regards," and realized how close the "t" and "g" keys are to each other.
Jendа avatar 27.9.2009 13:45 Jendа | skóre: 77 | blog: Jenda | JO70FB
Rozbalit Rozbalit vše Re: BashBastlení: Parsování HTML a ohákování textu
Přečetl jsem si read -h ;-) a udělal jsem to ještě křupavější. To jsem zvědavý, jak to v tom Irsku 3.10. dopadne. Škoda, že nemají ^C...
Once I was ending an email with "Regards," and realized how close the "t" and "g" keys are to each other.
27.9.2009 07:06 pht | skóre: 48 | blog: pht
Rozbalit Rozbalit vše Re: BashBastlení: Parsování HTML a ohákování textu
STRANKA=`wget -q -O - $QUERY_STRING | sed -e 's/\&/%26/g'`
to je dobrej backdoor...
In Ada the typical infinite loop would normally be terminated by detonation.
Jendа avatar 27.9.2009 13:25 Jendа | skóre: 77 | blog: Jenda | JO70FB
Rozbalit Rozbalit vše Re: BashBastlení: Parsování HTML a ohákování textu
1) Přidal jsem kolem toho uvozovky, ale to asi nepomůže, co? Asi bych měl kolem toho udělat PHP wrapper s escapeshellcmd(), nebo to jde vyřešit i nějak lépe?

Ano, na skriptování jsem levý ;).

2) Zkoušel jsem tomu i skriptu s wget $1 dávat jako parametr věci typu " | touch /tmp/soubor" a nějak se mi nedaří...
Once I was ending an email with "Regards," and realized how close the "t" and "g" keys are to each other.
27.9.2009 21:11 pht | skóre: 48 | blog: pht
Rozbalit Rozbalit vše Re: BashBastlení: Parsování HTML a ohákování textu
Uvozovky stačí.
In Ada the typical infinite loop would normally be terminated by detonation.

Založit nové vláknoNahoru

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.