abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 03:00 | Nová verze

    Byl vydán Debian 13.3, tj. třetí opravná verze Debianu 13 s kódovým názvem Trixie a Debian 12.13, tj. třináctá opravná verze Debianu 12 s kódovým názvem Bookworm. Řešeny jsou především bezpečnostní problémy, ale také několik vážných chyb. Instalační média Debianu 13 a Debianu 12 lze samozřejmě nadále k instalaci používat. Po instalaci stačí systém aktualizovat.

    Ladislav Hagara | Komentářů: 0
    včera 03:00 | Komunita

    Na stránkách Evropské komise, na portálu Podělte se o svůj názor, se lze do 3. února podělit o názor k iniciativě Evropské otevřené digitální ekosystémy řešící přístup EU k otevřenému softwaru.

    Ladislav Hagara | Komentářů: 4
    9.1. 19:44 | Zajímavý software

    Společnost Kagi stojící za stejnojmenným placeným vyhledávačem vydala (𝕏) alfa verzi linuxové verze (flatpak) svého proprietárního webového prohlížeče Orion.

    Ladislav Hagara | Komentářů: 4
    9.1. 19:11 | IT novinky

    Firma Bose se po tlaku uživatelů rozhodla, že otevře API svých chytrých reproduktorů SoundTouch, což umožní pokračovat v jejich používání i po plánovaném ukončení podpory v letošním roce. Pro ovládání také bude stále možné využívat oficiální aplikaci, ale už pouze lokálně bez cloudových služeb. Dokumentace API dostupná zde (soubor PDF).

    NUKE GAZA! 🎆 | Komentářů: 0
    9.1. 14:22 | Zajímavý článek

    Jiří Eischmann se v příspěvku na svém blogu rozepsal o open source AdGuard Home jako domácí ochraně nejen před reklamou. Adguard Home není plnohodnotným DNS resolverem, funguje jako DNS forwarder s možností filtrování. To znamená, že když přijme DNS dotaz, sám na něj neodpoví, ale přepošle ho na vybraný DNS server a odpovědi zpracovává a filtruje dle nastavených pravidel a následně posílá zpět klientům. Dá se tedy používat k blokování reklamy a škodlivých stránek a k rodičovské kontrole na úrovni DNS.

    Ladislav Hagara | Komentářů: 6
    9.1. 03:33 | Zajímavý software

    AI Claude Code od Anthropicu lépe rozumí frameworku Nette, tj. open source frameworku pro tvorbu webových aplikací v PHP. David Grudl napsal plugin Nette pro Claude Code.

    Ladislav Hagara | Komentářů: 1
    9.1. 00:11 | Nová verze

    Byla vydána prosincová aktualizace aneb nová verze 1.108 editoru zdrojových kódů Visual Studio Code (Wikipedie). Přehled novinek i s náhledy a videi v poznámkách k vydání. Ve verzi 1.108 vyjde také VSCodium, tj. komunitní sestavení Visual Studia Code bez telemetrie a licenčních podmínek Microsoftu.

    Ladislav Hagara | Komentářů: 0
    8.1. 20:44 | IT novinky

    Na lasvegaském veletrhu elektroniky CES byl předveden prototyp notebooku chlazeného pomocí plazmových aktuátorů (DBD). Ačkoliv se nejedná o první nápad svého druhu, nepochybně to je první ukázka praktického použití tohoto způsobu chlazení v běžné elektronice. Co činí plazmové chladící akční členy technologickou výzvou je především vysoká produkce jedovatého ozonu, tu se prý podařilo firmě YPlasma zredukovat dielektrickou

    … více »
    NUKE GAZA! 🎆 | Komentářů: 12
    8.1. 16:33 | Zajímavý projekt

    Patchouli je open source implementace EMR grafického tabletu (polohovací zařízení). Projekt je hostován na GitLabu.

    Ladislav Hagara | Komentářů: 0
    8.1. 14:11 | IT novinky

    Český Nejvyšší soud potvrdil, že česká právní úprava plošného uchování dat o elektronické komunikaci porušuje právo Evropské unie. Pravomocným rozsudkem zamítl dovolání ministerstva průmyslu a obchodu. To se teď musí omluvit novináři Českého rozhlasu Janu Cibulkovi za zásah do práv na ochranu soukromí a osobních údajů. Ve sporu jde o povinnost provozovatelů sítí uchovávat údaje, ze kterých lze odvodit, kdo, s kým a odkud komunikoval.

    Ladislav Hagara | Komentářů: 19
    Které desktopové prostředí na Linuxu používáte?
     (6%)
     (5%)
     (0%)
     (9%)
     (20%)
     (4%)
     (5%)
     (3%)
     (10%)
     (51%)
    Celkem 349 hlasů
     Komentářů: 8, poslední včera 23:18
    Rozcestník

    Dotaz: jak na úřední desku

    8.10.2024 17:39 vyhledávající
    jak na úřední desku
    Přečteno: 754×
    Dobrý den,

    potřebuji skript nebo nějaký příkaz, který najde informaci typu "IČO" nebo "jméno a příjmení". Na úřední desce (https://infodeska.justice.cz/subjekt.aspx?subjkod=202090) se nacházejí odkazy na další jakoby podstránky s různými usneseními, sděleními, oznámeními apod.ty jsou ve formátu pdf. Potřebuji nějaký příkaz který by ty pdf soubory, které mají hledané informace stáhl.

    Prosím odpovídejte mi polopaticky abych to pochopil, a aby to šlo v Ubuntu. Předem děkuji.

    Řešení dotazu:


    Odpovědi

    8.10.2024 19:30 X
    Rozbalit Rozbalit vše Re: jak na úřední desku
    Muzes uvest priklad? Zadne ICO, nnebo jmeno prijmeni nikde nevidim..
    8.10.2024 21:32 vyhledávající
    Rozbalit Rozbalit vše Re: jak na úřední desku

    Na té desce je třeba odkaz na tuto stránku "https://infodeska.justice.cz/vyveseni.aspx?vyveseniid=8675925";  na ní je pdf-ko (https://infodeska.justice.cz/soubor.aspx?souborid=8834213) usnesení soudu, kde soud žádá, aby se mu přihlásili lidi co viděli Jiřího V., než ho prohlásí za mrtvého.

    Mě se jedná o to, že chci na té desce soudu prohledat všechny (strojově čitelné) pdf soubory s usneseními, vyhláškami a pod., které v sobě obsahují zmínky o např. Jiřím V (v prvním pádě j.č.). Jde mi prostě o to vyhledávání, protože ručně proklikávat všechny pdf-ka je mimo mé schopnosti.

    AI mi tvrdila, že by to šlo udělat tak, že se přes wget stáhnou všechny pdf soubory na desce a pak se prohledá obsah jednotlivých souborů, a ten který nebude mít požadovaný obsah se smaže. Jí vygenerovaný kód ale neudělal nic.

    konkrétně to vyplivlo toto:

    wget -r -l1 -nd -A pdf URL_STRÁNKY

    • -r (recursive): Rekurzivní stahování.
    • -l1 (level): Nastaví hloubku rekurze na 1 (prohledá pouze aktuální stránku).
    • -nd (no directories): Uloží všechny soubory do aktuálního adresáře (ne do žádných podadresářů).
    • -A pdf: Stáhne pouze soubory s příponou .pdf
  • Já zde samozřejmš potřebuji prohledat i ty podstránky, kde jsou ta pdf-ka, ale ono to nestáhlo to pdf-ko ani na stránce, která na něj přímo odkazuje - třeba na té výše zmíněné (https://infodeska.justice.cz/vyveseni.aspx?vyveseniid=8675925).
  • Řešení 1× (Max)
    NUKE GAZA! 🎆 avatar 9.10.2024 02:32 NUKE GAZA! 🎆 | skóre: 37 | blog: Grétin blogísek | 🇮🇱==❤️ , 🇵🇸==💩 , 🇪🇺==☭
    Rozbalit Rozbalit vše Re: jak na úřední desku
    Jí vygenerovaný kód ale neudělal nic.

    wget myslimže na tudlectu stránku nepude nějak rozumě použít páč jsou tam přípony souborů skrytý a soubory jsou poskovávaný jako nějaký proměný 'souborid' strkaný do furt stejnýho nějakýho aspx windowsího skriptu kterej nám pak sype ty hotový pdfka. Nicmeně ty jednotlivý pdfka je možný pořád wgetem stáhnout když známe to souborid, jen ten wget budem muset jakože dost víst za ručičku :D ;D

    nejdřiv si stáhnem tu stránku která nás zajimá, uděláme to tak že použijem přepínadlo '-k' by nám to nepřevedlo adresy odkazů do lokální podoby ale nechalo je to v tý takzvaný absoltuní, to nám zjednoduší další dělání:

    wget -k -np https://infodeska.justice.cz/subjekt.aspx?subjkod=202090

    v dalším kroku si z toho souboru vytáhnem pomocí hele grepu všecky validní url adresy který začinaj na 'https://infodeska.justice.cz/soubor.aspx' a strčíme si je do txťáku pro další použití:

    cat subjekt.aspx?subjkod=202090 | grep -Eo "https://infodeska.justice.cz/soubor.aspx[a-zA-Z0-9./?=_-]*" > urls.txt

    vyrobíme si podsložšku a do ní si pomocí wgetu postahujem všecky ty pdfka, to už muže chvilku trvat, v zavislosti na počtu a velikosti těch souborů a jak moc se ten justicovej web bude bránit :D

    mkdir pdfka
    wget -i urls.txt -P ./pdfka
    

    tak to bysme měli stažený ty pdfka, teďko bude asi eště potřeba ňák jakože prohledat ty soubory pro ty různý iča nebo mena, todle je pro mě terra incognita ale asi by šel použít hele pdfgrep :O ;D

    jestli nemáme tak si ho v ubuntu mužeme nainstalovat asi pomocí vobligátního 'sudo apt install pdfgrep'

    složku s těma pdfkama prohledáme pdfgrepem pro výskyt nějakýho ména třeba jozef:

    pdfgrep Jozef ./pdfka/*

    ....a hele voni tam ňáký jozefové sou :O :D :O :D

    ./pdfka/soubor.aspx?souborid=8825981:Adresát : Jozef Kizek, 1994
    ./pdfka/soubor.aspx?souborid=8825982:    Adresát: Jozef Kizek, 1994
    ./pdfka/soubor.aspx?souborid=8827322:Adresát Jozef Ollé, narozený 1991
    

    takže jo, to by asi jako šlo použít :O ;D asi by to šlo eště vylepšit přesměrováním wgetu rovnou do grepu a to pak rovnou do toho druhýho grepu by se ušetřilo zbytečný zapisování na disk + další kejkle ale zatim asi jako dobrý :O ;D

    9.10.2024 10:52 vyhledávající
    Rozbalit Rozbalit vše Re: jak na úřední desku
    Mockrát díky, je to dobrý! :)
    NUKE GAZA! 🎆 avatar 9.10.2024 15:08 NUKE GAZA! 🎆 | skóre: 37 | blog: Grétin blogísek | 🇮🇱==❤️ , 🇵🇸==💩 , 🇪🇺==☭
    Rozbalit Rozbalit vše Re: jak na úřední desku

    supr :D ;D

    jestli to chceš jako skript tak asi jako takle nějak

    #!/usr/bin/env bash
    
    # první argument skriptu je stránka kterou budem prohledávat
    # druhej hledanej vyraz v těch pdfkách, třeba nějaký to méno
    prohledavanaStranka=$1
    hledanejVyraz=$2
    
    # vyrobíme si složšku kam postahujem ty pdfka
    mkdir -p PDFka
    
    # stáhnem si prohledávanou stránku a rovnou ji proženem grepem a
    # postahujem si všecky ty pdfka
    wget -q -np $prohledavanaStranka -O- | grep -Eo "soubor.aspx[a-zA-Z0-9./?=_-]*" | \
    while read url
    do
            echo "stahuje se: $url"
            # musíme si připsat ten prefix ke každýmu souboru
            # (když strkáme vystup wgetu na standartní vystup tak
            # nejde použít přepinač -k )
            wget -q -P ./PDFka "https://infodeska.justice.cz/$url" 
    done
    
    echo ""
    echo "soubory jsou stažený"
    echo ""
    echo "budeme v nich hledat $hledanejVyraz :"
    echo ""
    
    # projdem složšku s pdfkama pro hledanej vyraz
    pdfgrep $hledanejVyraz ./PDFka/*
    
    # po skončení bysme asi jako mohli smazat ty pdfka ale předpokládám
    # že snima asi jakože budeš nějak dál dělat možná, tak to necham zakomentovaný rači :O ;D
    # rm ./PDFka/*
    
    

    zapsat to třeba do souboru 'skript.sh', udělat to přikazem 'chmod +x skript.sh' spustitelný a pouštět třeba jako './skript.sh https://infodeska.justice.cz/subjekt.aspx?subjkod=123456 Jozef' :D ;D

    9.10.2024 18:28 vyhledávající
    Rozbalit Rozbalit vše Re: jak na úřední desku
    Díky, funguje to bezvadně. Jenom žádného známého jsem tam ještě nenašel ;)
    Řešení 1× (NUKE GAZA! 🎆)
    8.10.2024 21:33 neal_cz | skóre: 29
    Rozbalit Rozbalit vše Re: jak na úřední desku
    Nejak tak?

    baseURL = 'https://infodeska.justice.cz/'
    URL = 'https://infodeska.justice.cz/subjekt.aspx?subjkod=202090'
    import requests
    
    headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.135 Safari/537.36 Edge/12.246"}
    r = requests.get(URL)
    
    from bs4 import BeautifulSoup
    obsah = BeautifulSoup(r.content, 'html5lib')
    
    import re
    def najdi_soubory(href):
        return href and re.compile('soubor.aspx').search(href)
    
    k_prohledani = []
    for odkaz in obsah.find_all(href=najdi_soubory):
        k_prohledani.append(f'{baseURL}{odkaz['href']}')
    
    from pdfquery import PDFQuery
    from io import BytesIO
    
    hledane = "Jmeno/ICO"
    
    for soubor in k_prohledani:
        f = requests.get(k_prohledani[0])
        bytes_stream = BytesIO(f.content)
        pdf = PDFQuery(bytes_stream)
        pdf.load()
        nalezeno = pdf.pq(f':contains({hledane})')
        if nalezeno:
            print(f'"{hledane}" nalezeno v souboru {soubor}')
    
    8.10.2024 22:55 X
    Rozbalit Rozbalit vše Re: jak na úřední desku
    Omezil bych to na letosni rok. Nevim jestli tazatel vubec pozna v cem je to napsane a co ma delat..
    9.10.2024 11:07 vyhledávající
    Rozbalit Rozbalit vše Re: jak na úřední desku
    Taky moc díky, ale fakt netuším, jak to pustit. Nicméně thunbergovské řešení funguje. :)

    NUKE GAZA! 🎆 avatar 9.10.2024 15:09 NUKE GAZA! 🎆 | skóre: 37 | blog: Grétin blogísek | 🇮🇱==❤️ , 🇵🇸==💩 , 🇪🇺==☭
    Rozbalit Rozbalit vše Re: jak na úřední desku
    netuším, jak to pustit

    to jeho je skript v pythonu :O ;D

    myslimže python je v ubuntu už předinstalovanej, budeš si iirc muset nainstalovat jenom pip

    sudo apt install python3-pip

    noa pak všecky potřebný knihovny, to znamená requests, BeautifulSoup a PDFQuery

    pip3 install requests pdfquery beautifulsoup4

    pak ten Nealův skript mužeš pustit třeba jako

    python3 skript.py
    9.10.2024 15:15 neal_cz | skóre: 29
    Rozbalit Rozbalit vše Re: jak na úřední desku
    ... a predtim opravit chybu ve smycce: "k_prohledani[0]" nahradit "soubor".

    Stydim se a vyprovodim se sam.

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.