Přihlášení | Registrace

napište » Zprávičky

Forgejo 13.0

včera 23:55 | Nová verze

V programovacím jazyce Go naprogramovaná webová aplikace pro spolupráci na zdrojových kódech pomocí gitu Forgejo byla vydána ve verzi 13.0 (Mastodon). Forgejo je fork Gitei.

Ladislav Hagara | Komentářů: 0

Bezpečnostní problém počítačů Framework

včera 14:22 | Bezpečnostní upozornění

Společnost Eclypsium se na svém blogu rozepsala o bezpečnostním problému počítačů Framework. Jedná se o zranitelnost v UEFI umožňující útočníkům obejít Secure Boot.

Ladislav Hagara | Komentářů: 0

Zed už běží také ve Windows

včera 02:33 | Nová verze

Editor kódů Zed (Wikipedie) po macOS a Linuxu s verzí 0.208.4 už běží také ve Windows.

Ladislav Hagara | Komentářů: 6

14palcový MacBook Pro, iPad Pro a Apple Vision Pro s novým čipem M5

15.10. 17:44 | IT novinky

Apple dnes představil 14palcový MacBook Pro, iPad Pro a Apple Vision Pro s novým čipem M5.

Ladislav Hagara | Komentářů: 20

Mobian 13 Trixie

15.10. 13:55 | Nová verze

Debian pro mobilní zařízení Mobian (Wikipedie) byl vydán ve verzi 13 Trixie. Nová stabilní verze je k dispozici pro PINE64 PinePhone, PinePhone Pro a PineTab, Purism Librem 5, Google Pixel 3a a 3a XL, OnePlus 6 a 6T a Xiaomi Pocophone F1.

Ladislav Hagara | Komentářů: 2

O2 Datamanie 1200 GB

15.10. 13:11 | IT novinky

Operátor O2 představil tarif Datamanie 1200 GB . Nový tarif přináší 1200 GB dat s neomezenou 5G rychlostí, a také možnost neomezeného volání do všech sítí za 15 Kč na den. Při roční variantě předplatného zákazníci získají po provedení jednorázové platby celou porci dat najednou a mohou je bezstarostně čerpat kdykoli během roku. Do 13. listopadu jej O2 nabízí za zvýhodněných 2 988 Kč. Při průměrné spotřebě tak 100 GB dat vychází na 249 Kč měsíčně.

Ladislav Hagara | Komentářů: 7

Pixnapping Attack (CVE-2025-48561), útok na zařízení s Androidem

15.10. 12:33 | Bezpečnostní upozornění

Byly publikovány informace o útoku na zařízení s Androidem pojmenovaném Pixnapping Attack (CVE-2025-48561). Aplikace může číst citlivá data zobrazovaná jinou aplikací. V demonstračním videu aplikace čte 2FA kódy z Google Authenticatoru.

Ladislav Hagara | Komentářů: 1

FSF spustila projekt Librephone

15.10. 07:11 | Zajímavý projekt

Free Software Foundation (FSF) spustila projekt Librephone, jehož cílem je vytvoření svobodného operačního systému pro mobilní telefony. Bez binárních blobů.

Ladislav Hagara | Komentářů: 11

LMDE 7 Gigi

14.10. 16:44 | Nová verze

Byla vydána verze 7 s kódovým název Gigi linuxové distribuce LMDE (Linux Mint Debian Edition). Podrobnosti v poznámkách k vydání. Linux Mint vychází z Ubuntu. LMDE je postaveno na Debianu.

Ladislav Hagara | Komentářů: 0

Firefox 144.0

14.10. 16:33 | Nová verze

Byl vydán Mozilla Firefox 144.0. Přehled novinek v poznámkách k vydání a poznámkách k vydání pro vývojáře. Vypíchnout lze lepší správu profilů. Řešeny jsou rovněž bezpečnostní chyby. Nový Firefox 144 bude brzy k dispozici také na Flathubu a Snapcraftu.

Ladislav Hagara | Komentářů: 0

Centrum | Napsat | Starší

navrhněte » Anketa

Jaké řešení používáte k vývoji / práci?

Github (38%)

Gitlab (46%)

Atlassian (19%)

Bitbucket (21%)

Gitea (24%)

Mercurial (18%)

jen git (21%)

jen svn (18%)

Jiné (uvedu v diskusi) (18%)

Celkem 231 hlasů

Komentářů: 14, poslední 14.10. 09:04

Rozcestník

AbcLinuxu

HDmag.cz

AbcLinuxu:/ Poradna / Linuxová poradna / jak na úřední desku

Štítky: distribuce, PDF, prohlížeče, skript, Ubuntu

Dotaz: jak na úřední desku

8.10.2024 17:39 vyhledávající
jak na úřední desku

Přečteno: 710×

Odpovědět | Admin

Dobrý den,

potřebuji skript nebo nějaký příkaz, který najde informaci typu "IČO" nebo "jméno a příjmení". Na úřední desce (https://infodeska.justice.cz/subjekt.aspx?subjkod=202090) se nacházejí odkazy na další jakoby podstránky s různými usneseními, sděleními, oznámeními apod.ty jsou ve formátu pdf. Potřebuji nějaký příkaz který by ty pdf soubory, které mají hledané informace stáhl.

Prosím odpovídejte mi polopaticky abych to pochopil, a aby to šlo v Ubuntu. Předem děkuji.

Řešení dotazu:

Komentář #5 (Gréta, 1 hlasů)
Komentář #3 (neal_cz, 1 hlasů)

Nástroje: Začni sledovat (0) ?

Odpovědi

8.10.2024 19:30 X
Rozbalit Rozbalit vše Re: jak na úřední desku

Muzes uvest priklad? Zadne ICO, nnebo jmeno prijmeni nikde nevidim..

8.10.2024 21:32 vyhledávající
Rozbalit Rozbalit vše Re: jak na úřední desku

Na té desce je třeba odkaz na tuto stránku "https://infodeska.justice.cz/vyveseni.aspx?vyveseniid=8675925"; na ní je pdf-ko (https://infodeska.justice.cz/soubor.aspx?souborid=8834213) usnesení soudu, kde soud žádá, aby se mu přihlásili lidi co viděli Jiřího V., než ho prohlásí za mrtvého.

Mě se jedná o to, že chci na té desce soudu prohledat všechny (strojově čitelné) pdf soubory s usneseními, vyhláškami a pod., které v sobě obsahují zmínky o např. Jiřím V (v prvním pádě j.č.). Jde mi prostě o to vyhledávání, protože ručně proklikávat všechny pdf-ka je mimo mé schopnosti.

AI mi tvrdila, že by to šlo udělat tak, že se přes wget stáhnou všechny pdf soubory na desce a pak se prohledá obsah jednotlivých souborů, a ten který nebude mít požadovaný obsah se smaže. Jí vygenerovaný kód ale neudělal nic.

konkrétně to vyplivlo toto:

wget -r -l1 -nd -A pdf URL_STRÁNKY

-r (recursive): Rekurzivní stahování.

-l1 (level): Nastaví hloubku rekurze na 1 (prohledá pouze aktuální stránku).

-nd (no directories): Uloží všechny soubory do aktuálního adresáře (ne do žádných podadresářů).

-A pdf: Stáhne pouze soubory s příponou .pdf

Já zde samozřejmš potřebuji prohledat i ty podstránky, kde jsou ta pdf-ka, ale ono to nestáhlo to pdf-ko ani na stránce, která na něj přímo odkazuje - třeba na té výše zmíněné (https://infodeska.justice.cz/vyveseni.aspx?vyveseniid=8675925).

Řešení 1× (Max)

9.10.2024 02:32 Gréta | skóre: 37 | blog: Grétin blogísek | 🇮🇱==❤️ , 🇵🇸==💩 , 🇪🇺==☭
Rozbalit Rozbalit vše Re: jak na úřední desku

Jí vygenerovaný kód ale neudělal nic.

wget myslimže na tudlectu stránku nepude nějak rozumě použít páč jsou tam přípony souborů skrytý a soubory jsou poskovávaný jako nějaký proměný 'souborid' strkaný do furt stejnýho nějakýho aspx windowsího skriptu kterej nám pak sype ty hotový pdfka. Nicmeně ty jednotlivý pdfka je možný pořád wgetem stáhnout když známe to souborid, jen ten wget budem muset jakože dost víst za ručičku :D ;D

nejdřiv si stáhnem tu stránku která nás zajimá, uděláme to tak že použijem přepínadlo '-k' by nám to nepřevedlo adresy odkazů do lokální podoby ale nechalo je to v tý takzvaný absoltuní, to nám zjednoduší další dělání:

wget -k -np https://infodeska.justice.cz/subjekt.aspx?subjkod=202090

v dalším kroku si z toho souboru vytáhnem pomocí hele grepu všecky validní url adresy který začinaj na 'https://infodeska.justice.cz/soubor.aspx' a strčíme si je do txťáku pro další použití:

cat subjekt.aspx?subjkod=202090 | grep -Eo "https://infodeska.justice.cz/soubor.aspx[a-zA-Z0-9./?=_-]*" > urls.txt

vyrobíme si podsložšku a do ní si pomocí wgetu postahujem všecky ty pdfka, to už muže chvilku trvat, v zavislosti na počtu a velikosti těch souborů a jak moc se ten justicovej web bude bránit :D

mkdir pdfka
wget -i urls.txt -P ./pdfka

tak to bysme měli stažený ty pdfka, teďko bude asi eště potřeba ňák jakože prohledat ty soubory pro ty různý iča nebo mena, todle je pro mě terra incognita ale asi by šel použít hele pdfgrep :O ;D

jestli nemáme tak si ho v ubuntu mužeme nainstalovat asi pomocí vobligátního 'sudo apt install pdfgrep'

složku s těma pdfkama prohledáme pdfgrepem pro výskyt nějakýho ména třeba jozef:

pdfgrep Jozef ./pdfka/*

....a hele voni tam ňáký jozefové sou :O :D :O :D

./pdfka/soubor.aspx?souborid=8825981:Adresát : Jozef Kizek, 1994
./pdfka/soubor.aspx?souborid=8825982:    Adresát: Jozef Kizek, 1994
./pdfka/soubor.aspx?souborid=8827322:Adresát Jozef Ollé, narozený 1991

takže jo, to by asi jako šlo použít :O ;D asi by to šlo eště vylepšit přesměrováním wgetu rovnou do grepu a to pak rovnou do toho druhýho grepu by se ušetřilo zbytečný zapisování na disk + další kejkle ale zatim asi jako dobrý :O ;D

🕵️ seznamy spolupracovníků USAID 🕵️ seznamy agentů stratcomu 🕵️

9.10.2024 10:52 vyhledávající
Rozbalit Rozbalit vše Re: jak na úřední desku

Mockrát díky, je to dobrý! :)

9.10.2024 15:08 Gréta | skóre: 37 | blog: Grétin blogísek | 🇮🇱==❤️ , 🇵🇸==💩 , 🇪🇺==☭
Rozbalit Rozbalit vše Re: jak na úřední desku

supr :D ;D

jestli to chceš jako skript tak asi jako takle nějak

#!/usr/bin/env bash

# první argument skriptu je stránka kterou budem prohledávat
# druhej hledanej vyraz v těch pdfkách, třeba nějaký to méno
prohledavanaStranka=$1
hledanejVyraz=$2

# vyrobíme si složšku kam postahujem ty pdfka
mkdir -p PDFka

# stáhnem si prohledávanou stránku a rovnou ji proženem grepem a
# postahujem si všecky ty pdfka
wget -q -np $prohledavanaStranka -O- | grep -Eo "soubor.aspx[a-zA-Z0-9./?=_-]*" | \
while read url
do
        echo "stahuje se: $url"
        # musíme si připsat ten prefix ke každýmu souboru
        # (když strkáme vystup wgetu na standartní vystup tak
        # nejde použít přepinač -k )
        wget -q -P ./PDFka "https://infodeska.justice.cz/$url" 
done

echo ""
echo "soubory jsou stažený"
echo ""
echo "budeme v nich hledat $hledanejVyraz :"
echo ""

# projdem složšku s pdfkama pro hledanej vyraz
pdfgrep $hledanejVyraz ./PDFka/*

# po skončení bysme asi jako mohli smazat ty pdfka ale předpokládám
# že snima asi jakože budeš nějak dál dělat možná, tak to necham zakomentovaný rači :O ;D
# rm ./PDFka/*

zapsat to třeba do souboru 'skript.sh', udělat to přikazem 'chmod +x skript.sh' spustitelný a pouštět třeba jako './skript.sh https://infodeska.justice.cz/subjekt.aspx?subjkod=123456 Jozef' :D ;D

🕵️ seznamy spolupracovníků USAID 🕵️ seznamy agentů stratcomu 🕵️

9.10.2024 18:28 vyhledávající
Rozbalit Rozbalit vše Re: jak na úřední desku

Díky, funguje to bezvadně. Jenom žádného známého jsem tam ještě nenašel ;)

Řešení 1× (Gréta)

8.10.2024 21:33 neal_cz | skóre: 29
Rozbalit Rozbalit vše Re: jak na úřední desku

Nejak tak?

baseURL = 'https://infodeska.justice.cz/'
URL = 'https://infodeska.justice.cz/subjekt.aspx?subjkod=202090'
import requests

headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.135 Safari/537.36 Edge/12.246"}
r = requests.get(URL)

from bs4 import BeautifulSoup
obsah = BeautifulSoup(r.content, 'html5lib')

import re
def najdi_soubory(href):
    return href and re.compile('soubor.aspx').search(href)

k_prohledani = []
for odkaz in obsah.find_all(href=najdi_soubory):
    k_prohledani.append(f'{baseURL}{odkaz['href']}')

from pdfquery import PDFQuery
from io import BytesIO

hledane = "Jmeno/ICO"

for soubor in k_prohledani:
    f = requests.get(k_prohledani[0])
    bytes_stream = BytesIO(f.content)
    pdf = PDFQuery(bytes_stream)
    pdf.load()
    nalezeno = pdf.pq(f':contains({hledane})')
    if nalezeno:
        print(f'"{hledane}" nalezeno v souboru {soubor}')

8.10.2024 22:55 X
Rozbalit Rozbalit vše Re: jak na úřední desku

Omezil bych to na letosni rok. Nevim jestli tazatel vubec pozna v cem je to napsane a co ma delat..

9.10.2024 11:07 vyhledávající
Rozbalit Rozbalit vše Re: jak na úřední desku

Taky moc díky, ale fakt netuším, jak to pustit. Nicméně thunbergovské řešení funguje. :)

9.10.2024 15:09 Gréta | skóre: 37 | blog: Grétin blogísek | 🇮🇱==❤️ , 🇵🇸==💩 , 🇪🇺==☭
Rozbalit Rozbalit vše Re: jak na úřední desku

netuším, jak to pustit

to jeho je skript v pythonu :O ;D

myslimže python je v ubuntu už předinstalovanej, budeš si iirc muset nainstalovat jenom pip

sudo apt install python3-pip

noa pak všecky potřebný knihovny, to znamená requests, BeautifulSoup a PDFQuery

pip3 install requests pdfquery beautifulsoup4

pak ten Nealův skript mužeš pustit třeba jako

python3 skript.py

🕵️ seznamy spolupracovníků USAID 🕵️ seznamy agentů stratcomu 🕵️

9.10.2024 15:15 neal_cz | skóre: 29
Rozbalit Rozbalit vše Re: jak na úřední desku

... a predtim opravit chybu ve smycce: "k_prohledani[0]" nahradit "soubor".

Stydim se a vyprovodim se sam.

Založit nové vlákno • Nahoru

Tiskni Sdílej:

Píšeme jinde

ISSN 1214-1267 www.czech-server.cz

Redakce | Inzerce | Podmínky použití | Osobní údaje