O víkendu (15:00 až 23:00) probíha EmacsConf 2025, tj. online konference vývojářů a uživatelů editoru GNU Emacs. Sledovat ji lze na stránkách konference. Záznamy budou k dispozici přímo z programu.
Provozovatel internetové encyklopedie Wikipedia jedná s velkými technologickými firmami o uzavření dohod podobných té, kterou má s Googlem. Snaží se tak zpeněžit rostoucí závislost firem zabývajících se umělou inteligencí (AI) na svém obsahu. Firmy využívají volně dostupná data z Wikipedie k trénování jazykových modelů, což zvyšuje náklady, které musí nezisková organizace provozující Wikipedii sama nést. Automatické programy
… více »Evropská komise obvinila síť 𝕏 z porušení unijních pravidel, konkrétně nařízení Evropské unie o digitálních službách (DSA). Vyměřila jí za to pokutu 120 milionů eur (2,9 miliardy Kč). Pokuta je podle názoru amerického ministra zahraničí útokem zahraničních vlád na americký lid. K pokutě se vyjádřil i americký viceprezident: „EU by měla podporovat svobodu projevu, a ne útočit na americké společnosti kvůli nesmyslům“.
Společnost Jolla spustila kampaň na podporu svého nového telefonu Jolla Phone se Sailfish OS. Dodání je plánováno na první polovinu příštího roku. Pokud bude alespoň 2 000 zájemců. Záloha na telefon je 99 €. Cena telefonu v rámci kampaně je 499 €.
Netflix kupuje Warner Bros. včetně jejích filmových a televizních studií HBO Max a HBO. Za 72 miliard dolarů (asi 1,5 bilionu korun).
V Las Vegas dnes končí pětidenní konference AWS re:Invent 2025. Společnost Amazon Web Services (AWS) na ní představila celou řadu novinek. Vypíchnout lze 192jádrový CPU Graviton5 nebo AI chip Trainium3.
Firma Proxmox vydala novou serverovou distribuci Datacenter Manager ve verzi 1.0 (poznámky k vydání). Podobně jako Virtual Environment, Mail Gateway či Backup Server je založená na Debianu, k němuž přidává integraci ZFS, webové administrační rozhraní a další. Datacenter Manager je určený ke správě instalací právě ostatních distribucí Proxmox.
Byla vydána nová verze 2.4.66 svobodného multiplatformního webového serveru Apache (httpd). Řešeno je mimo jiné 5 bezpečnostních chyb.
Programovací jazyk JavaScript (Wikipedie) dnes slaví 30 let od svého oficiálního představení 4. prosince 1995.
Byly zveřejněny informace o kritické zranitelnosti CVE-2025-55182 s CVSS 10.0 v React Server Components. Zranitelnost je opravena v Reactu 19.0.1, 19.1.2 a 19.2.1.
v dokumentu ktery ma byt o odbornicich v IT
Řekl kdo?
Jmenuje se to Ženy, muži a digitalizace. ICT odborníci jsou jenom sekce 2.3, resp. tabulky 30-32.
tabulky o tom kdo co nakupuje doma, nebo jestli se doma pouziva chat nebo email
Digitalizace. Neslyšeli? Neviděli? Nikdy?! Ani v tom titulku?



Život je otázkou priorit :)
Nedávno mě pobavil jeden Japonec, který vysvětloval, že v Japonsku prodávají osobní počítače o polovinu levněji než v Česku, tím, že tam není po nich žádná poptávka. Žáci dostanou školní tablety a studenti jsou schopni udělat vysokou školu s mobilním telefonem. Prý jsou i případy, kteří celou diplomku datlovali (bez externí klávesnice) do telefonu.
pdftoppm digitalizace.pdf -png x for x in $(seq -w 41); do tesseract -l ces x-$x.png x-$x pdf; done; gs -dBATCH -dNOPAUSE -q -sDEVICE=pdfwrite -dAutoRotatePages=/None -sOutputFile="digitalizace-ocr.pdf" $(for x in $(seq -w 41); do echo x-$x.pdf; done)
office-pipe mohl umět, ale nevím, jestli to tam úplně patří (nechtěl bych tam přidávat závislost na Tesseractu a PDF knihovnách, takže by to spíš volal jako podprocesy, a pak se to moc neliší od obyčejného shellového skriptu).
V Relačních rourách by tuhle funkcionalitu šlo implementovat jako streamlet a pustit ji nad více soubory, ale většinou asi člověk potřebuje převést jen jeden dokument, takže i tady je asi jednodušší mít obyčejný shellový skript.
Vzhledem k tomu, že tam nejsou žádná relační data (v tomhle případě je úspěch z toho dostat aspoň nestrukturovaný text místo rozsypaného čaje), tak je to dost mimo záběr Relačních rour.
Maximálně se z toho dají jako relační/strukturovaná data vytáhnout metadata dokumentu:
$ find -name digitalizace.pdf -print0 \
| relpipe-in-filesystem \
--file path \
--streamlet mime_type \
--streamlet exiftool \
| relpipe-out-recfile
%rec: filesystem
%type: path regexp /.*/
%type: mime__type regexp /.*/
%type: File_58_MIMEType regexp /.*/
%type: exiftool__xml regexp /.*/
path: ./digitalizace.pdf
mime__type: application/pdf
File_58_MIMEType: application/pdf
exiftool__xml: <?xml version='1.0' encoding='UTF-8'?>
+ <rdf:RDF xmlns:rdf='http://www.w3.org/1999/02/22-rdf-syntax-ns#'>
+
+ <rdf:Description rdf:about='./digitalizace.pdf'
+ xmlns:et='http://ns.exiftool.org/1.0/' et:toolkit='Image::ExifTool 12.40'
+ xmlns:ExifTool='http://ns.exiftool.org/ExifTool/1.0/'
+ xmlns:System='http://ns.exiftool.org/File/System/1.0/'
+ xmlns:File='http://ns.exiftool.org/File/1.0/'
+ xmlns:PDF='http://ns.exiftool.org/PDF/PDF/1.0/'
+ xmlns:XMP-x='http://ns.exiftool.org/XMP/XMP-x/1.0/'
+ xmlns:XMP-xmp='http://ns.exiftool.org/XMP/XMP-xmp/1.0/'
+ xmlns:XMP-dc='http://ns.exiftool.org/XMP/XMP-dc/1.0/'
+ xmlns:XMP-xmpMM='http://ns.exiftool.org/XMP/XMP-xmpMM/1.0/'
+ xmlns:XMP-pdf='http://ns.exiftool.org/XMP/XMP-pdf/1.0/'
+ xmlns:XMP-pdfaid='http://ns.exiftool.org/XMP/XMP-pdfaid/1.0/'>
+ <ExifTool:ExifToolVersion>12.40</ExifTool:ExifToolVersion>
+ <System:FileName>digitalizace.pdf</System:FileName>
+ <System:Directory>.</System:Directory>
+ <System:FileSize>880 KiB</System:FileSize>
+ <System:FileModifyDate>2023:06:21 10:29:28+02:00</System:FileModifyDate>
+ <System:FileAccessDate>2023:06:28 23:02:18+02:00</System:FileAccessDate>
+ <System:FileInodeChangeDate>2023:06:29 13:35:47+02:00</System:FileInodeChang\
eDate>
+ <System:FilePermissions>-rw-rw-r--</System:FilePermissions>
+ <File:FileType>PDF</File:FileType>
+ <File:FileTypeExtension>pdf</File:FileTypeExtension>
+ <File:MIMEType>application/pdf</File:MIMEType>
+ <PDF:PDFVersion>1.4</PDF:PDFVersion>
+ <PDF:Linearized>No</PDF:Linearized>
+ <PDF:PageCount>41</PDF:PageCount>
+ <PDF:Author>myskova7414</PDF:Author>
+ <PDF:CreateDate>2023:06:21 09:38:55+02:00</PDF:CreateDate>
+ <PDF:Producer>Acrobat Distiller 9.5.5 (Windows)</PDF:Producer>
+ <PDF:Creator>PScript5.dll Version 5.2.2</PDF:Creator>
+ <PDF:ModifyDate>2023:06:21 09:38:55+02:00</PDF:ModifyDate>
+ <PDF:Title>Microsoft Word - ICT_gender_metodika_cs.docx</PDF:Title>
+ <XMP-x:XMPToolkit>Adobe XMP Core 4.2.1-c043 52.372728, 2009/01/18-15:08:04 \
</XMP-x:XMPToolkit>
+ <XMP-xmp:ModifyDate>2023:06:21 09:38:55+02:00</XMP-xmp:ModifyDate>
+ <XMP-xmp:CreateDate>2023:06:21 09:38:55+02:00</XMP-xmp:CreateDate>
+ <XMP-xmp:MetadataDate>2023:06:21 09:28:14+02:00</XMP-xmp:MetadataDate>
+ <XMP-xmp:CreatorTool>PScript5.dll Version 5.2.2</XMP-xmp:CreatorTool>
+ <XMP-dc:Format>application/pdf</XMP-dc:Format>
+ <XMP-dc:Title>Microsoft Word - ICT_gender_metodika_cs.docx</XMP-dc:Title>
+ <XMP-dc:Creator>myskova7414</XMP-dc:Creator>
+ <XMP-xmpMM:DocumentID>uuid:833e5971-ac60-4506-8d82-652f5b8a5ab7</XMP-xmpMM:D\
ocumentID>
+ <XMP-xmpMM:InstanceID>uuid:c9fa996a-e388-4108-907e-925f45d9d2fc</XMP-xmpMM:I\
nstanceID>
+ <XMP-pdf:Producer>Acrobat Distiller 9.5.5 (Windows)</XMP-pdf:Producer>
+ <XMP-pdfaid:Part>1</XMP-pdfaid:Part>
+ <XMP-pdfaid:Conformance>B</XMP-pdfaid:Conformance>
+ </rdf:Description>
+ </rdf:RDF>
# Record count: 1
Případně je tam streamlet tesseract, ale ten čte obrázek a generuje jeden atribut s rozpoznaným textem (tzn. nevyleze z toho PDF, ale jen ten text).
Tiskni
Sdílej: