Všem čtenářkám a čtenářům AbcLinuxu krásné Vánoce.
Byla vydána nová verze 7.0 linuxové distribuce Parrot OS (Wikipedie). S kódovým názvem Echo. Jedná se o linuxovou distribuci založenou na Debianu a zaměřenou na penetrační testování, digitální forenzní analýzu, reverzní inženýrství, hacking, anonymitu nebo kryptografii. Přehled novinek v příspěvku na blogu.
Vývojáři postmarketOS vydali verzi 25.12 tohoto před osmi lety představeného operačního systému pro chytré telefony vycházejícího z optimalizovaného a nakonfigurovaného Alpine Linuxu s vlastními balíčky. Přehled novinek v příspěvku na blogu. Na výběr jsou 4 uživatelská rozhraní: GNOME Shell on Mobile, KDE Plasma Mobile, Phosh a Sxmo.
Byla vydána nová verze 0.41.0 multimediálního přehrávače mpv (Wikipedie) vycházejícího z přehrávačů MPlayer a mplayer2. Přehled novinek, změn a oprav na GitHubu. Požadován je FFmpeg 6.1 nebo novější a také libplacebo 6.338.2 nebo novější.
Byla vydána nová verze 5.5 (novinky) skriptovacího jazyka Lua (Wikipedie). Po pěti a půl letech od vydání verze 5.4.
Byla vydána nová verze 5.4.0 programu na úpravu digitálních fotografií darktable (Wikipedie). Z novinek lze vypíchnout vylepšenou podporu Waylandu. Nejnovější darktable by měl na Waylandu fungovat stejně dobře jako na X11.
Byla vydána beta verze Linux Mintu 22.3 s kódovým jménem Zena. Podrobnosti v přehledu novinek a poznámkách k vydání. Vypíchnout lze, že nástroj Systémová hlášení (System Reports) získal mnoho nových funkcí a byl přejmenován na Informace o systému (System Information). Linux Mint 22.3 bude podporován do roku 2029.
GNU Project Debugger aneb GDB byl vydán ve verzi 17.1. Podrobný přehled novinek v souboru NEWS.
Josef Průša oznámil zveřejnění kompletních CAD souborů rámů tiskáren Prusa CORE One a CORE One L. Nejsou vydány pod obecnou veřejnou licenci GNU ani Creative Commons ale pod novou licencí OCL neboli Open Community License. Ta nepovoluje prodávat kompletní tiskárny či remixy založené na těchto zdrojích.
Nový CEO Mozilla Corporation Anthony Enzor-DeMeo tento týden prohlásil, že by se Firefox měl vyvinout v moderní AI prohlížeč. Po bouřlivých diskusích na redditu ujistil, že v nastavení Firefoxu bude existovat volba pro zakázání všech AI funkcí.
v dokumentu ktery ma byt o odbornicich v IT
Řekl kdo?
Jmenuje se to Ženy, muži a digitalizace. ICT odborníci jsou jenom sekce 2.3, resp. tabulky 30-32.
tabulky o tom kdo co nakupuje doma, nebo jestli se doma pouziva chat nebo email
Digitalizace. Neslyšeli? Neviděli? Nikdy?! Ani v tom titulku?



Život je otázkou priorit :)
Nedávno mě pobavil jeden Japonec, který vysvětloval, že v Japonsku prodávají osobní počítače o polovinu levněji než v Česku, tím, že tam není po nich žádná poptávka. Žáci dostanou školní tablety a studenti jsou schopni udělat vysokou školu s mobilním telefonem. Prý jsou i případy, kteří celou diplomku datlovali (bez externí klávesnice) do telefonu.
pdftoppm digitalizace.pdf -png x for x in $(seq -w 41); do tesseract -l ces x-$x.png x-$x pdf; done; gs -dBATCH -dNOPAUSE -q -sDEVICE=pdfwrite -dAutoRotatePages=/None -sOutputFile="digitalizace-ocr.pdf" $(for x in $(seq -w 41); do echo x-$x.pdf; done)
office-pipe mohl umět, ale nevím, jestli to tam úplně patří (nechtěl bych tam přidávat závislost na Tesseractu a PDF knihovnách, takže by to spíš volal jako podprocesy, a pak se to moc neliší od obyčejného shellového skriptu).
V Relačních rourách by tuhle funkcionalitu šlo implementovat jako streamlet a pustit ji nad více soubory, ale většinou asi člověk potřebuje převést jen jeden dokument, takže i tady je asi jednodušší mít obyčejný shellový skript.
Vzhledem k tomu, že tam nejsou žádná relační data (v tomhle případě je úspěch z toho dostat aspoň nestrukturovaný text místo rozsypaného čaje), tak je to dost mimo záběr Relačních rour.
Maximálně se z toho dají jako relační/strukturovaná data vytáhnout metadata dokumentu:
$ find -name digitalizace.pdf -print0 \
| relpipe-in-filesystem \
--file path \
--streamlet mime_type \
--streamlet exiftool \
| relpipe-out-recfile
%rec: filesystem
%type: path regexp /.*/
%type: mime__type regexp /.*/
%type: File_58_MIMEType regexp /.*/
%type: exiftool__xml regexp /.*/
path: ./digitalizace.pdf
mime__type: application/pdf
File_58_MIMEType: application/pdf
exiftool__xml: <?xml version='1.0' encoding='UTF-8'?>
+ <rdf:RDF xmlns:rdf='http://www.w3.org/1999/02/22-rdf-syntax-ns#'>
+
+ <rdf:Description rdf:about='./digitalizace.pdf'
+ xmlns:et='http://ns.exiftool.org/1.0/' et:toolkit='Image::ExifTool 12.40'
+ xmlns:ExifTool='http://ns.exiftool.org/ExifTool/1.0/'
+ xmlns:System='http://ns.exiftool.org/File/System/1.0/'
+ xmlns:File='http://ns.exiftool.org/File/1.0/'
+ xmlns:PDF='http://ns.exiftool.org/PDF/PDF/1.0/'
+ xmlns:XMP-x='http://ns.exiftool.org/XMP/XMP-x/1.0/'
+ xmlns:XMP-xmp='http://ns.exiftool.org/XMP/XMP-xmp/1.0/'
+ xmlns:XMP-dc='http://ns.exiftool.org/XMP/XMP-dc/1.0/'
+ xmlns:XMP-xmpMM='http://ns.exiftool.org/XMP/XMP-xmpMM/1.0/'
+ xmlns:XMP-pdf='http://ns.exiftool.org/XMP/XMP-pdf/1.0/'
+ xmlns:XMP-pdfaid='http://ns.exiftool.org/XMP/XMP-pdfaid/1.0/'>
+ <ExifTool:ExifToolVersion>12.40</ExifTool:ExifToolVersion>
+ <System:FileName>digitalizace.pdf</System:FileName>
+ <System:Directory>.</System:Directory>
+ <System:FileSize>880 KiB</System:FileSize>
+ <System:FileModifyDate>2023:06:21 10:29:28+02:00</System:FileModifyDate>
+ <System:FileAccessDate>2023:06:28 23:02:18+02:00</System:FileAccessDate>
+ <System:FileInodeChangeDate>2023:06:29 13:35:47+02:00</System:FileInodeChang\
eDate>
+ <System:FilePermissions>-rw-rw-r--</System:FilePermissions>
+ <File:FileType>PDF</File:FileType>
+ <File:FileTypeExtension>pdf</File:FileTypeExtension>
+ <File:MIMEType>application/pdf</File:MIMEType>
+ <PDF:PDFVersion>1.4</PDF:PDFVersion>
+ <PDF:Linearized>No</PDF:Linearized>
+ <PDF:PageCount>41</PDF:PageCount>
+ <PDF:Author>myskova7414</PDF:Author>
+ <PDF:CreateDate>2023:06:21 09:38:55+02:00</PDF:CreateDate>
+ <PDF:Producer>Acrobat Distiller 9.5.5 (Windows)</PDF:Producer>
+ <PDF:Creator>PScript5.dll Version 5.2.2</PDF:Creator>
+ <PDF:ModifyDate>2023:06:21 09:38:55+02:00</PDF:ModifyDate>
+ <PDF:Title>Microsoft Word - ICT_gender_metodika_cs.docx</PDF:Title>
+ <XMP-x:XMPToolkit>Adobe XMP Core 4.2.1-c043 52.372728, 2009/01/18-15:08:04 \
</XMP-x:XMPToolkit>
+ <XMP-xmp:ModifyDate>2023:06:21 09:38:55+02:00</XMP-xmp:ModifyDate>
+ <XMP-xmp:CreateDate>2023:06:21 09:38:55+02:00</XMP-xmp:CreateDate>
+ <XMP-xmp:MetadataDate>2023:06:21 09:28:14+02:00</XMP-xmp:MetadataDate>
+ <XMP-xmp:CreatorTool>PScript5.dll Version 5.2.2</XMP-xmp:CreatorTool>
+ <XMP-dc:Format>application/pdf</XMP-dc:Format>
+ <XMP-dc:Title>Microsoft Word - ICT_gender_metodika_cs.docx</XMP-dc:Title>
+ <XMP-dc:Creator>myskova7414</XMP-dc:Creator>
+ <XMP-xmpMM:DocumentID>uuid:833e5971-ac60-4506-8d82-652f5b8a5ab7</XMP-xmpMM:D\
ocumentID>
+ <XMP-xmpMM:InstanceID>uuid:c9fa996a-e388-4108-907e-925f45d9d2fc</XMP-xmpMM:I\
nstanceID>
+ <XMP-pdf:Producer>Acrobat Distiller 9.5.5 (Windows)</XMP-pdf:Producer>
+ <XMP-pdfaid:Part>1</XMP-pdfaid:Part>
+ <XMP-pdfaid:Conformance>B</XMP-pdfaid:Conformance>
+ </rdf:Description>
+ </rdf:RDF>
# Record count: 1
Případně je tam streamlet tesseract, ale ten čte obrázek a generuje jeden atribut s rozpoznaným textem (tzn. nevyleze z toho PDF, ale jen ten text).
Tiskni
Sdílej: