Portál AbcLinuxu, 16. listopadu 2025 00:53
v dokumentu ktery ma byt o odbornicich v IT
Řekl kdo?
Jmenuje se to Ženy, muži a digitalizace. ICT odborníci jsou jenom sekce 2.3, resp. tabulky 30-32.
tabulky o tom kdo co nakupuje doma, nebo jestli se doma pouziva chat nebo email
Digitalizace. Neslyšeli? Neviděli? Nikdy?! Ani v tom titulku?



Život je otázkou priorit :)
Nedávno mě pobavil jeden Japonec, který vysvětloval, že v Japonsku prodávají osobní počítače o polovinu levněji než v Česku, tím, že tam není po nich žádná poptávka. Žáci dostanou školní tablety a studenti jsou schopni udělat vysokou školu s mobilním telefonem. Prý jsou i případy, kteří celou diplomku datlovali (bez externí klávesnice) do telefonu.
pdftoppm digitalizace.pdf -png x for x in $(seq -w 41); do tesseract -l ces x-$x.png x-$x pdf; done; gs -dBATCH -dNOPAUSE -q -sDEVICE=pdfwrite -dAutoRotatePages=/None -sOutputFile="digitalizace-ocr.pdf" $(for x in $(seq -w 41); do echo x-$x.pdf; done)
office-pipe mohl umět, ale nevím, jestli to tam úplně patří (nechtěl bych tam přidávat závislost na Tesseractu a PDF knihovnách, takže by to spíš volal jako podprocesy, a pak se to moc neliší od obyčejného shellového skriptu).
V Relačních rourách by tuhle funkcionalitu šlo implementovat jako streamlet a pustit ji nad více soubory, ale většinou asi člověk potřebuje převést jen jeden dokument, takže i tady je asi jednodušší mít obyčejný shellový skript.
Vzhledem k tomu, že tam nejsou žádná relační data (v tomhle případě je úspěch z toho dostat aspoň nestrukturovaný text místo rozsypaného čaje), tak je to dost mimo záběr Relačních rour.
Maximálně se z toho dají jako relační/strukturovaná data vytáhnout metadata dokumentu:
$ find -name digitalizace.pdf -print0 \
| relpipe-in-filesystem \
--file path \
--streamlet mime_type \
--streamlet exiftool \
| relpipe-out-recfile
%rec: filesystem
%type: path regexp /.*/
%type: mime__type regexp /.*/
%type: File_58_MIMEType regexp /.*/
%type: exiftool__xml regexp /.*/
path: ./digitalizace.pdf
mime__type: application/pdf
File_58_MIMEType: application/pdf
exiftool__xml: <?xml version='1.0' encoding='UTF-8'?>
+ <rdf:RDF xmlns:rdf='http://www.w3.org/1999/02/22-rdf-syntax-ns#'>
+
+ <rdf:Description rdf:about='./digitalizace.pdf'
+ xmlns:et='http://ns.exiftool.org/1.0/' et:toolkit='Image::ExifTool 12.40'
+ xmlns:ExifTool='http://ns.exiftool.org/ExifTool/1.0/'
+ xmlns:System='http://ns.exiftool.org/File/System/1.0/'
+ xmlns:File='http://ns.exiftool.org/File/1.0/'
+ xmlns:PDF='http://ns.exiftool.org/PDF/PDF/1.0/'
+ xmlns:XMP-x='http://ns.exiftool.org/XMP/XMP-x/1.0/'
+ xmlns:XMP-xmp='http://ns.exiftool.org/XMP/XMP-xmp/1.0/'
+ xmlns:XMP-dc='http://ns.exiftool.org/XMP/XMP-dc/1.0/'
+ xmlns:XMP-xmpMM='http://ns.exiftool.org/XMP/XMP-xmpMM/1.0/'
+ xmlns:XMP-pdf='http://ns.exiftool.org/XMP/XMP-pdf/1.0/'
+ xmlns:XMP-pdfaid='http://ns.exiftool.org/XMP/XMP-pdfaid/1.0/'>
+ <ExifTool:ExifToolVersion>12.40</ExifTool:ExifToolVersion>
+ <System:FileName>digitalizace.pdf</System:FileName>
+ <System:Directory>.</System:Directory>
+ <System:FileSize>880 KiB</System:FileSize>
+ <System:FileModifyDate>2023:06:21 10:29:28+02:00</System:FileModifyDate>
+ <System:FileAccessDate>2023:06:28 23:02:18+02:00</System:FileAccessDate>
+ <System:FileInodeChangeDate>2023:06:29 13:35:47+02:00</System:FileInodeChang\
eDate>
+ <System:FilePermissions>-rw-rw-r--</System:FilePermissions>
+ <File:FileType>PDF</File:FileType>
+ <File:FileTypeExtension>pdf</File:FileTypeExtension>
+ <File:MIMEType>application/pdf</File:MIMEType>
+ <PDF:PDFVersion>1.4</PDF:PDFVersion>
+ <PDF:Linearized>No</PDF:Linearized>
+ <PDF:PageCount>41</PDF:PageCount>
+ <PDF:Author>myskova7414</PDF:Author>
+ <PDF:CreateDate>2023:06:21 09:38:55+02:00</PDF:CreateDate>
+ <PDF:Producer>Acrobat Distiller 9.5.5 (Windows)</PDF:Producer>
+ <PDF:Creator>PScript5.dll Version 5.2.2</PDF:Creator>
+ <PDF:ModifyDate>2023:06:21 09:38:55+02:00</PDF:ModifyDate>
+ <PDF:Title>Microsoft Word - ICT_gender_metodika_cs.docx</PDF:Title>
+ <XMP-x:XMPToolkit>Adobe XMP Core 4.2.1-c043 52.372728, 2009/01/18-15:08:04 \
</XMP-x:XMPToolkit>
+ <XMP-xmp:ModifyDate>2023:06:21 09:38:55+02:00</XMP-xmp:ModifyDate>
+ <XMP-xmp:CreateDate>2023:06:21 09:38:55+02:00</XMP-xmp:CreateDate>
+ <XMP-xmp:MetadataDate>2023:06:21 09:28:14+02:00</XMP-xmp:MetadataDate>
+ <XMP-xmp:CreatorTool>PScript5.dll Version 5.2.2</XMP-xmp:CreatorTool>
+ <XMP-dc:Format>application/pdf</XMP-dc:Format>
+ <XMP-dc:Title>Microsoft Word - ICT_gender_metodika_cs.docx</XMP-dc:Title>
+ <XMP-dc:Creator>myskova7414</XMP-dc:Creator>
+ <XMP-xmpMM:DocumentID>uuid:833e5971-ac60-4506-8d82-652f5b8a5ab7</XMP-xmpMM:D\
ocumentID>
+ <XMP-xmpMM:InstanceID>uuid:c9fa996a-e388-4108-907e-925f45d9d2fc</XMP-xmpMM:I\
nstanceID>
+ <XMP-pdf:Producer>Acrobat Distiller 9.5.5 (Windows)</XMP-pdf:Producer>
+ <XMP-pdfaid:Part>1</XMP-pdfaid:Part>
+ <XMP-pdfaid:Conformance>B</XMP-pdfaid:Conformance>
+ </rdf:Description>
+ </rdf:RDF>
# Record count: 1
Případně je tam streamlet tesseract, ale ten čte obrázek a generuje jeden atribut s rozpoznaným textem (tzn. nevyleze z toho PDF, ale jen ten text).
Tiskni
Sdílej:
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.