Ženy, muži a digitalizace

Muze mi nekdo vysvetlit, proc v dokumentu ktery ma byt o odbornicich v IT jsou tabulky o tom kdo co nakupuje doma, nebo jestli se doma pouziva chat nebo email? Uvod odpovida nazvu a pak tabulky ktere podle me vubec nesouvisi s nazvem. Dalsi vec ktera me neskutecne sere u statnich dokumentu, a fakt se potkavam s tim vsude, je ze je nejake mrtestrankove pdf s obsahem ale v obsahu si nemuzu clicknout a preskocit na danou kapitolu, musim jako debil odskrolovat na stranku xxx.

27.6.2023 13:24 _
Rozbalit Rozbalit vše Re: Ženy, muži a digitalizace - 2023

Já jsem si říkal, že jim nefunguje obsah, a musím jak debil do lišty napsat číslo stránky. Ale teď se cítím lépe, že někdo jako ještě větší debil skroluje.

27.6.2023 21:28 J
Rozbalit Rozbalit vše Re: Ženy, muži a digitalizace - 2023

Njn, ja rychlejc skroluji nez zvedat ruku a psat nekde cislo stranky…

27.6.2023 13:57 |🇵🇸 | skóre: 94 | blog:
Rozbalit Rozbalit vše Re: Ženy, muži a digitalizace - 2023

v dokumentu ktery ma byt o odbornicich v IT

Řekl kdo?

Jmenuje se to Ženy, muži a digitalizace. ICT odborníci jsou jenom sekce 2.3, resp. tabulky 30-32.

tabulky o tom kdo co nakupuje doma, nebo jestli se doma pouziva chat nebo email

Digitalizace. Neslyšeli? Neviděli? Nikdy?! Ani v tom titulku?

🇵🇸 ✊ Touch grass ✊ 🇺🇦 ✊ ani boha, ani pána

28.6.2023 09:53 Valgrind
Rozbalit Rozbalit vše Re: Ženy, muži a digitalizace - 2023

Proc jsou zeny na prvni miste pred muzi? Proc to neni naopak? A proc se to vubec rozdeluje? Vzdyt je to zpatecnicky pohled z minuleho stoleti, ktery v nove europe nema co delat, ne? Nebo jak to je spravne?

27.6.2023 14:07 Ladislav Hagara | skóre: 107 | blog: Ride the Raven
Rozbalit Rozbalit vše Re: Ženy, muži a digitalizace - 2023

Z hlediska IT je to prostě ostuda.
To pdf je jednoduše vyexportováno z Microsoft Wordu, dokonce se i v pdf zobrazuje "Microsoft Word - ICT_gender_metodika_cs.docx". :-(

V tiskové zprávě se uvádí 2023. V dokumentu 2022. :-(

Z pdf nejde kopírovat. :-(

Mimochodem, český název je Ženy, muži a digitalizace, anglický název je Digitalization by gender.

Prasata. V tom dokumentu se nedá ani vyhledávat. A že to nemá obsah ani nemluvě.

Nevím, jestli tenhle skvost vůbec stojí za přečtení, ale pokud si chcete aspoň opravit to PDF, tak:

pdftoppm digitalizace.pdf -png x
for x in $(seq -w 41); do tesseract -l ces x-$x.png x-$x pdf; done;
gs -dBATCH -dNOPAUSE -q -sDEVICE=pdfwrite -dAutoRotatePages=/None -sOutputFile="digitalizace-ocr.pdf" $(for x in $(seq -w 41); do echo x-$x.pdf; done)

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

29.6.2023 12:51 Valgrind
Rozbalit Rozbalit vše Re: Neumí vyrobit ani PDF

Umelo by toto pdf zpracovat relacni potrubi?

29.6.2023 13:51 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Re: Neumí vyrobit ani PDF

Asi leda skrze sesterský projekt office-pipe (hodně čerstvé, oficiálně nevydané), ale i ten by zvládl jen konverzi z .doc/.docx do PDF. Převod na obrázky a následné OCR se musí udělat zvlášť – v budoucnu by to ten office-pipe mohl umět, ale nevím, jestli to tam úplně patří (nechtěl bych tam přidávat závislost na Tesseractu a PDF knihovnách, takže by to spíš volal jako podprocesy, a pak se to moc neliší od obyčejného shellového skriptu).

V Relačních rourách by tuhle funkcionalitu šlo implementovat jako streamlet a pustit ji nad více soubory, ale většinou asi člověk potřebuje převést jen jeden dokument, takže i tady je asi jednodušší mít obyčejný shellový skript.

Vzhledem k tomu, že tam nejsou žádná relační data (v tomhle případě je úspěch z toho dostat aspoň nestrukturovaný text místo rozsypaného čaje), tak je to dost mimo záběr Relačních rour.

Maximálně se z toho dají jako relační/strukturovaná data vytáhnout metadata dokumentu:

$ find -name digitalizace.pdf -print0 \
    | relpipe-in-filesystem \
        --file path \
        --streamlet mime_type \
        --streamlet exiftool  \
    | relpipe-out-recfile 


%rec: filesystem
%type: path regexp /.*/
%type: mime__type regexp /.*/
%type: File_58_MIMEType regexp /.*/
%type: exiftool__xml regexp /.*/

path: ./digitalizace.pdf
mime__type: application/pdf
File_58_MIMEType: application/pdf
exiftool__xml: <?xml version='1.0' encoding='UTF-8'?>
+ <rdf:RDF xmlns:rdf='http://www.w3.org/1999/02/22-rdf-syntax-ns#'>
+ 
+ <rdf:Description rdf:about='./digitalizace.pdf'
+   xmlns:et='http://ns.exiftool.org/1.0/' et:toolkit='Image::ExifTool 12.40'
+   xmlns:ExifTool='http://ns.exiftool.org/ExifTool/1.0/'
+   xmlns:System='http://ns.exiftool.org/File/System/1.0/'
+   xmlns:File='http://ns.exiftool.org/File/1.0/'
+   xmlns:PDF='http://ns.exiftool.org/PDF/PDF/1.0/'
+   xmlns:XMP-x='http://ns.exiftool.org/XMP/XMP-x/1.0/'
+   xmlns:XMP-xmp='http://ns.exiftool.org/XMP/XMP-xmp/1.0/'
+   xmlns:XMP-dc='http://ns.exiftool.org/XMP/XMP-dc/1.0/'
+   xmlns:XMP-xmpMM='http://ns.exiftool.org/XMP/XMP-xmpMM/1.0/'
+   xmlns:XMP-pdf='http://ns.exiftool.org/XMP/XMP-pdf/1.0/'
+   xmlns:XMP-pdfaid='http://ns.exiftool.org/XMP/XMP-pdfaid/1.0/'>
+  <ExifTool:ExifToolVersion>12.40</ExifTool:ExifToolVersion>
+  <System:FileName>digitalizace.pdf</System:FileName>
+  <System:Directory>.</System:Directory>
+  <System:FileSize>880 KiB</System:FileSize>
+  <System:FileModifyDate>2023:06:21 10:29:28+02:00</System:FileModifyDate>
+  <System:FileAccessDate>2023:06:28 23:02:18+02:00</System:FileAccessDate>
+  <System:FileInodeChangeDate>2023:06:29 13:35:47+02:00</System:FileInodeChang\
eDate>
+  <System:FilePermissions>-rw-rw-r--</System:FilePermissions>
+  <File:FileType>PDF</File:FileType>
+  <File:FileTypeExtension>pdf</File:FileTypeExtension>
+  <File:MIMEType>application/pdf</File:MIMEType>
+  <PDF:PDFVersion>1.4</PDF:PDFVersion>
+  <PDF:Linearized>No</PDF:Linearized>
+  <PDF:PageCount>41</PDF:PageCount>
+  <PDF:Author>myskova7414</PDF:Author>
+  <PDF:CreateDate>2023:06:21 09:38:55+02:00</PDF:CreateDate>
+  <PDF:Producer>Acrobat Distiller 9.5.5 (Windows)</PDF:Producer>
+  <PDF:Creator>PScript5.dll Version 5.2.2</PDF:Creator>
+  <PDF:ModifyDate>2023:06:21 09:38:55+02:00</PDF:ModifyDate>
+  <PDF:Title>Microsoft Word - ICT_gender_metodika_cs.docx</PDF:Title>
+  <XMP-x:XMPToolkit>Adobe XMP Core 4.2.1-c043 52.372728, 2009/01/18-15:08:04  \
      </XMP-x:XMPToolkit>
+  <XMP-xmp:ModifyDate>2023:06:21 09:38:55+02:00</XMP-xmp:ModifyDate>
+  <XMP-xmp:CreateDate>2023:06:21 09:38:55+02:00</XMP-xmp:CreateDate>
+  <XMP-xmp:MetadataDate>2023:06:21 09:28:14+02:00</XMP-xmp:MetadataDate>
+  <XMP-xmp:CreatorTool>PScript5.dll Version 5.2.2</XMP-xmp:CreatorTool>
+  <XMP-dc:Format>application/pdf</XMP-dc:Format>
+  <XMP-dc:Title>Microsoft Word - ICT_gender_metodika_cs.docx</XMP-dc:Title>
+  <XMP-dc:Creator>myskova7414</XMP-dc:Creator>
+  <XMP-xmpMM:DocumentID>uuid:833e5971-ac60-4506-8d82-652f5b8a5ab7</XMP-xmpMM:D\
ocumentID>
+  <XMP-xmpMM:InstanceID>uuid:c9fa996a-e388-4108-907e-925f45d9d2fc</XMP-xmpMM:I\
nstanceID>
+  <XMP-pdf:Producer>Acrobat Distiller 9.5.5 (Windows)</XMP-pdf:Producer>
+  <XMP-pdfaid:Part>1</XMP-pdfaid:Part>
+  <XMP-pdfaid:Conformance>B</XMP-pdfaid:Conformance>
+ </rdf:Description>
+ </rdf:RDF>

# Record count: 1

Případně je tam streamlet tesseract, ale ten čte obrázek a generuje jeden atribut s rozpoznaným textem (tzn. nevyleze z toho PDF, ale jen ten text).

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes