abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    včera 22:44 | IT novinky

    IBM kupuje společnost HashiCorp (Terraform, Packer, Vault, Boundary, Consul, Nomad, Waypoint, Vagrant, …) za 6,4 miliardy dolarů, tj. 35 dolarů za akcii.

    Ladislav Hagara | Komentářů: 3
    včera 15:55 | Nová verze

    Byl vydán TrueNAS SCALE 24.04 “Dragonfish”. Přehled novinek této open source storage platformy postavené na Debianu v poznámkách k vydání.

    Ladislav Hagara | Komentářů: 0
    včera 13:44 | IT novinky

    Oznámeny byly nové Raspberry Pi Compute Module 4S. Vedle původní 1 GB varianty jsou nově k dispozici také varianty s 2 GB, 4 GB a 8 GB paměti. Compute Modules 4S mají na rozdíl od Compute Module 4 tvar a velikost Compute Module 3+ a předchozích. Lze tak provést snadný upgrade.

    Ladislav Hagara | Komentářů: 0
    včera 04:44 | Nová verze

    Po roce vývoje od vydání verze 1.24.0 byla vydána nová stabilní verze 1.26.0 webového serveru a reverzní proxy nginx (Wikipedie). Nová verze přináší řadu novinek. Podrobný přehled v souboru CHANGES-1.26.

    Ladislav Hagara | Komentářů: 0
    včera 04:33 | Nová verze

    Byla vydána nová verze 6.2 živé linuxové distribuce Tails (The Amnesic Incognito Live System), jež klade důraz na ochranu soukromí uživatelů a anonymitu. Přehled změn v příslušném seznamu. Tor Browser byl povýšen na verzi 13.0.14.

    Ladislav Hagara | Komentářů: 0
    včera 04:22 | Nová verze

    Byla vydána nová verze 30.0.0 frameworku pro vývoj multiplatformních desktopových aplikací pomocí JavaScriptu, HTML a CSS Electron (Wikipedie, GitHub). Chromium bylo aktualizováno na verzi 124.0.6367.49, V8 na verzi 12.4 a Node.js na verzi 20.11.1. Electron byl původně vyvíjen pro editor Atom pod názvem Atom Shell. Dnes je na Electronu postavena celá řada dalších aplikací.

    Ladislav Hagara | Komentářů: 2
    včera 04:11 | Nová verze

    Byla vydána nová verze 9.0.0 otevřeného emulátoru procesorů a virtualizačního nástroje QEMU (Wikipedie). Přispělo 220 vývojářů. Provedeno bylo více než 2 700 commitů. Přehled úprav a nových vlastností v seznamu změn.

    Ladislav Hagara | Komentářů: 0
    23.4. 23:22 | IT novinky

    Evropský parlament dnes přijal směrnici týkající se tzv. práva spotřebitele na opravu. Poslanci ji podpořili 584 hlasy (3 bylo proti a 14 se zdrželo hlasování). Směrnice ujasňuje povinnosti výrobců opravovat zboží a motivovat spotřebitele k tomu, aby si výrobky nechávali opravit a prodloužili tak jejich životnost.

    Ladislav Hagara | Komentářů: 9
    23.4. 16:11 | Nová verze

    Bylo oznámeno (cs) vydání Fedora Linuxu 40. Přehled novinek ve Fedora Workstation 40 a Fedora KDE 40 na stránkách Fedora Magazinu. Současně byl oznámen notebook Slimbook Fedora 2.

    Ladislav Hagara | Komentářů: 24
    23.4. 13:44 | Upozornění

    ČTK (Česká tisková kancelář) upozorňuje (X), že na jejím zpravodajském webu České noviny byly dnes dopoledne neznámým útočníkem umístěny dva smyšlené texty, které nepocházejí z její produkce. Jde o text s titulkem „BIS zabránila pokusu o atentát na nově zvoleného slovenského prezidenta Petra Pelligriniho“ a o údajné mimořádné prohlášení ministra Lipavského k témuž. Tyto dezinformace byly útočníky zveřejněny i s příslušnými notifikacemi v mobilní aplikaci Českých novin. ČTK ve svém zpravodajském servisu žádnou informaci v tomto znění nevydala.

    Ladislav Hagara | Komentářů: 29
    KDE Plasma 6
     (72%)
     (9%)
     (2%)
     (17%)
    Celkem 723 hlasů
     Komentářů: 4, poslední 6.4. 15:51
    Rozcestník

    Dotaz: anonymizace PDF

    17.1.2019 19:46 Petr
    anonymizace PDF
    Přečteno: 2277×
    Dobrý den, existuje prosím nějaká jednoduchá možnost, jak v PDF anonymizovat osobní údaje v textu, abych tyto dokumenty mohl umístit na web? Některé PDF jsou oskenované, některé jsou textové. Mám Ubuntu. Díky.

    Odpovědi

    17.1.2019 19:54 pavele
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Otevřít v LibreOffice Draw, upravit, exportovat do pdf.
    17.1.2019 23:41 OldFrog {Ondra Nemecek} | skóre: 36 | blog: Žabákův notes | Praha
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Podle mě jednoduchá a obecně použitelná možnost neexistuje.
    -- OldFrog
    18.1.2019 08:48 Peter Golis | skóre: 64 | blog: Bežné záležitosti | Bratislava
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Pokiaľ si s PDF ešte nepracoval, tak nepoznáš jeho záludnosti. V tom prípade bude najjednoduchšie to vytlačiť, manuálne scenzurovať zalepením alebo bielitkom, a oskenovať do PDF formátu.

    V inom prípade riskuješ že na vrstvu tlačoviny len pridáš elektronický objekt, a pôvodnú citlivú informáciu necháš dostupnú pod tým. A hocikto to z PDF vypitvá.
    18.1.2019 12:17 trevor12 | skóre: 4 | blog: prvni_kroky_zacatecnika
    Rozbalit Rozbalit vše Re: anonymizace PDF
    jakym zpusobem vlastne vydavatele chrani svoje pdf kdyz prodavaji e-booky ? je nejaka standardni praxe ? neviditelny watermark s udaji o kupujicim ? tohle asi anonymizovat nejde ?
    18.1.2019 13:36 Peter Golis | skóre: 64 | blog: Bežné záležitosti | Bratislava
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Obvykle ⇒ DRM.
    19.1.2019 18:39 PetebLazar
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Typicky Hard DRM (svázání vydané kopie knihy s účtem/čtečkou, např. Adobe-DRM), nebo sociální DRM (údaje o kupujícím jsou čitelně uvedeny na začátku knihy, pravděpodobně asi i někde jinde v skryté podobě).
    18.1.2019 11:51 Franta
    Rozbalit Rozbalit vše Re: anonymizace PDF
    abych měl absolutní jistotu tak stránku PDF načtu v GIMP, černým čtverečkem překryju osobní údaje a pak to exportuju opět do PDF.
    19.1.2019 18:26 PEE
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Problém nastane, když těch stránek jsou desítky nebo stovky. Myslím, že i velikost výsledného pdf se o dost zvětší, když nebude chtít exportovat na úkor kvality. A co takhle další potřeba (možná) zvýraznovač? Tuhle funkci má třeba Shutter, ale stojí za ... protože díky principu průhlednosti bude jakákoliv barva "vyblitá", aby byl zvýrazněný text čitelný.. Takže měchanická metoda je asi fakt nejlepší.. ale taky vopruz.
    19.1.2019 18:57 PetebLazar
    Rozbalit Rozbalit vše Re: anonymizace PDF

    V některých případech (například zveřejňování smluv v Registru smluv) musí být soubor uploadován ve strojově čitelném formátu, což asi vylučuje scanované dokumenty.

    Pro nenáročnou úpravu PDF (bez nutnosti platit předplatné jako u Acrobatu) jsme ve Windows prostředí využili cenově dostupného komerčního editoru PDF. Vypadá to, že si s ním možná poradí i WINE. Mají trial verzi, na které by se asi dala praktická použitelnost v prostředí Linuxu před případnou koupí předem ověrit.

    20.1.2019 23:50 lertimir | skóre: 64 | blog: Par_slov
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Což je ale také opruz, který je pořád nutné znovu a znovu dělat ručně. Standardní řešení je spisová služba, která u spisu má defonované anonymizační pole a pak vytváří exportní provedení spisu s anonymizovanými údaji. (a dotlačít příslušné úředníky, kteří na to dlabou, aby korektně pracovali)
    20.1.2019 11:08 Filip Jirsák | skóre: 68 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Podle mne nejjednodušší je použít komerční službu – např. začerníme.cz.

    Jinak byste to musel dělat tak, že v obrázku příslušné místo opravdu začerníte. Je ale potřeba dávat pozor na to, že i pod obrázkem může být neviditelná textová vrstva, která se používá pro vyhledávání a kopírování do schránky (je to častý výstup OCR programů). Text ale musíte otevřít v PDF editoru a fyzicky ho vymazat. Třeba LibreOffice sice umí importovat PDF, ale to udělá to, že se pokusí z PDF převzít maximum věcí do svého formátu – jakmile ale budete mít trošku složitější dokument, rozpadne se vám a v LO bude vypadat jinak.
    20.1.2019 12:06 marek_hb
    Rozbalit Rozbalit vše Re: anonymizace PDF
    kolik toho je? jestli by nebylo lepší udělat z toho .jpg, to začernit a vytisknout znova do .pdf tam si myslím, že by byla celkem velká jistota
    21.1.2019 09:05 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: anonymizace PDF
    PDF je ten nejpitomější formát jaký se na archivaci dokumentů mohl použít.
    21.1.2019 09:17 Filip Jirsák | skóre: 68 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Tady ale není řeč o archivaci.

    Pro archivaci je potřeba, aby bylo jednoznačně dané zobrazení dokumentu. To dobře zvládají (některé) bitmapové formáty, ale ukládat všechno jako bitmapové obrázky by nebylo nejlepší. PDF/A je pak pro archivaci vhodný formát, protože je to pořád PDF, takže to dnes zobrazí každý, může to být vektorové a může obsahovat text (takže nemusíte řešit nespolehlivé OCR), ale zároveň splňuje požadavky dlouhodobé archivace (formát je popsaný tak detailně, že PDF/A dokument půjde za desítky let zobrazit úplně stejně, jako se zobrazuje dnes).
    21.1.2019 09:28 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: anonymizace PDF
    DjVu formát je úspornější. Používá wavelet kompresi. Obraz se renderuje rychleji. Textovou vrstvu má taky a navíc může obsahovat i další elementy jimiž lze zajistit neporušenost obsahu bez opičáren.
    21.1.2019 10:34 Peter Golis | skóre: 64 | blog: Bežné záležitosti | Bratislava
    Rozbalit Rozbalit vše Re: anonymizace PDF

    Čo prosím znamená slovíčko "unsupported" v kolónke "support status" pri hesle DjVu?

    Mať nepodporovanú verziu dokumentu pri jeho archivácii sa mi nezdá moc rozumné. Najmä ak firma potrebuje anonymizovať položky ktoré pred posledným pritvrdením GDPR nebolo treba anonymizovať.

    (Čo mi pripomína ukončenie zverejňovania dlžníkov v rámci ich ochrany pomocou GDPR)
    21.1.2019 12:17 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Že šlo o verze, které používaly elementy, které již byly nahrazené jinou alternativou. Šlo víceméně o proprietární záležitosti, které se týkaly pouze metadat, nikoliv zobrazování či textové vrstvy.

    DjVu prohlížeč ti takové dokumenty normálně zobrazí, jenom tyto prvky ignoruje.

    Anonymizaci lze provést překonvertováním obrazových vrstev. U dokumentů, které mají separované popředí stačí překonvertovat pouze popředí. U ostatních dokumentů je třeba překonverovat "obrázek". Parametry pro anonymizaci lze převzít z textové vrstvy (pokud existuje). Nástroje na to jsou.
    21.1.2019 12:30 Peter Golis | skóre: 64 | blog: Bežné záležitosti | Bratislava
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Pokiaľ tie prvky v dokumente mám, tak je dôvod na ich existenciu a tým pádom aj potreba s tými prvkami pracovať. Akýkoľvek výskyt slova unsupported je nevhodný pri archivačnom formáte.
    21.1.2019 13:13 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Nic o nich nevíš, tak nevykládej planety. Byly to slepé vývojové elementy, které používaly proprietární softy a nikdy se neujaly. Vše co nabízely už dávno řeší vrstva ANT.
    21.1.2019 13:19 Peter Golis | skóre: 64 | blog: Bežné záležitosti | Bratislava
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Tá tabuľka na ktorá som odkazoval ale opisuje podporu verzií, nie elementov. Kľudne pokračuj.
    21.1.2019 16:57 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Proč? Pokud nejsi líný číst, tak si překliknni na níže odkazované wiki na Vývoj DjVu v datech, a tam to máš. A na stránce Anatomie DjVu dokumentu, se můžeš dočíst i jak ty "unsupported" vrstvy vypadaly.

    Mimochodem ta historie na Wikipedii ani nezmiňuje, že následovala ještě slepá větev Secure DjVu, uvolněná v srpnu 2007, která do DjVu Libre implementovaná nebyla.

    A jak tak koukám, na atril.com existuje i nějaký komerční soft.
    21.1.2019 11:56 lertimir | skóre: 64 | blog: Par_slov
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Promiň, ale pokud vytvoříš na stránkách úřadu dokumenty, které běžný uživatel nepřečte, tak jsou nepoužitelné. A běžný uživatel djvu nezná, ve Win ani Mac nejsou standardně programy, kterými je otevřeš a když se dívám na djvu.org, tak nejnovější "novinka" je z roku 13 a pouze 3 zprávy jsou novější než rok 10. Víš jistě, že na nejnovějším jabku a Win10 máš čím to přečíst? Musel bys na tom úřadě vytvořit podporu, jak soubory prohlížet, co má udělat uživatel, když je chce někomu poslat, aby to přijemce mohl přečíst. Pro PDF to je jednoduché, máš referneční viewer, když to někdo neumí přečíst, je mnoho lidí, kteří odpoví "Stáhni si Adobe Reader." Z technického pohledu můžeš mít pravdu, že djvu je lepší, ale to nestačí. Už třeba kdyby AT&T dělalo referenční prohlížeč a udržovalo ho aktuální tak možná.
    21.1.2019 12:27 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Promiň, ale pokud vytvoříš na stránkách úřadu dokumenty, které běžný uživatel nepřečte, tak jsou nepoužitelné.
    Formát, který je ustálený nepotřebuje žádné "novinky". Implementace DjVu.js je triviální. Běžný uživatel nepotřebuje nic stahovat a instalovat. Stačí mu libovolný novější prohlížeč.

    AT&T nepotřebuje dělat žádný referenční prohlížeč, protože ten formát byl uvolněn jako open source. Něco málo jsem si o tom za ty roky nastudoval. Za DjVuLibre stojí Léon Bottou, autor formátu. Aktuálnější info je na DjVuZone.org

    21.1.2019 13:09 Vantomas | skóre: 32 | Praha
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Rozpracovaný projekt byl 1. října 2010 přesunut sem, neboť administraci české Wikibooks mají lidé, co nemají potuchy o smyslu a účelu Wikibooks. Lidé, co ubíjejí autorské nadšení a ochotu sdílet nabyté znalosti a zkušenosti svými nesmyslnými zásahy do způsobu zpracování obsahu.
    :-D
    22.1.2019 07:13 Filip Jirsák | skóre: 68 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Nic z toho ale není podstatné pro formát, který se má používat běžně v oběhu dokumentů a má sloužit pro dlouhodobou archivaci. K tomu je potřeba, aby existovalo mnoho nástrojů na jeho prohlížení a vytváření, a pro tu archivaci je potřeba, aby byl ten formát přesně specifikován, podporoval jen věci, které se vždy stejně zobrazí, a aby si s sebou nesl všechny informace nutné k zobrazení dokumentu – tedy v něm například musí být vložené použité fonty.
    22.1.2019 08:01 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Ten formát se běžně používá, jen o tom nic nevíte, protože většinou dostáváte obraz přežvýkaný nějakou věcí na straně serveru. Netýká se to však serverů v ČR, ale v USA. Na archive.org se obvykle používá JPEG-2000 pro archivaci originálních skenů, PDF jako vstupní formát, který se interně konvertuje do DjVu se kterým pracuje webová aplikace pro čtení. A to proto, že se s ním líp pracuje.
    22.1.2019 14:46 Filip Jirsák | skóre: 68 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: anonymizace PDF
    „Běžně používá v oběhu dokumentů“ bylo myšleno tak, že když přijdu k běžnému kancelářskému PC, minimálně v 90 % případů tam najdu program, který to umí zobrazit, a uživatel to používá. Že to používají nějaké servery je hezké, ale tady je potřeba, abych to mohl někomu poslat e-mailem a nemusel řešit, zda to otevře.

    A původně byla řeč o dlouhodobé archivaci, a můžu se mýlit, ale DjVu podle mne není formát navržený s ohledem na dlouhodobou archivaci a nemá potřebné vlastnosti – tedy nezaručuje, že když někdo podle specifikace napíše za 40 let prohlížeč a zobrazí s ním libovolný dnešní DjVu soubor, zobrazení bude identické s tím, jak ho zobrazuje kterýkoli dnešní DjVu prohlížeč napsaný podle specifikace.

    Tím vůbec nijak nehodnotím formáty DjVu a PDF jako takové – PDF má svou historii, DjVu vzniklo pokud vím přímo jako reakce na PDF, takže by bylo zvláštní, kdyby pro účely, pro které je určené DjVu, nebylo lepší, než PDF. Ale tím účelem není dlouhodobá archivace.
    22.1.2019 15:37 OldFrog {Ondra Nemecek} | skóre: 36 | blog: Žabákův notes | Praha
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Ohledně rozšířenosti DjVu bych si nebyl tak jistý. Aby se k tomu mohl člověk vyjádřit, musel bys se orientovat v knihovnictví, digitalizaci různých historických materiálů a souvisejících oborech. Nic moc o tom nevím, ale DjVu jsem v těchto oblastech potkal a nikomu jeho použití nepřišlo divné. To samozřejmě nutně neznamená, že by to byl formát zaměřený na koncové užití laickou veřejností...
    -- OldFrog
    22.1.2019 17:30 Filip Jirsák | skóre: 68 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Aby člověk mohl posoudit, jak nějaký formát používá laická veřejnost, opravdu se nemusí orientovat v knihovnictví a digitalizaci. Dokonce si troufám tvrdit, že to, že se třeba pro práci s tabulkami používá nejčastěji Excel, vědí ajťáci mnohem lépe, než knihovníci. Že je DjVu možná rozšířený v oboru knihovnictví a digitalizace je klidně možné, ale tady řešíme právě to všeobecné použití. Protože když vám někdo bude posílat třeba smlouvu o prodeji domu, bude to nejspíš právník nebo nějaká asistentka z realitní kanceláře, případně přímo majitel domu, ale knihovník asi nikdy z titulu své funkce.
    22.1.2019 17:55 lertimir | skóre: 64 | blog: Par_slov
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Ještě navíc, když je soused, který se na stránkách městskkého úřadu dočte o záměru prodat sousední pozemek a protože je naprostý laik, ktery si kopil notebook s předinstalovanými windowsy a neví o informatice naprosto nic a nemá jednoduchou a triviální cestu, jak si dokumentaci přečíst, tak začne řvát na MÚ, psát žádosti o poskytnutí informací podle zákonu 106/1999, protože na stránkách to není v "běžně čitelném formátu" a úřad formát stáhne, protože s tím má mnohem více práce s takovým ztěžovatelem, než to převést na PDF.
    22.1.2019 19:23 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Jaký je problém ve zobrazení vygenerovaného obrázku na webu? Umí to dělat mediawiki – proto ji ostatně také používám, tak proč by to neměly umět weby úředních institucí?

    Naopak mě serou PDF soubory, které se dají otevřít jen v nesvobodných prohlížečích, jako např. PDF s formulářem pro podání daňového přiznání.
    22.1.2019 19:41 Filip Jirsák | skóre: 68 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Ale lidé nechtějí jen zobrazovat obrázky na webu. Oni si to chtějí stáhnout, vytisknout, poslat e-mailem, nahrát na flash disk a číst offline, zobrazit si to offline v mobilu nebo tabletu…

    Daňové přiznání se vyplňuje elektronicky ve webovém prohlížeči a na serveru se z toho vygeneruje statické PDF s vyplněnými údaji. Formuláře v PDF jsou placené rozšíření od Adobe, já je také nemám rád, ale to není povinná součást PDF a v PDF/A to být nesmí.
    22.1.2019 21:05 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Ale lidé nechtějí jen zobrazovat obrázky na webu. Oni si to chtějí stáhnout, vytisknout, poslat e-mailem, nahrát na flash disk a číst offline, zobrazit si to offline v mobilu nebo tabletu…
    S tím vším není u DjVu problém. Prohlížecí software existuje snad pro každou platformu. A co lze zobrazit, se dá i vytisknout. Velikost DjVu souboru je – na rozdíl od PDF – většinou mnohonásobně menší, takže protlačit mailem takový soubor není vůbec žádný problém.
    Formuláře v PDF jsou placené rozšíření od Adobe, já je také nemám rád, ale to není povinná součást PDF a v PDF/A to být nesmí.
    Ok. V takovém případě by však bylo pro mne logické alespoň statické zobrazení prázdného formuláře a ne textu:
    Please wait...

    If this message is not eventually replaced by the proper contents of the document, your PDF viewer may not be able to display this type of document.

    You can upgrade to the latest version of Adobe Reader for Windows®, Mac, or Linux® by visiting http://www.adobe.com/go/reader_download.

    For more assistance with Adobe Reader visit http://www.adobe.com/go/acrreader.

    Windows is either a registered trademark or a trademark of Microsoft Corporation in the United States and/or other countries. Mac is a trademark of Apple Inc., registered in the United States and other countries. Linux is the registered trademark of Linus Torvalds in the U.S. and other countries.
    22.1.2019 22:34 Filip Jirsák | skóre: 68 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Prohlížecí software existuje snad pro každou platformu.
    To ale neznamená, že má 90 % uživatelů ten software nainstalovaný a umí s ním zacházet. Při práci na počítači je obrovská spousta věcí, které nejsou problém pro mne nebo pro vás, ale jsou problém pro většinu ostatních lidí, které neživí IT.
    23.1.2019 09:11 Vantomas | skóre: 32 | Praha
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Daňové přiznání jde posílat přes XML. Formát je to zdokumentovaný a hojně používaný.
    23.1.2019 09:53 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Ano. Pokud ho posíláte rovnou elektronicky. I když nevím jak je to dnes. Dříve to nešlo jinak než přes Form Filler. Ovšem jiná situace je, když potřebujete vytisknout formulář abyste ho mohli vyplnit a odevzdat. řešení existuje, jak už jsem odkazoval u jiného komentáře. Mě ale vadí, že se mi PDF tohoto typu u jiných prohlížeček nezobrazí vůbec.
    22.1.2019 19:38 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Zkusil jste, jak funguje vyhledávání na https://www.hathitrust.org? Tam jsou miliardy stránek a s fulltextovým vyhledáváním není problém. Na čem si asi myslíte, že to interně jede? No PDF to není, protože to se generuje vždy až na základě konkrétního dotazu. Interně se používá JPEG-2000. Pokud ty věci prohlížíte on-line, je to ok, ovšem prohlížet to vygenerované PDF na mobilním zařízení není nic moc. Ovšem v linuxu není problém to PDF překonvertovat do DjVu – včetně textové vrstvy. Proto to nikdo neřeší. Kdo to nezná, trápí se s PDF. Kdo chápe v čem je rozdíl, si to převede.
    22.1.2019 20:25 lertimir | skóre: 64 | blog: Par_slov
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Podíval jsem se. Nenašel jsem jak si něco vytisknout abych si mohl věci podtrhat nebo označit zvýrazňovačem, a ani v elektronické podbě jsem nenašel jak si něco označkovat, připsat své poznámky a pak poslat kolegům, jestli s připomínkami souhlasía jestli timto způsebem bychom mohli reagovat. Jak se to v tom dělá??

    Bez popsaných možností je něco takového pro dokument z úřadu velmi problematické zobrazení.
    22.1.2019 20:59 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Ano, správně. Většina lidí to však nepotřebuje – stačí jim pouze fulltextové vyhledávání. Proto zatím nic takového pro DjVu není. Technicky jsou to ovšem jednoduché elementy, které jsou součástí metadatové vrstvy. Oříškem bylo pro mne jak získat z DjVu souboru obrázek. V tom právě udělal klíčovou práci programátor DjVu.js Já mu zas pomohl vysvětlit jak se pracuje s textovou vrstvou a metadaty. Pro mne je programování okrajové hobby, za které mě nikdo neplatí. Bohužel vyžaduje soustředění a čas.
    22.1.2019 21:16 lertimir | skóre: 64 | blog: Par_slov
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Pokud žiješ ve světě kde většina lidí poznámky nepotřebuje, tak asi žijeme každý v jiném světě. To bylo totiž to první, s čím jsem na úřadě jako radní potkal. Všichni (at již zatupitelé, občané nebo úředníci) za mnou přišli s papíry počmáranými poznámkami, s nalepenými Post-ity, a když něco posílali mailem tak také PDFka s poznámkami nebo wordové dokumenty s poznámkami nebo revizemi.
    22.1.2019 21:25 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: anonymizace PDF
    A - ruku na srdce - kdyby byl k dispozici pro DjVu prohlížeč co by tohle všechno podporoval - myslíš, že by ho pak začali používat?

    Podle mě je na tohle ptákovina používat i PDF. Na tohle jsou optimální kancelářské formáty typu odt, např. které mají podporu pro verzované poznámky.

    To o čem se tady bavíme je stádium, kdy je dokument hotový a podepsaný - do takového už by nikdo neměl šťourat a když, tak jedině takovým způsobem aby bylo zřejmé že nejde o originál.
    22.1.2019 21:43 lertimir | skóre: 64 | blog: Par_slov
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Ale občan přijde: Vysvětlete mi toto, proč je tam tohle? na to aby to nezapoměl si udělá poznámky. nejde změnit dokumet ale diskutovat na základě dokumentu o něčem dalším.
    Pavel 'TIGER' Růžička avatar 23.1.2019 04:15 Pavel 'TIGER' Růžička | skóre: 53
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Celkem vám závidím tu lokalitu s takovou počítačovou gramotností. Spolupracuji nějaký ten pátek s několika úřady a že by jim emailem přišlo PDFko s poznámkami, tak to jsem za těch několik let neviděl. Předpokládám, že to ani v nejbližší době neuvidím, když většina internetových prohlížečů integruje absolutně jednoduchý pdf prohlížeč. PDF je všeobecně chápáno, jako neupravitelný formát.
    23.1.2019 10:21 lertimir | skóre: 64 | blog: Par_slov
    Rozbalit Rozbalit vše Re: anonymizace PDF
    :-) Občan přijde s popsaným, olepeným a označkovaným papírem. :-) (no a mnozí radní a zastupitelé také nesnáší číst cokoliv elektronicky a vše si tisknou.)
    22.1.2019 18:00 lertimir | skóre: 64 | blog: Par_slov
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Protože dotaz na anonymizaci je téměř jistě spojen se státní/veřejnou správou. Se situací na jedné straně povinnosti zveřejnit nějaké údaje např. smlouvy a na druhou stranu povinností některé údaje utajit (např osobní údaje ve smlouvě o nájmu sociálního bytu).
    22.1.2019 23:05 OldFrog {Ondra Nemecek} | skóre: 36 | blog: Žabákův notes | Praha
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Moje letmá zkušenost naznačuje, že se DjVu používá pro skeny historických dokumentů. Měl jsem za to, že popíráte jeho rozšířenost obecně. Pokud ovšem tvrdíte, že se nepoužívá pro archivaci právnických dokumentů, tak to pak máte nejspíš pravdu.
    -- OldFrog
    23.1.2019 01:36 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Omyl. Pro archivaci historických dokumentů se používá JPEG-2000, protože je bezztrátový.

    Předností DjVu je rychlé renderování stránek, skrytá textová vrstva, která umožňuje fulltextové vyhledávání i v rukopisech (pokud si někdo dal tu práci, aby tu vrstvu vytvořil), tudíž se hodí pro studijní účely, kdy studujícího zajímá více obsah, nežli forma.

    PDF se pro tohle nehodí, protože renderuje stránky podstatně pomaleji, obzvláště u dokumentů velkých rozměrů. PDF soubory na mobilu nečtu, pokud mají více než 5 stránek. Fakt se to nedá. Přitom se slovníkem který má přes 700 stránek, v DjVu formátu se dá normálně pracovat. Funguje dokonce i fulltext (používám na BlackBerry Q10 Document Viewer, určený pro Android).

    Bohužel PDF formát se prosadil proto, že až do r. 2001 byl DjVu licencí chráněný formát. Takže pro pro komerční nástroje neexistovala opensource alternativa. Teprve s DjVuLibre se karta obrátila. Ovšem to už bylo pozdě. Tedy přinejmenším v ČR.
    22.1.2019 16:22 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: anonymizace PDF
    A původně byla řeč o dlouhodobé archivaci, a můžu se mýlit, ale DjVu podle mne není formát navržený s ohledem na dlouhodobou archivaci a nemá potřebné vlastnosti – tedy nezaručuje, že když někdo podle specifikace napíše za 40 let prohlížeč a zobrazí s ním libovolný dnešní DjVu soubor, zobrazení bude identické s tím, jak ho zobrazuje kterýkoli dnešní DjVu prohlížeč napsaný podle specifikace.
    Mýlíte se, protože DjVu specifikace je napsaná tak, že se podle ní takový prohlížeč dal napsat.

    Zrovna odkazovaný DjVu.js je toho důkazem, protože nepoužívá knihovny z DjVuLibre. Je kompletně napsaný v javascriptu a neskromně musím přiznat, že na některé věci jsem autora přivedl já, protože jsem mu poskytnul dokumentaci, kterou jsem shromáždil, archivní soubory k testování i vlastní upravenou verzi jeho původního kódu pro můj vlastní projekt multiplatformního DjVu editoru. Ten zatím chrápe, protože se aktuálně věnuji jiným věcem, které jsou od programování v javascriptu na hony daleko.
    22.1.2019 17:44 Filip Jirsák | skóre: 68 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Opravdu? A jak přesně do toho DjVu souboru dostanu text spolu s fontem, kterým se má zobrazit, tak, aby to zobrazení bylo podle specifikace vždy naprosto stejné?

    Můžu tam vložit obrázek, který se zobrazí vždy stejně – to ale pro výměnu dokumentů není dobrá volba, asi by nebylo dobré třeba z faktury vždy všechny údaje přepisovat, když je můžu alespoň kopírovat. Do DjVu můžu vložit text, abych z té faktury mohl kopírovat, ale pak mi zase nikdo nezaručí, že ten skrytý text je to samé, co je na obrázku. Takže potřebuju text spolu s přesnou specifikací toho, jak se má ten text vykreslit – a to pokud vím DjVu neumí. Což není chyba toho formátu, pro naskenované dokumenty by něco takového bylo nesmyslné a volba DjVu (obrázek + textová vrstva, která vznikla pomocí OCR) je perfektní volba. Ale není to dobrá volba pro výměnu (kancelářských, obchodních, právních) dokumentů.

    To, že existuje nějaký prohlížeč, který zobrazuje některé soubory úplně stejně, jako jiný prohlížeč, neznamená, že to bude jakýkoli prohlížeč napsaný podle specifikace dělat stejně. Ono se například obyčejné PDF v různých prohlížečích na různých počítačích také zobrazuje stejně, ale to ještě neznamená, že je takový dokument vhodný k dlouhodobé archivaci. Ono totiž stačí, že na nějakém počítači nebude dostupný použitý font, nebo tam bude font záměrně zmanipulovaný, a zobrazí se něco jiného.

    Pokud chci něco dlouhodobě archivovat v elektronické podobě a mám zdroj v elektronické podobě, není dnes lepší volba než PDF/A. Pokud je zdroj listina a pro dlouhodobou archivaci ji digitalizuju, je DjVu pravděpodobně (nevím, s PDF/A běžně pracuju, s DjVu ne) dobrá volba, věřím tomu, že i lepší, než PDF/A.
    22.1.2019 19:18 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Opravdu? A jak přesně do toho DjVu souboru dostanu text spolu s fontem, kterým se má zobrazit, tak, aby to zobrazení bylo podle specifikace vždy naprosto stejné?
    Přečtěte si prosím nejprve na stránce Anatomie DjVu dokumentu, odkazované o nějaký ten komentář výše, jak ten formát vypadá. Jsou tam i obrázky, takže to nebude na dlouho.
    Do DjVu můžu vložit text, abych z té faktury mohl kopírovat, ale pak mi zase nikdo nezaručí, že ten skrytý text je to samé, co je na obrázku.
    Ručí za to ten, kdo ten dokument dělá. A mezi metadata není problém vložit signaturu klíče, kterým lze ověřit kontrolní součet textové vrstvy.
    Ale není to dobrá volba pro výměnu (kancelářských, obchodních, právních) dokumentů.
    Mám na to jiný názor, protože stejně tak mohou být podepsané i obrazové vrstvy. DjVu formát je ztrátový, takže nelze vyrobit upravenou kopii obrazové vrstvy, která by byla identická s originálem. V metadatech může být uložená celá historie změn původního dokumentu, včetně signatur všech, co dělali jeho případnou anonymizaci. Tudíž by bylo velice snadno dohledatelné, kdo do původního dokumentu kdy hrabal. Což zrovna v případě dokumentů jaké zmiňujete je podle mne více než žádoucí.
    To, že existuje nějaký prohlížeč, který zobrazuje některé soubory úplně stejně, jako jiný prohlížeč, neznamená, že to bude jakýkoli prohlížeč napsaný podle specifikace dělat stejně.
    Výsledkem je vygenerovaná bitmapa, takže si pište, že se vždy všem a na všech platformách bude dokument zobrazovat stejně. Na žádných fontech nezáleží.

    Navíc v rámci textové vrstvy může mít více regionů, se slovy na identických souřadnicích. Takže není problém mít originální text přeložený i do několika jazykových mutací. Takže by fungoval český fulltext i na elektronickém skenu dokumentů v čínštině – teda pokud by tam ten český překlad byl. Ale na to by pochopitelně musel být naprogramovaný i prohlížeč a vhodný editor. Tak daleko ale zatím žádný vývojář nemyslel, proto jsem si ho začal bastlit sám. Technicky to ten formát ale umožňuje.

    Dokonce se do něj dá vložit jako samostatná vrstva stránky i sken originálního dokumentu v JP2, který může být bezztrátový. Pro běžné čtení se renderuje obraz z vrstev, které prohlížeč zná. Co nezná, ignoruje. Tak je to i s těmi "unsupported" elementy. Ale ta možnost tu je a určitě by se hodila tam, kde je žádoucí uchovat kvalitu originálního skenu a zároveň využívat výhody DjVu.

    22.1.2019 19:54 Filip Jirsák | skóre: 68 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Přečtěte si prosím nejprve na stránce Anatomie DjVu dokumentu, odkazované o nějaký ten komentář výše, jak ten formát vypadá. Jsou tam i obrázky, takže to nebude na dlouho.
    Stačilo napsat, že nijak, že to DjVu formát neumí.
    Ručí za to ten, kdo ten dokument dělá.
    To je u dokumentů, které mohou být předmětem různých sporů, dost vážný problém.
    Výsledkem je vygenerovaná bitmapa, takže si pište, že se vždy všem a na všech platformách bude dokument zobrazovat stejně. Na žádných fontech nezáleží.
    Proč je to pro „kancelářské“ dokumenty špatně jsem vysvětloval v předchozím komentáři.
    Navíc v rámci textové vrstvy může mít více regionů, se slovy na identických souřadnicích. Takže není problém mít originální text přeložený i do několika jazykových mutací.
    Jak jsem psal, pro nějakou digitalizaci knih je to perfektní formát. Pro právně závazné dokumenty je to smrtící, protože opravdu nechcete, abyste měl směnku, kde bude v obrazové části napsáno, že já dlužím vám, v české textové vrstvě bude napsáno, že vy dlužíte mně 100 Kč a v anglické textové vrstvě, že vy mně dlužíte 1000 EUR.
    Tak je to i s těmi "unsupported" elementy.
    To je další věc, která ve formátu pro archivaci právně závazných dokumentů být v žádném případě nemůže, protože opět může způsobit to, že se každému zobrazí něco jiného.
    22.1.2019 15:52 lertimir | skóre: 64 | blog: Par_slov
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Pro internet archiv by bylo lepší použít minulý čas. archive.org skončil s djvu před 3 lety jako konverzním formátem. V podstatě z diskuse a toho co psal Jeff Kaplan loni, je pro ně djvu mrtvé. A to je co jsem psal. I superiorní formát bez supportu je na nic.
    22.1.2019 16:14 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: anonymizace PDF
    On tam napsal, pokud jsem to četl dobře, že přestali řešit automatickou konverzi. Pro ně je to jednodušší neřešit. Nechávají tedy na zpracovateli, aby to dodal ve formátu, jaký uzná za vhodné. Ovšem pokud je k dispozici dokument v DjVu, normálně s ním ten webový backend pracuje. A je to znát, protože práce s takovým dokumentem není utrpení, jako když je v PDF.
    21.1.2019 09:49 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Ale jinak ano. Na formuláře budiž. Problém je, že neexistuje rozumná open source alternativa. Nicméně existuje alespoň použitelný Master PDF Editor for Linux.
    21.1.2019 15:11 ...
    Rozbalit Rozbalit vše Re: anonymizace PDF
    ano. budto rucne nebo pomoci nastroju tretich stran.

    na nekterych krajskych uradech pouzivaji sw od spolecnosti atbon pro anonymizaci osobnich udaju ve zverejnenych smlouvach.

    https://www.atbon.cz/anonymizace-dokumentu/

    26.1.2019 21:20 PEE
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Pokud je PDF "textové" (ne obrázek), na editaci doporučuju Master PDF Editor.
    5.2.2020 08:29 Ivan
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Otevřít v Gimpu, převést na jpg, začernit a znovu konvertovat do PDF
    xkucf03 avatar 8.2.2020 14:36 xkucf03 | skóre: 49 | blog: xkucf03
    Rozbalit Rozbalit vše Re: anonymizace PDF

    Nejspolehlivější bude převést PDF na posloupnost obrázků. Potom v bitmapovém editoru začernit. A následně prohnat přes Tesseract OCR, kterým to převedeš zpět na PDF a rozpoznáš v tom text (není to dokonalé, ale na vyhledávání nebo možnost ručního vykopírování částí textu to celkem stačí).

    Pokud to budeš „začerňovat“ v nějakém PDF editoru, tak si musíš dát dobrý pozor, aby tam ten text pod tím (nebo někde jinde v neviditelných oblastech) nezůstal. Naprosté minimum, které bys pak měl udělat je převést to pomocí příkazu pdftotext na prostý text, a zkontrolovat, že tam ty citlivé údaje nejsou.

    Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes
    8.2.2020 22:25 TechnikTom
    Rozbalit Rozbalit vše Re: anonymizace PDF
    Nikdo to tu zatím nezmínil, tak jen připomenu, že LibreOffice od verze 6.3 má pro toto speciální funkci. V novějších verzích tuším i s možností začernění vybraného řetězce na všech místech výskytu v dokumentu. Jen bylo třeba dát pozor při exportu do PDF aby se neuložila textová vrstva i se !začerněnými údaji.

    https://www.fudzilla.com/news/49217-new-libreoffice-out

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.