abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
dnes 11:44 | Zajímavý článek

Michael Stapelberg na svém blogu popisuje projekt minitrd, který je součástí linuxové distribuce distri. Jedná se o implementaci initramfs v programovacím jazyce Go. V článku popisuje jak funguje a srovnává časy sestavení pomocí dracutu a dobu bootování. Pro zrychlení používá různé triky jako například pigz místo gzipu.

joejoe | Komentářů: 1
včera 21:33 | Nová verze

Sway, dlaždicový (tiling) správce oken pro Wayland kompatibilní s i3, byl vydán ve verzi 1.4. Do vývoje se zapojilo 52 vývojářů. Přehled novinek na GitHubu. Zdůraznit lze podporu VNC (wayvnc) nebo částečnou podporu Mate panelu.

Ladislav Hagara | Komentářů: 7
včera 19:55 | Nová verze

Dokumentační tým LibreOffice vydává aktualizovanou příručku pro LibreOffice Math pro verzi LibreOffice 6.4. Update příručky provedl ruský dobrovolník Roman Kuzněcov. Český překladatelský tým hledá další překladatele pro překlad příruček, detaily na wiki.

Zdeněk Crhonek | Komentářů: 0
včera 19:00 | Zajímavý projekt

CutiePi Shell (GitHub) je nové open source uživatelské rozhraní pro mobilní zařízení vytvořené pro tablet CutiePi postavený na Raspberry Pi.

joejoe | Komentářů: 0
včera 11:44 | Nová verze

Vyšla nová verze nástroje pro správu diskových oddílů GParted a distribuce GParted Live, která obsahuje tento a další nástroje pro zálohování či obnovu dat. GParted 1.1.0 aktualizuje překlady a opravuje chyby včetně v např. přesunu uzamknutých šifrovaných oddílů LUKS, výpočtu velikosti souborového systému JFS či rozpoznávání členů ATARAID a jejich stavu. GParted Live 1.1.0-1 pak obsahuje novou verzi GParted, Linux 5.4.13 a vůbec novější balíčky z Debianu Sid.

Fluttershy, yay! | Komentářů: 1
včera 09:55 | Zajímavý článek

Jiří Eischmann se v příspěvku /e/: Android bez Googlu na starém telefonu na svém blogu podělil o zkušenosti s mobilním operačním systémem /e/ (Wikipedie) na telefonu Samsung Galaxy S4 Mini: Pokud hledáte pro svůj androidí telefon systém bez závislosti na Googlu, je to asi ta nejlepší volba.

Ladislav Hagara | Komentářů: 13
21.1. 18:55 | Nová verze

Po roce vývoje od vydání verze 4.0 a více než 7 400 změnách byla vydána nová stabilní verze 5.0 softwaru, který vytváří aplikační rozhraní umožňující chod aplikací pro Microsoft Windows také pod GNU/Linuxem, Wine (Wikipedie). Z novinek lze zdůraznit moduly ve formátu PE, podporu více monitorů, reimplementaci XAudio2 anebo podporu Vulkanu 1.1. Podrobnosti v poznámkách k vydání.

Ladislav Hagara | Komentářů: 1
21.1. 15:11 | Zajímavý článek

Michal Altair Valášek publikoval na svém blogu návod MQTT server do kapsy: Mosquitto na Orange Pi Zero na postavení vlastního MQTT (MQ Telemetry Transport) serveru s brokerem Mosquitto postaveného na ARM klonu Debianu Armbian na jednodeskovém počítači za deset dolarů Orange Pi Zero a zabezpečeného pomocí TLS certifikátů od Let's Encrypt a uživatelských jmen a hesel.

Ladislav Hagara | Komentářů: 4
20.1. 17:11 | Nová verze

Vyšlo Pharo 8.0. Přináší lepší nástroje pro refactoring či spoluráci s Gitem. Pharo je programovací jazyk a vývojové prostředí s řadou pokročilých vlastností.

Pavel Křivánek | Komentářů: 7
20.1. 13:11 | Pozvánky

Ak pracujete na zaujímavom projekte, zaujíma Vás špecifická téma alebo sa vyznáte o novinkách a trendoch vo svete Pythonu, zdieľajte to s ostatnými. Možnosť prihlásiť sa so svojou témou na PyConSK 2020 je otvorená do 31. 1. 2020.

… více »
RicCo386 | Komentářů: 0
Zdají se vám sny s IT tématikou?
 (9%)
 (1%)
 (13%)
 (17%)
 (53%)
 (7%)
Celkem 256 hlasů
 Komentářů: 10, poslední 18.1. 16:18
Rozcestník

www.AutoDoc.Cz

Dotaz: ako ukladať digitalizované dokumenty?

12.1. 21:20 rastos | skóre: 61 | blog: rastos
ako ukladať digitalizované dokumenty?
Přečteno: 296×

Doma sa mi za roky nahromadili najrôznejšie papierové dokumenty. Mám v úmysle zbaviť sa ich a previesť ich do digitálnej podoby - a napísať si na to vlastnú aplikáciu. V jave. S možnosťou dokumenty otagovať, priradiť dátum, poznámku, nanovo vytlačiť, vyhľadávať, ...

Chcel by som od vás počuť názory na to, ako ukladať oskenované dokumenty:

  • Q1: je dôvod uprednostniť obrázok pred pdf?
  • Q2: kam ukladať oskenované dokumenty? Viem si predstaviť nasledovné možnosti:
    • čo dokument to súbor
    • embeded databáza - derby/h2/...
    • kombinácia predchádzajúcich dvoch. V DB metadáta a odkaz na súbor s blobom.
    • SQL server (postgres/mysql/...)

Ten SQL server mi príde najhorší lebo chcem, aby bolo jednoduché tie dáta zálohovať a presúvať. A to aj pre členov rodiny, ktorí nie sú IT zdatní. Mať niekde SQL server a raz za 5 rokov znova objavovať ako sa to backupuje, upgraduje, ... to ma nenadchýňa. Pri upgrade embeded databázy, ku ktorému rokmi dôjde, by som tiež chcel čo najjednoduchší priebeh.

Máte nejaké rady?

Odpovědi

12.1. 23:16 O'o'yam
Rozbalit Rozbalit vše Re: ako ukladať digitalizované dokumenty?
Dokumenty o ktere nechcete prijit je nejlepsi ukladat ve formatech, na ktere budete mit ctecku i za nekolik desetileti. Predstavte si, ze dnes najdete nejake dokumenty v AmiPro, C602, nebo v T602 (a z te ten text nakonec dostanete) - co s nimi? Leda hledat na netu nejaky konvertor.

Pokud se chcete chranit pouze proti tomu, ze za 10 az 40 let nebude jak dokumenty otevrit, muzete asi pouzit jpg, nebo pdf. V techto formatech je dnes tolik dokumentu, ze by ctecky nemely zmizet velmi dlouho. Databazi nedoporucuji. Pouzijte nejaky obycejny a jednoduchy a velmi rozsireny souborovy system a dejte je do adresaru.

Obrazek zabaleny v pdf a to ulozene v databazi je uzasne reseni az do okamziku, kdy prohlizec pdf prestane podporovat 30 let starou verzi jpg, protoze tu uz preci nikdo nepouziva, nebo ulozena data z databaze nedokaze nacist verze o 15 novejsi.

Disky jsou dneska levne. 4TB poridite za 5000, kdyz koupite nejlevnejsi WD a nejlevnejsi Seagate a date je do mirroru (stejne disky ze stejne serie casto odchazi ve stejnou dobu - na to take nechcete prijit tim tezsim zpusobem).

Takze ja osobne bych scannoval do pnm (nebo do jineho uplne cisteho bitmapoveho formatu, ktery dokazete popsat z hlavy za 2 minuty a naimplementovat ctecku v libovolnem programovacim jazyce za nekolik malo hodin). Vubec bych je nekomprimoval a idealne bych plytval mistem jeste vic tak, ze bych si zvolil beznou sirku obrazku (napriklad na celou sirku scanneru) a v te bych mel co nejvic obrazku a ostatni v jejich celociselnych nasobcich. Strankovani vyreste ve jmene souboru, nebo za pomoci adresaru.

Pokud si navic ulozite ta sama data v jpg, pdf, nebo dokonce v cistem textu (po pruchodu OCR - hodi se pro vyhledavani), rozhodne to neuskodi. Jen nemazte originaly.

Textove dokumenty ukladejte v textu. V cistem textu. Tak, aby sly cist, kdyz je otevre vim, less, nebo cat. I kdyby cele IT preslo z ASCII na EBCDIC, tak nekde najdete, jak vypadalo ASCII, nebo to odhadnete, pokud si to nepamatujete z hlavy. Ale to se nestane - neni duvod to menit. V IT se dnes veci nemeni, ale rozsiruji. Diakritiku si domyslite, at uz bude kodovana jakkoliv, pokud budete mit ve stejnem kodovani dostatek textu. UTF-8 vypada, ze tu s nami vydrzi velmi dlouho, takze ho doporucuji pouzivat na vsechno.

Mozna se ptate proc doporucuji tak primitivni pristup?

Predstavte si, ze najdete 5 1/4" disketu z roku 1990 a na ni je napsano neco jako "dulezite dokumenty". Sezenete nekoho, kdo ma nekde v krabici starou disketovou mechaniku, vysajete z ni vysavacem centimetr prachu, pripojite k prehistorickemu pocitaci (nebo naimplementujete FDC na arduinu), zkusite to precist ... a co dal? Data tecou byte za bytem, ale vy nevite, co s nimi. FAT 32 to neni, FAT 16 to neni, FAT 12 jste v encyklopedii nenasli (nebo to je disketa treba z Commodora, pripadne se prvni stopu nepodarilo precist spravne). Na disku mate binarni obraz cehosi.

Pokud v tom je cisty holy ASCII text, tak ho tam najdete snadno. Mate mozek a ten je na tenhle typ uloh staveny - staci tim proscrollovat v textovem editoru, nebo to vypsat na terminal. I pokud to bude rozhazene po cele diskete po jednotlivych sektorech, tak to pravdeporobne dokazete poskladat dohromady. Tak, aby navazovala slova, vety, vyznam, smysl.

Obrazky v bitmapach budou horsi, ale pokud znate sirku, tak muzete cely dump diskety zarovnat na tu sisrku a zobrazit jako jeden hodne vysoky obrazek. A ten nechat velmi rychle scrollovat. Data budou vypadat jako sum, obrazek bude mozna rozbity, mozna posunuty, mozna se zprehazenymi barvami, ale vsimnete si ho. A pak dokazete najit, kde zacina, kde konci a jak patri barvy. Mate mozek, v nem zrakovovu kuru a ta je v tom fakt dobra. Dalo by se rici, ze je na to stavena.

Cokoliv jineho najdete jen za pouziti nastroju napsanych se znalosti formatu dat, ktera hledate. Tedy - takovou znalost potrebujete i tady - z retezce nul a jednicek byste to asi nevykoukali. Ale jestli je bila 255 a cerna 0, nebo naopak je jedno, protoze obrazek uvidite v obou pripadech stejne, jako s prehazenymi barvami. A to, ze A je v ASCII 65 (41 hexa), a je 97 (61 hexa) 0 je 48 (30 hexa) a znaky jdou pekne za sebou - to si pamatuje dost lidi z hlavy. Kolik lidi zna z hlavy format komprimovaneho PNG?

To, ze je dobre drzet filesystem s obrazky nefragmentovany vam asi doslo, ze? Skladat obrazek z kousku vekych 512B, nebo i 4096B bude na dlouho.

Heron avatar 12.1. 23:42 Heron | skóre: 52 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: ako ukladať digitalizované dokumenty?
+1 komplet.

Osobně dokumenty scanuju a nechávám v originální podobě (tiff) + export do png. Pokud je to jeden list, tak dobře pojmenovat soubor, pokud je to více souvisejících stránek, tak napsat README, něco jako tagy na začátek, potom klidně obšírnější povídání o tom co to je a proč to je (tohle dělám tak nějak automaticky, i na serverech zanechávám README s vysvětlením, proč to vzniklo, s odkazem na ticket apod., samotnému mě to několikrát pomohlo, byl tam odkaz do dokumentace atd).

K původnímu dotazu jen snad tohle:
Q1: je dôvod uprednostniť obrázok pred pdf?
Ano je, pdf je komplexnější formát. Osobně u důležitých dat vždy uchovávám originál (raw z foťáku, tiff ze scanneru - ano vím, že tiff je jen kontejner pro mnoho formátů) + export v nějaké podobě. U bitmap preferuju png, ale nemám to nějak příliš důkladně obhájené, ve skutečnosti by bylo nejlepší to uchovat jako farbfeld, tedy tak primitivní, jak jen to může být.
kombinácia predchádzajúcich dvoch. V DB metadáta a odkaz na súbor s blobom.
Ne, nikdy!!! Toto je nejhorší řešení. Pokud už chcete použít DB, tak do ní uložte i ta data. Není nic horšího, než najít metadata a nemít k nim data (někdo udělal dbdump, ale už jaksi zapomněl na adresář). Data patří do DB a to kompletně. Pokud se z nějakého důvodu bojíte o původní soubory, nechte je na disku a navíc je uložte do db. A obecně nedoporučuji používat BLOBy, ale třeba něco jako pg BYTEA, kdy je tento byte array hodnotou stejně jako cokoliv jiného. Tj lze nad tím mít transakce apod.
Jendа avatar 13.1. 10:58 Jendа | skóre: 76 | blog: Výlevníček | JO70FB
Rozbalit Rozbalit vše Re: ako ukladať digitalizované dokumenty?
farbfeld
Do teď mi není jasné, jestli autoři fakt neznali PBM, nebo proč se snažili vytvořit totéž znovu nekompatibilně.
Heron avatar 13.1. 11:28 Heron | skóre: 52 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: ako ukladať digitalizované dokumenty?
Nemůžu mluvit za autory, ale tak se podívej na délku a komplikovanost té specifikace.

U farbfeldu máš 16B dlouhou hlavičku a potom už jen pole pixelů. Snadno se to iteruje přes 8B pixely.

U toho PPM máš ascii formát nebo binary formát, v ascii je povoleno hodně lidové tvořivosti co se týče whitespace a dokonce dva typy komentářů.

Pro který formát se ti bude lépe psát knihovna?
Jendа avatar 13.1. 10:55 Jendа | skóre: 76 | blog: Výlevníček | JO70FB
Rozbalit Rozbalit vše Re: ako ukladať digitalizované dokumenty?
Já bych to tak černě neviděl, dnes jsou věci podstatně rozšířenější než v roce 1990, a s tím i tlak na jejich konzervaci. A navíc na ten disk můžeš nahrát i ten software (ve formě image kompletního OS) -- emulátory x86/amd64 prostě nezmizí. Koneckonců to by fungovalo i tehdy, vždyť dneska máme dokonce webové (!) emulátory, kde v JavaScriptu běží Windows 95 a i ten software pro Commodore. A co se FS týče, FAT32 je tak extrémně konzervovaný (doslova všechna embedded zařízení, UEFI…), že to taky prostě nezmizí. Totéž JPG, PNG… U PDF je potřeba dát si pozor, aby ses neodkazoval na externí fonty atd. - viz formát PDF/A.

No a pak tu ještě je ten faktor, že musíš jednou za pár let ta média fyzicky číst a nahrazovat nečitelná - a během toho uvidíš, jestli digitální formáty nezestárly.
dnes 05:33 Matlák
Rozbalit Rozbalit vše Re: ako ukladať digitalizované dokumenty?
No a pak tu ještě je ten faktor, že musíš jednou za pár let ta média fyzicky číst a nahrazovat nečitelná - a během toho uvidíš, jestli digitální formáty nezestárly.

No mně přišlo že O'o'yam vysloveně cílí na situaci kdy to prostě na to médium nahraješ a necháš to 50 let ležet někde v prachu. Je fakt že k důležitým dokumentům by se tak člověk chovat neměl, ale reálně se to (s papírovými dokumenty) stává..

Jinak souhlasím s tou konzervací formátů a systémů. Záleží vlastně už jen na tom jak "důležité" jsou to dokumenty, jestli je třeba nutné aby to vydrželo jaderný útok, pád velkého asteroidu a podobně :-)
13.1. 18:45 Radovan
Rozbalit Rozbalit vše Re: ako ukladať digitalizované dokumenty?
Hledat na netu nějaký konvertor? Ale ne, prostě si ten program spustíš v emulátoru a soubor normálně otevřeš.

U těch starších používajících jednodušší datové formáty bude užitečné hledat dobovou literaturu, protože třeba struktura souboru VisiCalcu je velmi dobře zdokumentovaná a editovatelná ručně v libovolném textovém editoru. Příklad:
>H15:@SUM(H3...H14)
>G15:@SUM(G3...G14)
>F15:@SUM(F3...F14)
>E15:@SUM(E3...E14)
>D15:@SUM(D3...D14)
>C15:@SUM(C3...C14)
>B15:@SUM(B3...B14)
>A15:/FR"soucet
>H14:@SUM(B14...G14)
>G14:704
>F14:80
>D14:4494
>C14:706
>B14:3344
>A14:1+A13
atd. ...
Pokud chceš skladovat grafická data, vyhnul bych se ztrátové kompresi. A co nejjednodušší uložení dat, nejsnáze rekonstruovatelné mi připadají truecolor a monochromatické bitmapy.
xxxs avatar 13.1. 21:28 xxxs | skóre: 18 | blog: vetvicky
Rozbalit Rozbalit vše Re: ako ukladať digitalizované dokumenty?
"Kolik lidi zna z hlavy format komprimovaneho PNG?"

ten si moze do textatku ulozit tiez.
Pavel 'TIGER' Růžička avatar 13.1. 00:06 Pavel 'TIGER' Růžička | skóre: 49
Rozbalit Rozbalit vše Re: ako ukladať digitalizované dokumenty?
Jak bylo napsáno, není nad jednoduchou adresářovou strukturu a známý formát. Kdyby náhodou nestačila délka souboru, vždycky se může do adresáře hodit i jednoduchý texťák. Odpadá tím jakákoliv správa a údržba databáze.
13.1. 06:40 Peter Golis | skóre: 59 | blog: Bežné záležitosti | Bratislava
Rozbalit Rozbalit vše Re: ako ukladať digitalizované dokumenty?
+1

Akurát mi chýba jedna podstatná vec. Ako zaistiť overenie elektronického dokumentu, to sú už podpisy z eletrických občianok s nekonečne dlhou platnosťou? Bez tejto jednej drobnosti sa jedná len o papier, ktorému sa originál "stratil".
Jendа avatar 13.1. 11:00 Jendа | skóre: 76 | blog: Výlevníček | JO70FB
Rozbalit Rozbalit vše Re: ako ukladať digitalizované dokumenty?
sqlite, ale bloby bych do ní nedával, protože s terabajtovou databází je opruz navíc.

Ale osobně bych preferoval adresářovou strukturu + texťáky.

Zvážil bych par2 pro ochranu před vadnými bloky.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.