abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
dnes 04:00 | Komunita

S ukončením podpory Windows 7 spustila Nadace pro svobodný software (FSF) kampaň Upcycle Windows 7 s peticí žádající Microsoft, aby zveřejnil zdrojové kódy tohoto již nepodporovaného operačního systému pod svobodnou licencí. S uvedením Windows 7 v roce 2009 byla spuštěna kampaň Windows 7 Sins.

Ladislav Hagara | Komentářů: 4
dnes 03:00 | Komunita

Sedmý ročník největší české konference o redakčním systému WordPress WordCamp Praha 2020 se uskuteční v sobotu 29. února v pražském Cubex Centru na Pankráci. Na účastníky letos čekají tři tracky přednášek českých i zahraničních řečníků, několik workshopů, případových studií a samozřejmě i Happiness bar, kam se můžete přijít poradit s odborníky. Je to také ideální příležitost potkat stovky dalších WordPress nadšenců i profesionálů.

… více »
smíťa | Komentářů: 0
dnes 02:00 | IT novinky

Společnost Proton Technologies stojící za virtuální privátní sítí ProtonVPN otevřela všechny aplikace ProtonVPN pod licenci GPLv3. Současně oznámila, že tyto aplikace prošly bezpečnostním auditem. Také díky spolupráci s organizací Mozilla.

Fair | Komentářů: 0
včera 04:00 | Komunita

Na Youtube byl zveřejněn videozáznam jednání odvolacího soudu ve sporu Grsecurity (Open Source Security) vs. Bruce Perens [reddit].

Ladislav Hagara | Komentářů: 5
včera 03:00 | Komunita

Byl vyhlášen vítězný wallpaper soutěže o nejlepší wallpaper pro KDE Plasmu LTS 5.18. Vítězným a tedy výchozím wallpaperem je Volna. Autor wallpaperu Nikita Babin získává notebook od TUXEDO Computers.

Ladislav Hagara | Komentářů: 12
včera 02:00 | Nová verze

Nová verze ODF 1.3 (Open Document Format), výchozího formátu dokumentů LibreOffice, byla schválena standardizační komisí OASIS. Mezi novinky ve formátu patří digitální podpis a XML šifrování dokumentů založené na OpenPGP, plus několik vylepšení funkcí již dostupných v ODF 1.2, jako jsou nové typy regresních křivek pro grafy, nová specifikace počtu desetinných míst ve formátování čísel, speciální styl záhlaví/zápatí pro první

… více »
Zdeněk Crhonek | Komentářů: 0
24.1. 09:00 | Komunita

V Brně na FIT VUT probíhá DevConf.CZ 2020, již dvanáctý ročník jedné z největších akcí zaměřených na Linux a open source ve střední Evropě. Na programu je celá řada zajímavých přednášek a workshopů. Aktuální dění lze sledovat například na Twitteru.

Ladislav Hagara | Komentářů: 0
23.1. 23:44 | Komunita

Společnost Psyonix, v květnu 2019 koupena společností Epic Games, oznámila konec podpory počítačové hry Rocket League na Linuxu a macOS. Poslední aktualizace pro tyto operační systémy vyjde v březnu a odstraní možnost hrát tento automobilový fotbal online.

Ladislav Hagara | Komentářů: 12
23.1. 14:33 | Zajímavý článek

Nová čísla časopisů od nakladatelství Raspberry Pi: MagPi 89 (pdf), HackSpace 26 (pdf) a 27 (pdf) a Wireframe 28 (pdf), 29 (pdf) a 30 (pdf).

Ladislav Hagara | Komentářů: 0
23.1. 14:11 | Nová verze

Byla vydána nová verze 12.7 open source alternativy GitHubu, tj. softwarového nástroje s webovým rozhraním umožňujícího spolupráci na zdrojových kódech, GitLab (Wikipedie). Představení nových vlastností v příspěvku na blogu.

Ladislav Hagara | Komentářů: 3
Zdají se vám sny s IT tématikou?
 (9%)
 (1%)
 (13%)
 (17%)
 (54%)
 (7%)
Celkem 269 hlasů
 Komentářů: 10, poslední 18.1. 16:18
Rozcestník

www.AutoDoc.Cz

Dotaz: ako ukladať digitalizované dokumenty?

12.1. 21:20 rastos | skóre: 61 | blog: rastos
ako ukladať digitalizované dokumenty?
Přečteno: 402×

Doma sa mi za roky nahromadili najrôznejšie papierové dokumenty. Mám v úmysle zbaviť sa ich a previesť ich do digitálnej podoby - a napísať si na to vlastnú aplikáciu. V jave. S možnosťou dokumenty otagovať, priradiť dátum, poznámku, nanovo vytlačiť, vyhľadávať, ...

Chcel by som od vás počuť názory na to, ako ukladať oskenované dokumenty:

  • Q1: je dôvod uprednostniť obrázok pred pdf?
  • Q2: kam ukladať oskenované dokumenty? Viem si predstaviť nasledovné možnosti:
    • čo dokument to súbor
    • embeded databáza - derby/h2/...
    • kombinácia predchádzajúcich dvoch. V DB metadáta a odkaz na súbor s blobom.
    • SQL server (postgres/mysql/...)

Ten SQL server mi príde najhorší lebo chcem, aby bolo jednoduché tie dáta zálohovať a presúvať. A to aj pre členov rodiny, ktorí nie sú IT zdatní. Mať niekde SQL server a raz za 5 rokov znova objavovať ako sa to backupuje, upgraduje, ... to ma nenadchýňa. Pri upgrade embeded databázy, ku ktorému rokmi dôjde, by som tiež chcel čo najjednoduchší priebeh.

Máte nejaké rady?

Odpovědi

12.1. 23:16 O'o'yam
Rozbalit Rozbalit vše Re: ako ukladať digitalizované dokumenty?
Dokumenty o ktere nechcete prijit je nejlepsi ukladat ve formatech, na ktere budete mit ctecku i za nekolik desetileti. Predstavte si, ze dnes najdete nejake dokumenty v AmiPro, C602, nebo v T602 (a z te ten text nakonec dostanete) - co s nimi? Leda hledat na netu nejaky konvertor.

Pokud se chcete chranit pouze proti tomu, ze za 10 az 40 let nebude jak dokumenty otevrit, muzete asi pouzit jpg, nebo pdf. V techto formatech je dnes tolik dokumentu, ze by ctecky nemely zmizet velmi dlouho. Databazi nedoporucuji. Pouzijte nejaky obycejny a jednoduchy a velmi rozsireny souborovy system a dejte je do adresaru.

Obrazek zabaleny v pdf a to ulozene v databazi je uzasne reseni az do okamziku, kdy prohlizec pdf prestane podporovat 30 let starou verzi jpg, protoze tu uz preci nikdo nepouziva, nebo ulozena data z databaze nedokaze nacist verze o 15 novejsi.

Disky jsou dneska levne. 4TB poridite za 5000, kdyz koupite nejlevnejsi WD a nejlevnejsi Seagate a date je do mirroru (stejne disky ze stejne serie casto odchazi ve stejnou dobu - na to take nechcete prijit tim tezsim zpusobem).

Takze ja osobne bych scannoval do pnm (nebo do jineho uplne cisteho bitmapoveho formatu, ktery dokazete popsat z hlavy za 2 minuty a naimplementovat ctecku v libovolnem programovacim jazyce za nekolik malo hodin). Vubec bych je nekomprimoval a idealne bych plytval mistem jeste vic tak, ze bych si zvolil beznou sirku obrazku (napriklad na celou sirku scanneru) a v te bych mel co nejvic obrazku a ostatni v jejich celociselnych nasobcich. Strankovani vyreste ve jmene souboru, nebo za pomoci adresaru.

Pokud si navic ulozite ta sama data v jpg, pdf, nebo dokonce v cistem textu (po pruchodu OCR - hodi se pro vyhledavani), rozhodne to neuskodi. Jen nemazte originaly.

Textove dokumenty ukladejte v textu. V cistem textu. Tak, aby sly cist, kdyz je otevre vim, less, nebo cat. I kdyby cele IT preslo z ASCII na EBCDIC, tak nekde najdete, jak vypadalo ASCII, nebo to odhadnete, pokud si to nepamatujete z hlavy. Ale to se nestane - neni duvod to menit. V IT se dnes veci nemeni, ale rozsiruji. Diakritiku si domyslite, at uz bude kodovana jakkoliv, pokud budete mit ve stejnem kodovani dostatek textu. UTF-8 vypada, ze tu s nami vydrzi velmi dlouho, takze ho doporucuji pouzivat na vsechno.

Mozna se ptate proc doporucuji tak primitivni pristup?

Predstavte si, ze najdete 5 1/4" disketu z roku 1990 a na ni je napsano neco jako "dulezite dokumenty". Sezenete nekoho, kdo ma nekde v krabici starou disketovou mechaniku, vysajete z ni vysavacem centimetr prachu, pripojite k prehistorickemu pocitaci (nebo naimplementujete FDC na arduinu), zkusite to precist ... a co dal? Data tecou byte za bytem, ale vy nevite, co s nimi. FAT 32 to neni, FAT 16 to neni, FAT 12 jste v encyklopedii nenasli (nebo to je disketa treba z Commodora, pripadne se prvni stopu nepodarilo precist spravne). Na disku mate binarni obraz cehosi.

Pokud v tom je cisty holy ASCII text, tak ho tam najdete snadno. Mate mozek a ten je na tenhle typ uloh staveny - staci tim proscrollovat v textovem editoru, nebo to vypsat na terminal. I pokud to bude rozhazene po cele diskete po jednotlivych sektorech, tak to pravdeporobne dokazete poskladat dohromady. Tak, aby navazovala slova, vety, vyznam, smysl.

Obrazky v bitmapach budou horsi, ale pokud znate sirku, tak muzete cely dump diskety zarovnat na tu sisrku a zobrazit jako jeden hodne vysoky obrazek. A ten nechat velmi rychle scrollovat. Data budou vypadat jako sum, obrazek bude mozna rozbity, mozna posunuty, mozna se zprehazenymi barvami, ale vsimnete si ho. A pak dokazete najit, kde zacina, kde konci a jak patri barvy. Mate mozek, v nem zrakovovu kuru a ta je v tom fakt dobra. Dalo by se rici, ze je na to stavena.

Cokoliv jineho najdete jen za pouziti nastroju napsanych se znalosti formatu dat, ktera hledate. Tedy - takovou znalost potrebujete i tady - z retezce nul a jednicek byste to asi nevykoukali. Ale jestli je bila 255 a cerna 0, nebo naopak je jedno, protoze obrazek uvidite v obou pripadech stejne, jako s prehazenymi barvami. A to, ze A je v ASCII 65 (41 hexa), a je 97 (61 hexa) 0 je 48 (30 hexa) a znaky jdou pekne za sebou - to si pamatuje dost lidi z hlavy. Kolik lidi zna z hlavy format komprimovaneho PNG?

To, ze je dobre drzet filesystem s obrazky nefragmentovany vam asi doslo, ze? Skladat obrazek z kousku vekych 512B, nebo i 4096B bude na dlouho.

Heron avatar 12.1. 23:42 Heron | skóre: 52 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: ako ukladať digitalizované dokumenty?
+1 komplet.

Osobně dokumenty scanuju a nechávám v originální podobě (tiff) + export do png. Pokud je to jeden list, tak dobře pojmenovat soubor, pokud je to více souvisejících stránek, tak napsat README, něco jako tagy na začátek, potom klidně obšírnější povídání o tom co to je a proč to je (tohle dělám tak nějak automaticky, i na serverech zanechávám README s vysvětlením, proč to vzniklo, s odkazem na ticket apod., samotnému mě to několikrát pomohlo, byl tam odkaz do dokumentace atd).

K původnímu dotazu jen snad tohle:
Q1: je dôvod uprednostniť obrázok pred pdf?
Ano je, pdf je komplexnější formát. Osobně u důležitých dat vždy uchovávám originál (raw z foťáku, tiff ze scanneru - ano vím, že tiff je jen kontejner pro mnoho formátů) + export v nějaké podobě. U bitmap preferuju png, ale nemám to nějak příliš důkladně obhájené, ve skutečnosti by bylo nejlepší to uchovat jako farbfeld, tedy tak primitivní, jak jen to může být.
kombinácia predchádzajúcich dvoch. V DB metadáta a odkaz na súbor s blobom.
Ne, nikdy!!! Toto je nejhorší řešení. Pokud už chcete použít DB, tak do ní uložte i ta data. Není nic horšího, než najít metadata a nemít k nim data (někdo udělal dbdump, ale už jaksi zapomněl na adresář). Data patří do DB a to kompletně. Pokud se z nějakého důvodu bojíte o původní soubory, nechte je na disku a navíc je uložte do db. A obecně nedoporučuji používat BLOBy, ale třeba něco jako pg BYTEA, kdy je tento byte array hodnotou stejně jako cokoliv jiného. Tj lze nad tím mít transakce apod.
Jendа avatar 13.1. 10:58 Jendа | skóre: 76 | blog: Výlevníček | JO70FB
Rozbalit Rozbalit vše Re: ako ukladať digitalizované dokumenty?
farbfeld
Do teď mi není jasné, jestli autoři fakt neznali PBM, nebo proč se snažili vytvořit totéž znovu nekompatibilně.
Heron avatar 13.1. 11:28 Heron | skóre: 52 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: ako ukladať digitalizované dokumenty?
Nemůžu mluvit za autory, ale tak se podívej na délku a komplikovanost té specifikace.

U farbfeldu máš 16B dlouhou hlavičku a potom už jen pole pixelů. Snadno se to iteruje přes 8B pixely.

U toho PPM máš ascii formát nebo binary formát, v ascii je povoleno hodně lidové tvořivosti co se týče whitespace a dokonce dva typy komentářů.

Pro který formát se ti bude lépe psát knihovna?
Jendа avatar 13.1. 10:55 Jendа | skóre: 76 | blog: Výlevníček | JO70FB
Rozbalit Rozbalit vše Re: ako ukladať digitalizované dokumenty?
Já bych to tak černě neviděl, dnes jsou věci podstatně rozšířenější než v roce 1990, a s tím i tlak na jejich konzervaci. A navíc na ten disk můžeš nahrát i ten software (ve formě image kompletního OS) -- emulátory x86/amd64 prostě nezmizí. Koneckonců to by fungovalo i tehdy, vždyť dneska máme dokonce webové (!) emulátory, kde v JavaScriptu běží Windows 95 a i ten software pro Commodore. A co se FS týče, FAT32 je tak extrémně konzervovaný (doslova všechna embedded zařízení, UEFI…), že to taky prostě nezmizí. Totéž JPG, PNG… U PDF je potřeba dát si pozor, aby ses neodkazoval na externí fonty atd. - viz formát PDF/A.

No a pak tu ještě je ten faktor, že musíš jednou za pár let ta média fyzicky číst a nahrazovat nečitelná - a během toho uvidíš, jestli digitální formáty nezestárly.
23.1. 05:33 Matlák
Rozbalit Rozbalit vše Re: ako ukladať digitalizované dokumenty?
No a pak tu ještě je ten faktor, že musíš jednou za pár let ta média fyzicky číst a nahrazovat nečitelná - a během toho uvidíš, jestli digitální formáty nezestárly.

No mně přišlo že O'o'yam vysloveně cílí na situaci kdy to prostě na to médium nahraješ a necháš to 50 let ležet někde v prachu. Je fakt že k důležitým dokumentům by se tak člověk chovat neměl, ale reálně se to (s papírovými dokumenty) stává..

Jinak souhlasím s tou konzervací formátů a systémů. Záleží vlastně už jen na tom jak "důležité" jsou to dokumenty, jestli je třeba nutné aby to vydrželo jaderný útok, pád velkého asteroidu a podobně :-)
13.1. 18:45 Radovan
Rozbalit Rozbalit vše Re: ako ukladať digitalizované dokumenty?
Hledat na netu nějaký konvertor? Ale ne, prostě si ten program spustíš v emulátoru a soubor normálně otevřeš.

U těch starších používajících jednodušší datové formáty bude užitečné hledat dobovou literaturu, protože třeba struktura souboru VisiCalcu je velmi dobře zdokumentovaná a editovatelná ručně v libovolném textovém editoru. Příklad:
>H15:@SUM(H3...H14)
>G15:@SUM(G3...G14)
>F15:@SUM(F3...F14)
>E15:@SUM(E3...E14)
>D15:@SUM(D3...D14)
>C15:@SUM(C3...C14)
>B15:@SUM(B3...B14)
>A15:/FR"soucet
>H14:@SUM(B14...G14)
>G14:704
>F14:80
>D14:4494
>C14:706
>B14:3344
>A14:1+A13
atd. ...
Pokud chceš skladovat grafická data, vyhnul bych se ztrátové kompresi. A co nejjednodušší uložení dat, nejsnáze rekonstruovatelné mi připadají truecolor a monochromatické bitmapy.
xxxs avatar 13.1. 21:28 xxxs | skóre: 18 | blog: vetvicky
Rozbalit Rozbalit vše Re: ako ukladať digitalizované dokumenty?
"Kolik lidi zna z hlavy format komprimovaneho PNG?"

ten si moze do textatku ulozit tiez.
Pavel 'TIGER' Růžička avatar 13.1. 00:06 Pavel 'TIGER' Růžička | skóre: 49
Rozbalit Rozbalit vše Re: ako ukladať digitalizované dokumenty?
Jak bylo napsáno, není nad jednoduchou adresářovou strukturu a známý formát. Kdyby náhodou nestačila délka souboru, vždycky se může do adresáře hodit i jednoduchý texťák. Odpadá tím jakákoliv správa a údržba databáze.
13.1. 06:40 Peter Golis | skóre: 59 | blog: Bežné záležitosti | Bratislava
Rozbalit Rozbalit vše Re: ako ukladať digitalizované dokumenty?
+1

Akurát mi chýba jedna podstatná vec. Ako zaistiť overenie elektronického dokumentu, to sú už podpisy z eletrických občianok s nekonečne dlhou platnosťou? Bez tejto jednej drobnosti sa jedná len o papier, ktorému sa originál "stratil".
Jendа avatar 13.1. 11:00 Jendа | skóre: 76 | blog: Výlevníček | JO70FB
Rozbalit Rozbalit vše Re: ako ukladať digitalizované dokumenty?
sqlite, ale bloby bych do ní nedával, protože s terabajtovou databází je opruz navíc.

Ale osobně bych preferoval adresářovou strukturu + texťáky.

Zvážil bych par2 pro ochranu před vadnými bloky.
včera 13:23 Filip Jirsák | skóre: 67 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: ako ukladať digitalizované dokumenty?
Není důvod upřednostnit obrázek před PDF, naopak. PDF má speciální variantu PDF/A, což je podmnožina PDF určená pro dlouhodobou archivaci. Prohlížeče pro PDF/A dokumenty budou existovat i za desítky let, protože je budou potřebovat státní instituce, velké firmy, archivy.

Určitě je dobré mít samotné PDF uložené jako soubory na disku, asi v nějaké adresářové struktuře – minimálně třeba podle roků. S těmi soubory si pak můžete dělat, co chcete – rozkopírovat je na několik disků, uložit na NAS, do Dropboxu, na Google Drive, do S3… Vedle toho je dobré mít k souborům metadata. Dají se nacpat do toho PDF, dokone můžete mít v PDF vložený soubor jako přílohu, ale osobně bych to tak nedělal. Ukládal bych metadata do samostatného souboru – ke každému PDF souboru jeden soubor s metadaty, název odvozený od názvu souboru s PDF (takže třeba A12346.pdf + A123456.xml). Pak ta metadata můžete snadno udržovat v libovolném textovém editoru (pokud to bude nějaký textový formát, třeba XML), můžete je archivovat spolu s těmi PDF dokumenty, ale můžete mít metadata i zvlášť (např. PDF uložíte do Amazon Glacier, protože k nim nebudete přistupovat často, ale metadata budete mít někde v Gitu).

Teprve nad těmi metadatovými soubory bych si udělal nějaký index a vyhledávač, nejspíš nějakou NoSQL databázi – třeba Elastic nebo Solr, případně nějakou XML databázi, pokud pro metadata použijete XML.

V případě uložených souborů nemusíte řešit, jak něco upgradovat, zálohují se také snadno – a kdybyste přišel o ten index, snadno si ho z těch zdrojových metadatových souborů postavíte snadno. Navíc v nich těch dat nebude tolik, takže by to v případě nutnosti zvládl i grep bez nějakých indexů.
včera 21:30 rastos | skóre: 61 | blog: rastos
Rozbalit Rozbalit vše Re: ako ukladať digitalizované dokumenty?
Tvoja odpoveď je najbližšie k tomu, čo som očakával. A znie to celkom rozumne. Ďakujem.
včera 16:01
Rozbalit Rozbalit vše Re: ako ukladať digitalizované dokumenty?
Pokud jsi schopný vymyslet systém, který dokáže domácí důležité převedené digitální dokumenty spravovat, tak určitě zvládeš vymyslet i systém, jak uchovávat ty originální papírové dokumenty. Krabice, tvrdý papír s nadpisem mezi dokumenty, obálky... co já vím. Každopádně za 40 let to dokáže přečíst každý, kdo bude umět číst, a to i tehdy, když vypnou proud.
Jendа avatar včera 17:37 Jendа | skóre: 76 | blog: Výlevníček | JO70FB
Rozbalit Rozbalit vše Re: ako ukladať digitalizované dokumenty?
A pak přijde požár nebo voda a je po papírových dokumentech.
včera 21:39 rastos | skóre: 61 | blog: rastos
Rozbalit Rozbalit vše Re: ako ukladať digitalizované dokumenty?
Nielen to, ale hlavný problém, ktorý sa snažím vyriešiť, že ten objem, vo fyzikálnom zmysle, neúmerne narastá. Je mnoho papierov, ktoré by človek nepovažoval za dôležité, ale potom náhodou chce ísť do dôchodku a sociálna poisťovňa sa nevinne spýta, či neviem predložiť výplatné pásky spred 30 rokov. Alebo zdravotná poisťovňa povie, že som od dátumu X po dátum X+3 pred 15 rokmi neplatil poistné, alebo mi ukradnú 5-ročný laptop a polícia sa ma opýta, či nemám pôvodný bloček o zaplatení, alebo cyklokompjutru dôjde batéria a treba znova zistiť, ako tomu nastaviť čas a polomer ;-) V elektronickej podobe, to nie je veľký objem a v prípade potreby ten papier môžem vyrobiť znovu.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.