Portál AbcLinuxu, 9. srpna 2025 15:41


Digitalizujeme dokumenty

To, že staré věci podléhají zkáze, je známá věc. V případě dokumentů můžeme značně prodloužit jejich životnost digitalizací, o které se dočtete na LinuxFocus.org. Kombinací několika nástrojů podle návodu získáte HTML dokument z papírového časopisu.

18.9.2006 09:38 | Luboš Doležel (Doli) | Zajímavý článek


Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

Komentáře

Nástroje: Začni sledovat (2) ?Zašle upozornění na váš email při vložení nového komentáře. , Tisk

Vložit další komentář

18.9.2006 10:45 xkesh | skóre: 46 | blog: eXtempore
Rozbalit Rozbalit vše Re: Digitalizujeme dokumenty
Odpovědět | Sbalit | Link | Blokovat | Admin
Až na to, že uchování digitalizovaných dokumentů je do budoucna značně nejisté, např. kvůli formátu dat. Představte si nějaký digitalizovaný dokument z doby před cca. 20 lety a řekněte mi, na čem a v čem si ho dnes chcete nechat zobrazit.

Na rozdíl od 2000 let starých "hardcore" dokumentů na papyru a pergamenu (nemluvě o vytesaných kamenech a vypálených hliněných destičkách) bude třeba digitalizované dokumenty pravidelně "předigitalizovávat" z formátu do formátu... aneb kde bude za 10 (20, 30, 40 ... ) let HTML?

Zatím mě vůbec nic nepřesvědčilo, že vytištěný dokument na kvalitním papíru je méně trvanlivější a více podléhající zkáze než dokument v elektronické podobě. Spíše naopak: o papírové dokumenty přicházím jen velmi velmi zřídka, o elektronické poměrně často (nemít několikanásobné zálohy těch nejdůležitějších, dopadnu jak alexandrijská knihovna).

Právě kvůli digitalizaci lidského vědění mám spíš obavu, že může v budoucnosti nastat jakýsi blackout - naprostá většina korespondence, obsahu webových stránek, hudby... prostě za 100 let nebude použitelná a jednoduše zmizí. Zůstanou jen knihy a papírová akta... pokud budou.
18.9.2006 11:54 D-Evil | skóre: 25 | Praha
Rozbalit Rozbalit vše Re: Digitalizujeme dokumenty
Neni to tak dávno, kdy o týhle problematice běžel dokument na ČT2. Problémy jsou v zásadě dva - morální (tj. kdy bude ještě možný sehnat a bez problémů provozovat nástroje na "dekódování") a technická (tj. kdy dojde k nevratnýmu poškození média a záznamu na něm) trvanlivost média a záznamu a způsob, jak zaručit, že další generace obsah rozluštěj.

Ten druhej problém se dá vyřešit celkem snadno, k obsahu se přiloží i nástroj nebo návod na "dekódování".

S tim prvním jsou ale velký trable. Předigitalizování je jen jedna z mnoha starostí archivů. Aktuálně musej archivy uchovávat funkční všechny nástroje, který jsou potřeba k "dekódování" celýho archivu. To samozřejmě zabere místo a něco stojí i udržet všechny tyhle hračky v provozu. Navíc i u dnes zcela běžnejch médií je potřeba provádět nějakej udržovací proces a ani to neni úplně levná a snadná záležitost. Papír z toho vychází možná i řádově nejlíp, ale bohužel pojme málo dat a archivy nejsou nafukovací.
18.9.2006 12:19 Filip Jirsák | skóre: 68 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Digitalizujeme dokumenty
Zrovna uchování nástroje na dekódování mi nepřipadá tak snadné. Např. spousta dokumentů je ve formátu DOC nebo PDF, a pak uchovat nástroj na dekódování znamená uchovat nainstalovnaý počítač s Windows a Wordem nebo WordViewerem, možná by šla jako alternativa OOo. Protože nepochybuju o tom, že na Windows 2020 dnešní Word nainstalovat nepůjde, a dnešní Windows nepůjdou nainstalovat na počítač za deset let.

S formátem postaveným na XML nebo s HTML by naopak nemusel být problém, protože dokud budeme používat ASCII, je takový formát bez problémů dekódovatelný (když se lidem podařilo rozluštit hieroglyfy, tak rozluštit, proč jsou tam ty zobáčky a jak dekódovat znaky s diakritikou nebude problém). Použitelný by mohl být i Open Document Format, tam ale vedle znalosti ASCII je potřeba ještě znalost algoritmu ZIP.
18.9.2006 12:33 D-Evil | skóre: 25 | Praha
Rozbalit Rozbalit vše Re: Digitalizujeme dokumenty
Abych pravdu řek, nemyslim si, že by archivy uchovávaly dokumenty v proprietárních formátech, u nichž je dopředu jasný, že za 20 let si je na současnym vybavení neprohlídnou. Nicméně pravda je taková, že ten počítač opravdu ve většině případů maj, stejně jako maj promítačky diapozitivů, gramofony, Enigmu, C 64, první Macintoshe a podobný skvosty.
18.9.2006 13:12 Filip Jirsák | skóre: 68 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Digitalizujeme dokumenty
Určitě proprietární formáty neuchovávají rády. Ale myslíte, že drtivou většinu dokumentů (např. od státní správy), dostanou v něčem jiném? Článek odkazovaný ze zprávičky sice odkazuje na způsob, jak převést skenovaný dokument do HTML, ale obávám se, že to bude poměrně nespolehlivá metoda. Archiv si nemůže dovolit "nějak" přesypat dokument z DOC do něčeho jiného s tím, že se jim rozpadnou tabulky, obrázky, špatně udělané formátování…
18.9.2006 12:39 D-Evil | skóre: 25 | Praha
Rozbalit Rozbalit vše Re: Digitalizujeme dokumenty
Navíc jak už řikal xkesh, dokumenty v nevyhovujících formátech (ať už jde o formát dokumentu jako takovýho, nebo médium, na kterym je dokument uloženej) se, pokud je to možný, časem převáděj do vhodnější podoby. Je totiž naprosto zbytečný uchovávat třeba čistej text na osmipalcový disketě, když si ho stejně dobře můžeme prohlídnout třeba na DVD.
18.9.2006 13:32 Michal Vyskočil | skóre: 60 | blog: miblog | Praha
Rozbalit Rozbalit vše Re: Digitalizujeme dokumenty
Ono je to daleko složitější. Vezmi si jenom problém s tím, na co bys to uložil. Na harddisk? Časem se odmagnetuje, nebo porouchá firmware. Na (nějaké extra trvanlivé) DVD? Jak z něj poznat potřebnou vlnovou délku pro čtení? Jak poznat směr, kterým se to má číst? Jak zjistit, co vlastně označuje takový pit? Jak přijít na to, co je kontrolní součet a co jsou užitečná data? Jak jsou data na disku organizována logicky? Co jsou interní struktury filesystému a co znamenají a co jsou soubory? Jak namapovat binární čísla na znaky, protože my sice známe ASCII, ale budou je znát i v budoucnu? Těch možností je až nechutně mnoho.

Bez nějaké moderní obdoby Rosetské desky jsou data na dnešních elektronických médiích prakticky nerozluštitelná. Ovšem v tom odkazovaném dokumentu nic podobného neukázali.
When your hammer is C++, everything begins to look like a thumb.
msk avatar 18.9.2006 14:02 msk | skóre: 27 | blog: msk
Rozbalit Rozbalit vše Re: Digitalizujeme dokumenty
Ono je samozrejme otazka, co chceme s tym mediom spravit. Pokial ho planujeme zakopat na 500 rokov pod zem, je tato teoria spravna. Pokial ho ale mame archivovat v nejakom archive, o ktory sa staraju ludia nepretrzite, nie je problem v pripade dosluhujucej technologie zaznamy previest na iny format. Napriklad velku zbierku CD-ROM narvat na BlueRay. A o 20 rokov na RedRay, o dalsich 20 na YellowRay a tak dalej. Bude to administrativne narocnejsie, ale stale lepsie, ako skladovat tony papiera :o)
18.9.2006 15:06 Hynek (Pichi) Vychodil | skóre: 43 | blog: Pichi | Brno
Rozbalit Rozbalit vše Re: Digitalizujeme dokumenty
Snad BlueRay->UltraVioletRay->GammaRay ne? RedRay by byl pěkný krok zpět.
XML je zbytečný, pomalý, nešikovný balast, znovu vynalézané kolo a ještě ke všemu šišaté, těžké a kýčovitě pomalované.
18.9.2006 20:52 jozka | skóre: 19 | blog: jozkovo
Rozbalit Rozbalit vše Re: Digitalizujeme dokumenty
Ale GammaRay uz existuje...
A je to narez!
:-D
Stanislav Brabec avatar 18.9.2006 14:58 Stanislav Brabec | skóre: 45 | Praha
Rozbalit Rozbalit vše Re: Digitalizujeme dokumenty
Kódování na CD-ROM/DVD podléhá vkládání samoopravných kódů, prokládání, dalšímu vkládání samoopravných kódů, dalšímu prokládání a dalšímu vkládání samoopravných kódů a sektorových synchronizačních značek. To znamená, že jediný bajt je doslova promixován s tisíci dalšími. CD existují miliardy, ale přesný popis toho, jak se toto dělá, existuje pouze v pár tisících kopiích ve firemních archivech.

Pak teprve následuje dešifrování souborového systému a při troše štěstí jen dešifrování ASCII. Při menším štěstí dekódovní obrázku, v horším případě dekomprese.

V nejhorším případě jsou data skryta pod nějakým proprietárním formátem, nebo ještě hůře s DRM, a dostat je z média bez další podpory je nemožné.

Koneckonců, může to dopadnout tak, že budoucí archeologové budou psát: Ve vrstvě z postmoderní doby nalézáme obrovské množství kultovních předmětů ve tvaru duhově lesklých kotoučků s otvorem uprostřed. A nebo také: Okultisté věří, že tyto předměty obsahují záznam zvuků, obrazů a veškerého vědění tehdejší doby, které je možné za zvláštních okolností z kotoučků vyvolat. Návod k jejich vyvolání je prý uložen v tzv. Barevných knihách. Několik výtisků se údajně zachovalo až do dnešních časů.
18.9.2006 15:02 Michal Vyskočil | skóre: 60 | blog: miblog | Praha
Rozbalit Rozbalit vše Re: Digitalizujeme dokumenty
Však o tom jsem psal. Bez Rosetské desky (Rosetského DVD) je šance, že někdo za pár desítek (stovek) let dnešní elektronické záznamy přečte, nepatrná.
When your hammer is C++, everything begins to look like a thumb.
Stanislav Brabec avatar 18.9.2006 16:38 Stanislav Brabec | skóre: 45 | Praha
Rozbalit Rozbalit vše Re: Digitalizujeme dokumenty
Nejsem si jist, zda ani s Rosetskou DVD to není příliš velké sousto.

Představte si stejný text na papíře a na CD. Bajty jednoho znaku s jeho samoopravnými kódy jsou rozprostřeny mezi desítky tisíc dalších. Jak výkonnou technologii bude potřeba na nalezení správné kombinace? A jak dlouhý musí být takový text?

Nebo že stejný film někdo nalezne na 35mm pásu a na DVD. Myslíte si, že to bude na dešifrování technologie DVD stačit? Již dnes, s veškerými v současnosti veřejně dostupnými informacemi můžeme být rádi, že dokážeme zlomit proprietární CSS klíče (a to ještě ne vždy). A to k celému zbytku technologie máme přístup!

Jediné, co budoucím generacím umožní přečíst CD/DVD, jsou právě ony zmíněné Barevné knihy. Jenže dnešní doba je posedlá různýmí proprietárními technologiemi. A i když licence na technologický popis CD/DVD je tzv. nediskriminační, Barevné knihy za 9000$ (a podpis NDA) má asi málokdo v knihovně a jejich budoucí nález bude přinejmenším nesmírně vzácný.
18.9.2006 14:59 D-Evil | skóre: 25 | Praha
Rozbalit Rozbalit vše Re: Digitalizujeme dokumenty
To je pravda a moderní obdoba se dokonce řeší. Jak už padlo o kousek níž, rozdíl je v tom, jakym způsobem ty data chceme archivovat. Zakopat do země DVD asi opravdu nemá smysl.
18.9.2006 16:02 PSIkappa
Rozbalit Rozbalit vše Re: Digitalizujeme dokumenty
Knihovny zasadne bezia na mikrofilmoch a mikroficheoch a dokonca nad tym maju postavene cele informacne systemy, s vyhladavanim podla roznych kriterii ci uz katalogove alebo indexove.
18.9.2006 13:59 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Digitalizujeme dokumenty
Odpovědět | Sbalit | Link | Blokovat | Admin
Převádět papírové dokumenty do HTML je práce hodná úchyla, sám jsem to dřív dělal. Pro takové věci je tisíckrát lepší použít DjVu - viz Linux, OCR a DjVu dokumenty.

Jinak pokud jde o můj pohled na vztah papírových a elektronických dokumentů viz zápis - Patří papírové dokumenty do starého železa?

Založit nové vláknoNahoru


ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.