Full-textové prohledávání komiksů a jiných obrázků

V bitmapových obrázcích bývají často ukrytá užitečná data, která jsou ovšem běžně nepřístupná. V článku Full-textové prohledávání komiksů a jiných obrázků (dostupné přes Tor) autor prakticky ukazuje, jak si postahovat komiksy a rozpoznat v nich text pomocí OCR nástroje Tesseract. Následně Ghostscriptem vkládá všechny komiksy do jednoho velkého PDF, ve kterém jde vyhledávat text (který byl původně jen shlukem grafických bodů v bitmapách). Uvedený postup lze použít i k užitečnějším věcem, jako např. indexování nestrukturovaných dat na disku.

Komentáře

0) Hm, to abych si udělal nějaké automatické proxování do .onion, protože kdo to má furt ručně přepínat.

1) Podařilo se vám někomu OCRkovat SMBC Comics? Tesseract s defaultními parametry dává ten jeho „rukopis“ jenom někdy. Asi by bylo dobré ho zkusit nějak dotrénovat.

2) Spíš než PDF by pak bylo hezké dělat z toho nějakou skutečnou fulltextovou DB.

3) Stejně jako na Rootu, dávám odkaz na svůj podobný návod.

23.3.2019 23:31 Monika Kokešová | skóre: 4 | blog: Kokeshka
Rozbalit Rozbalit vše Re: Full-textové prohledávání komixů a jiných obrázků

Hm, to abych si udělal nějaké automatické proxování do .onion, protože kdo to má furt ručně přepínat.

My tedy používáme dva prohlížeče nebo samostatné virtuálky, ale můžeš si na to udělat PAC soubor, který ti bude vybírat proxy podle domény - je to vlastně jen kousek javaskriptu...

25.3.2019 10:18 jiwopene | skóre: 31 | blog: Od každého trochu…
Rozbalit Rozbalit vše Re: Full-textové prohledávání komixů a jiných obrázků

ad 0)

To, že používám tor pořád jsem zjistil asi po měsíci, když jsem klikl na odkaz na *.onion.

.sig virus 3.2_cz: Prosím, okopírujte tento text do vaší patičky.

Strc si tu agitaci za TOR za klobouk

25.3.2019 02:56 Roman
Rozbalit Rozbalit vše Re: Full-textové prohledávání komiksů a jiných obrázků

jednou bude Tor svobodnejsi a pouzitelnejsi nez mainstream internet...

25.3.2019 03:17 debian+
Rozbalit Rozbalit vše Re: Full-textové prohledávání komiksů a jiných obrázků

viz toto abys vedel co me vytaci.

25.3.2019 06:03 posajdoasjdo
Rozbalit Rozbalit vše Re: Full-textové prohledávání komiksů a jiných obrázků

to je lokalni adresa...

25.3.2019 06:05 debian+
Rozbalit Rozbalit vše Re: Full-textové prohledávání komiksů a jiných obrázků

Ty jsi genius! Hlavne to rozbiji myslenku hypertextu.

25.3.2019 12:37 jsoaidjoi
Rozbalit Rozbalit vše Re: Full-textové prohledávání komiksů a jiných obrázků

co se nám básník snaží říci?

25.3.2019 13:16 jsoaidjoi
Rozbalit Rozbalit vše Re: Full-textové prohledávání komiksů a jiných obrázků

nesnaží, už to řekl.

25.3.2019 20:30 asdasdasd
Rozbalit Rozbalit vše Re: Full-textové prohledávání komiksů a jiných obrázků

jakoze odkazal na adresu, ktera podle standardu neni pristupna z internetu a pak si stezuje, ze to je chyba v navrhu internetu? tak to jo :-D

25.3.2019 18:34 Monika Kokešová | skóre: 4 | blog: Kokeshka
Rozbalit Rozbalit vše Re: Full-textové prohledávání komiksů a jiných obrázků

A když třeba některé stránky nejsou dostupné z čínských sítí, tak si taky budeš stěžovat u těch, kdo na ně odkazují? Chápu, že Tor nebo třeba alternativní TLD jsou pro některé lidi novinka nebo o nich dokonce ještě neslyšeli, ale jde jen o zvyk a o konfiguraci tvého prohlížecího zařízení nebo tvé sítě (DNS servery, routery).

Souhlasím, že Tor je trochu nesystémové řešení, protože přeskakuje standardní IP stack a nedá se normálně routovat... ale na tom je právě potřeba pracovat.

25.3.2019 19:13 debian+
Rozbalit Rozbalit vše Re: Full-textové prohledávání komiksů a jiných obrázků

A neco si kvuli tobe konfigurovat nebo pouzivat dva prohlizece jako ty mam proc? Jsi jako nekdo, kdo zacne z niceho nic na vsechny mluvit somalsky, protoze kazdy se to prece muze naucit nebo si najmout tlumocnika. Je to neslusne - pouzivej odkazy nativni pro sit kam prispivas a neotravuj druhe.

25.3.2019 20:56 debian+
Rozbalit Rozbalit vše Re: Full-textové prohledávání komiksů a jiných obrázků

Nepouzivaj mnou uzivany nick! Vymysli si svoj originalny!

25.3.2019 21:13 debian+
Rozbalit Rozbalit vše Re: Full-textové prohledávání komiksů a jiných obrázků

Originalni :)))

25.3.2019 20:17 Ovoce | skóre: 16 | blog: Vyplizlo_ze_zivota
Rozbalit Rozbalit vše Re: Full-textové prohledávání komiksů a jiných obrázků

No z Číny asi fakt hodně lidí bude sjíždět abclinuxu. Jako OK, kdyby to byla politická věc, čínskej režim je na hovno, ale fakt zrovna tuhle blbost/floss software jako čínský firewally blokujou?

Za mě taky je to IMHO pěkná blbost, díky strčte si. Trošku moc ten e-autismus prožíváte.

25.3.2019 07:30 Onanym
Rozbalit Rozbalit vše Re: Full-textové prohledávání komiksů a jiných obrázků

Nicméně Tor je stále jen jedna z mnoha služeb v rámci mainstream Internetu a na něm zcela závislý

25.3.2019 08:52 Max | skóre: 73 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: Full-textové prohledávání komiksů a jiných obrázků

No, to nevím. Historie zatím ukázala, že kdo má nejvíce exit nodů, ten tomu velí (= má sílu deanonymizovat uživatele). A vzhledem k nutnosti exit nodů, bude Tor vždy "pomalý".
Zdar Max

Měl jsem sen ... :(

25.3.2019 09:01 /dev/null
Rozbalit Rozbalit vše Re: Full-textové prohledávání komiksů a jiných obrázků

nejaka lepsie zabezpecena alternativa k TORu ?

25.3.2019 23:06 Max | skóre: 73 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: Full-textové prohledávání komiksů a jiných obrázků

Já jen poznamenal, že Tor není žádná výhra a nezaručuje 100% anonymitu. Možná je to v současné době jedna z nejlepších možností, ale není ideální a těžko říci, zda někdy bude. Neodsuzuji ho, jen poznamenávám, že to není tak růžové, jak o tom někteří mluví.
Zdar Max

Měl jsem sen ... :(