Dnes a zítra probíhá vývojářská konference Google I/O 2025. Sledovat lze na YouTube a na síti 𝕏 (#GoogleIO).
V Bostonu probíhá konference Red Hat Summit 2025. Vybrané přednášky lze sledovat na YouTube. Dění lze sledovat na síti 𝕏 (#RHSummit).
Společnost Red Hat oficiálně oznámila vydání Red Hat Enterprise Linuxu 10. Vedle nových vlastností přináší také aktualizaci ovladačů a předběžné ukázky budoucích technologií. Podrobnosti v poznámkách k vydání.
Tuto sobotu 24. května se koná historicky první komunitní den projektu Home Assistant. Zváni jsou všichni příznivci, nadšenci a uživatelé tohoto projektu. Pro účast je potřebná registrace. Odkazy na akce v Praze a v Bratislavě.
Troy Hunt představil Have I Been Pwned 2.0, tj. nový vylepšený web služby, kde si uživatelé mohou zkontrolovat, zda se jejich hesla a osobní údaje neobjevily v únicích dat a případně se nechat na další úniky upozorňovat.
Microsoft představil open source textový editor Edit bežící v terminálu. Zdrojové kódy jsou k dispozici na GitHubu pod licencí MIT.
V Seattlu a také online probíhá konference Microsoft Build 2025. Microsoft představuje své novinky. Windows Subsystem for Linux je nově open source. Zdrojové kódy jsou k dispozici na GitHubu pod licencí MIT.
Z příspěvku Turris Sentinel – co přinesl rok 2024 na blogu CZ.NIC: "Za poslední rok (únor 2024 – únor 2025) jsme zachytili 8,3 miliardy incidentů a to z 232 zemí a z jejich závislých území. Tyto útoky přišly od 6,2 milionu útočníků (respektive unikátních adres). SMTP minipot je stále nejlákavější pastí, zhruba 79 % útoků bylo směřováno na tento minipot, 16 % útoků směřovalo na minipot Telnet, 3 % útoků směřovaly na minipot HTTP a 2 % na minipot FTP. Dále jsme zaznamenali 3,2 milionu unikátních hesel a 318 tisíc unikátních loginů, které útočníci zkoušeli."
Byla vydána (Mastodon, 𝕏) nová verze 3.0.4 svobodné aplikace pro úpravu a vytváření rastrové grafiky GIMP (GNU Image Manipulation Program). Přehled novinek v oznámení o vydání a v souboru NEWS na GitLabu. Nový GIMP je již k dispozici také na Flathubu.
Byla vydána nová stabilní verze 7.4 webového prohlížeče Vivaldi (Wikipedie). Postavena je na Chromiu 136. Přehled novinek i s náhledy v příspěvku na blogu.
Cožpak se nedá mačkání kláves zautomatizovat, vyberu-li to nejhloupější řešení?
Jinak mám dojem, že je aspell knihovna, takže bys si snad mohl třeba v nějakém Pythonu nebo kdovíčem napsat skript.
Nepředpokládám, že by naprogramování něčeho takového stálo moc úsilí i relativní neprogramátory.
Jinak mám dojem, že je aspell knihovna, takže bys si snad mohl třeba v nějakém Pythonu nebo kdovíčem napsat skript.
Nepředpokládám, že by naprogramování něčeho takového stálo moc úsilí i relativní neprogramátory.
Ano, toto je řešení. Díky. Stejně jsem se naučit aspoň základy Pythonu chystal. Určitě by šel použít i Perl, ale Python bude asi pro začátečníka jako jsem já vhodnější.
Nejsem si jistej, ale pokud by neco nahrazovalo v PDF cesky znaky bitmapama, tak by to musel byt taky docela slozitej algoritmusFakt ne, rozhodně ne složitější, než jak se to renderuje na obrazovku.
Nejsem si jistej, ale pokud by neco nahrazovalo v PDF cesky znaky bitmapama, tak by to musel byt taky docela slozitej algoritmusVzhledem k tomu, že PDF je prezentační formát, dělají to tak všichni, kterým záleží na přesném zobrazení toho, co si přejí. Spíš než na bitmapy se to převádí na křivky (na bitmapy jsou převedené spíš dokumenty zkonvertované z PS s bitmapovými fonty), ale z hlediska kopírování to vyjde nastejno. Často je to tak, že PDF v sobě má něco jako "font", ale v kódování, které je ad hoc vytvořeno pro daný dokument. Vizte např. tento dokument a zkuste si s ním pohrát.
Spis tam bude opravdu problem s kodovanim. Zatimco pdftotext pouziva kodovani "A", PDF je kodovani pomoci "B". Zkusil by se zamerit na tohle a hledat na google.
Problém je ten, že u pdftotext
lze nastavit pouze výstupní kódávní pomocí -enc
, ale vstupní nějak detekuje sám.
Původní PDF je v pořádku. Jakou cestou bych teda měl jít?
Takto jsem převedl PDF soubor do plain textu:
pdftotext -enc UTF-8 soubor.pdf soubor.txt
Místo znaků s diakritikou jsem dostal divnou sekvenci. Teď zbývá nahradit ty divné znaky správnými znaky s diakritikou. Vypadá to dobře. Díky. Nahrazuju to v geditu
.
Takže řešení je prosté: Nejdřív převést pomocí pdftotext
soubor do plain textu: pdftotext -enc UTF-8 soubor.pdf soubor.txt
Potom pomocí nějakého nástroje (já použil gedit
, ale můžete určitě použít sed
apod.) nahradíte "klikyháky" za české znaky s diakritikou.
Tiskni
Sdílej: