Chci naučit Tesseract, co nejlépe češtinu.
Vytvořil jsem soubor s třemi řadami znaků na klávesnici, použil databázi cca 800 tis. slov a rozpoznávání je velmi dobré. Určitě lze ještě vylepšit. Připravím si databázi běžných slov, ale hlavně to chce cvičné stránky plné náhodných znaků s předem daným počtem každého znaku.
Udělal jsem tedy soubor v UTF-8 kde je na řádku číslo udávající počet opakování následujících znaků, oddělující mezera a znaky. Mezera se mezi potřebnými znaky nevyskytuje. Těchto řádků je dle potřeby. Protože mi zpětné lomítko činí velké problémy, mám zatím v úmyslu řešit až při zápisu do souboru skriptem nebo ručně. Protože lze v dokumentech očekávat znaky jiných jazyků apod., je nutno pracovat s UTF-8. Můj skript načte počet opakování následujících znaků, znaky a spočítá počet znaků k tomuto opakování. Zde jsem narazil na to, že některé znaky byly počítány jakoby dva. To jsem vyřešil pomocí LANG=cs_CZ.UTF-8 ve scriptu.
Nyní mám v jedné proměnné všechny potřebné znaky v potřebném opakování. Chci je náhodně zpřeházet a uložit do souboru. Když však chci zpracovat proměnnou znak po znaku pomocí cut nebo substr, použité nástroje zase počítají některé znaky jako dva (A možná ještě nevím všechny problémy.)
Systém mám nastaven na LANG=cs_CZ, unicode nastaveno nemám.
Chtěl jsem řešit pomocí předem známého počtu opakování (celkový počet znaků) a každý znak naplnit do pole. To pak náhodně procházet, použitý znak uložit do souboru a zrušit prvek pole.
Poraďte, prosím, jak vyřešit práci s jednotlivými znaky nebo i zcela jiný přístup k celému řešení.