Hromadné zjištění kódování souborů

Někdy to řekne příkaz file, jinak bych zkoušel detekovat četnost jednotlivých znaků pokud znáš alespoň jazyk/rodinu jazyků. A pak to můžeš zkusit jako UTF8 dekódovat jestli to bude validní. Ale obecně taková věc udělat nejde.

pic.

tohle zobrazi vsechny ne utf-8 soubory v aktualnim adresari.

$ find . -type f | xargs -I '{}' bash -c "iconv -f utf-8 -t utf-16 '{}' &>/dev/null || echo '{}'"

pomocí Perlu s příslušnou knihovnou

find .|perl -MFile::LibMagic -nE 'chomp; my @coding= ("utf-8","us-ascii");my $magic = File::LibMagic->new();  say  $_ if ! $magic->info_from_filename("$_")->{encoding} ~~ @coding'

zkoušel jsem to na cca 15k souborech(i s netextovými 17k) a trvalo to nějakých 30s.(problém dělali symlinky na nexistující soubory, u těch to házelo chybu)

This would have been so hard to fix when you don't know that there is in fact an easy fix.

4.4.2015 07:48 alles32 | skóre: 15 | Evropa
Rozbalit Rozbalit vše Re: Hromadné zjištění kódování souborů

find zna file -type. '-type f' odfiltruje vse krom normalniho souboru ;].

Moc děkuji všem za tipy. Použil jsem kompletní řešení od alles32. Projde to celý strom což je super. Snažil jsem se to použít jen na php soubory a sustit příkaz odkudkoli ale nedaří se...

$ find . -type f /var/www/*.php | xargs -I '{}' bash -c "iconv -f utf-8 -t utf-16 '{}' &>/dev/null || echo '{}'"

4.4.2015 12:53 alles32 | skóre: 15 | Evropa
Rozbalit Rozbalit vše Re: Hromadné zjištění kódování souborů

find umi -name. odkudkoli to jde taky, jen to chce zamenit cestu kde se ma findovat, napr.

~$ find /var/www -name *php -type f ......

4.4.2015 13:09 chrono
Rozbalit Rozbalit vše Re: Hromadné zjištění kódování souborů

Nemá ísť to *php do apostrofov?

4.4.2015 15:25 Kit | skóre: 46 | Brno
Rozbalit Rozbalit vše Re: Hromadné zjištění kódování souborů

~$ find /var/www -name "*.php" -type f ......

Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.

Dotaz: Hromadné zjištění kódování souborů

Odpovědi