Portál AbcLinuxu, 19. května 2024 09:28


Dotaz: Konverze ruznych textovych formatu do jednoho

polo23 avatar 29.2.2012 19:26 polo23 | skóre: 28 | blog: polo23
Konverze ruznych textovych formatu do jednoho
Přečteno: 571×
Odpovědět | Admin
Ahoj,
potreboval bych poradit jak zkonvertovat hromadu textovych souboru do jenoho druhu formatu napr. ASCII nebo UTF8.

Tady je sezna typu formatu souboru co potrebuju zkonvertovat. Chtel jsem pouzit iconv ale ten chce zadat vzdy alepson vstupni typ formatu.
ASCII C++ program text
ASCII C++ program text
ASCII text
ASCII text
ASCII text, with escape sequences
ASCII text, with CRLF line terminators
ASCII text, with CRLF line terminators
ASCII text, with CRLF, LF line terminators
ASCII text
ISO-8859 text
ISO-8859 text
ASCII text
ASCII text, with CRLF line terminators, with escape sequences
ASCII text, with CRLF line terminators
ASCII text
ASCII text, with CRLF line terminators
ASCII C program text
Non-ISO extended-ASCII English text, with CRLF line terminators
ASCII text
ASCII text
ISO-8859 English text
ISO-8859 English text
ASCII English text
ASCII English text
ISO-8859 text, with CRLF line terminators
ASCII text, with escape sequences
ASCII text
ASCII text
ASCII text
ASCII text
ASCII English text
ASCII text, with CRLF line terminators
ASCII text, with CRLF line terminators
ASCII text, with CRLF line terminators
ASCII text, with CRLF line terminators
ASCII English text, with CRLF line terminators
Non-ISO extended-ASCII text
ASCII English text, with CRLF line terminators
UTF-8 Unicode English text
ASCII English text
ASCII text
ASCII English text
data
ASCII Pascal program text
ASCII Pascal program text
ASCII text
ASCII English text
ASCII English text
UTF-8 Unicode C program text
UTF-8 Unicode text
ASCII text, with CRLF line terminators
ASCII text, with CRLF line terminators
ASCII text
ASCII C++ program text
ASCII C++ program text
ASCII text
ASCII text
ASCII text
ASCII text
Non-ISO extended-ASCII text, with LF, NEL line terminators
MMDF mailbox
ASCII text, with CRLF line terminators
Non-ISO extended-ASCII text, with CRLF, NEL line terminators
ASCII assembler program text, with CRLF, CR line terminators
ASCII Pascal program text, with CRLF line terminators
Non-ISO extended-ASCII English text
Non-ISO extended-ASCII English text
Non-ISO extended-ASCII text
HTML document text
Non-ISO extended-ASCII text
ISO-8859 English text
Non-ISO extended-ASCII English text
ASCII text
directory
Nástroje: Začni sledovat (0) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

29.2.2012 19:42 l4m4
Rozbalit Rozbalit vše Re: Konverze ruznych textovych formatu do jednoho
Odpovědět | | Sbalit | Link | Blokovat | Admin
Potíž jsou ty Non-ISO extended-ASCII, protože mohou být naprosto cokoli. Zkusil bych enca, zda ti je detekuje správně.

Některé formáty budeš muset převést speciálně jiným programem, např. ten mailbox nebo HTML, pokud chceš na konci jen text (ale zase vesměs obsahují kódování, ve kterém jsou).

Převod do ASCII není definován. Nevím, jak převedeš do ASCII třeba tohle:

http://www.cl.cam.ac.uk/~mgk25/ucs/examples/UTF-8-demo.txt
polo23 avatar 29.2.2012 21:37 polo23 | skóre: 28 | blog: polo23
Rozbalit Rozbalit vše Re: Konverze ruznych textovych formatu do jednoho
Ta enca je nerozpoznala... Ma problem s rozpoznavanim i dalsich formatu... Nemusi to byt ASCII ale treba to UTF8. Proste neco co bezny txt prohlizec otevre.
pavlix avatar 1.3.2012 09:54 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Konverze ruznych textovych formatu do jednoho
Ma problem s rozpoznavanim i dalsich formatu...
To se jí vůbec nedivím.
Já už tu vlastně ani nejsem. Abclinuxu umřelo.
polo23 avatar 29.2.2012 21:38 polo23 | skóre: 28 | blog: polo23
Rozbalit Rozbalit vše Re: Konverze ruznych textovych formatu do jednoho
Jeste me napada otrocina otevirat to rucne treba v gedit a ukladat to v ASCII:) Ale do toho se mi nechce.
29.2.2012 23:45 l4m4
Rozbalit Rozbalit vše Re: Konverze ruznych textovych formatu do jednoho
Pokud ti stačí jakkoli zmršit ne-ASCII znaky, tak je prostě odstraň:

tr -d -c '[\001-\177]'

Požadavek konverze do UTF-8 a požadavek modifikace souboru, aby neobsahoval ne-ASCII znaky jsou velmi odlišné a musejí se odlišně řešit. Není jedno, co z toho se má provést.
1.3.2012 05:50 ahuska
Rozbalit Rozbalit vše Re: Konverze ruznych textovych formatu do jednoho
Odpovědět | | Sbalit | Link | Blokovat | Admin
man konwert viz any/cs a crlf
pavlix avatar 1.3.2012 10:03 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Konverze ruznych textovych formatu do jednoho
Odpovědět | | Sbalit | Link | Blokovat | Admin
Rozhodnutí jestli konvertovat do ASCII nebo UTF-8 je docela zásadní. ASCII je zároveň i znakovou sadou, která je podmnožinou znakové sady Unicode (kóduje se mimojiné jako UTF-8).

Unicode je univerzální v tom, že dneska můžeš redefinovat všechna běžná ḱódování předefinovat jako (často neúplná) kódování znakové sady Unicode. Takže třeba kódování českého textu do ASCII je nutně ztrátové, zatímco překódování prakticky čehokoli do UTF-8 je bezztrátové.
Já už tu vlastně ani nejsem. Abclinuxu umřelo.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.