AbcLinuxu:/ Poradna / Linuxová poradna / Řazení pomocí sort - Ď

Štítky: arch, ATD, C, cd, Linux, programování

Dotaz: Řazení pomocí sort - Ď

30.5.2013 23:15 JohnnyDoe | skóre: 11 | blog: _
Řazení pomocí sort - Ď

Přečteno: 1108×

Odpovědět | Admin

Ahoj, narazil jsem na to, že sort chybně řadí. Česká abeceda je ... C, D, Ď, E... atd, avšak:

$ LC_ALL=cs_CZ.UTF-8
$ sort
E
Ca
Čb
Cd
Da
Ďb
Dc
C

dá výstup

C
Ca
Cd
Čb
Da
Ďb
Dc
E

U "Č" je pořadí správně, avšak u "Ď" je pořadí chybné. Jak se to chová u vás? Tušíme, čím by to mohlo být? Distro je Arch Linux.

Díky

Řešení dotazu:

Nástroje: Začni sledovat (1) ?

Odpovědi

30.5.2013 23:21 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Řazení pomocí sort - Ď

Poděkujte jazykovědcům a jejich (ne)smyslu pro systém a logiku.

30.5.2013 23:25 JohnnyDoe | skóre: 11 | blog: _
Rozbalit Rozbalit vše Re: Řazení pomocí sort - Ď

OMG! Tomu nechci věřit. Nicméně:

Pouze pokud aplikací této tzv. primární řadicí schopnosti nelze rozhodnout mezi řazením několika slov, bere se ohled na ostatní diakritická znaménka.

... čili ve výsledku by to mělo být správně, ne?

30.5.2013 23:34 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Řazení pomocí sort - Ď

Tomu nechci věřit.

Když nechcete, nevěřte, k tomu vás nikdo donutit nemůže. :-)

čili ve výsledku by to mělo být správně, ne?

Ano, soft to řadí správně, protože při porovnávání "Ďb" a "Dc" už v prvním průchodu, kdy se ještě nerozlišuje D a Ď, rozhodne b<c na druhé pozici. Oproti tomu při porovnání "Čb" a "Cd" se C<Č uplatní už v prvním průchodu a na druhý znak tedy nedojde.

3.6.2013 18:54 petr_p | skóre: 59 | blog: pb
Rozbalit Rozbalit vše Re: Řazení pomocí sort - Ď

Tomu nechci věřit.

Když nechcete, nevěřte, k tomu vás nikdo donutit nemůže. :-)

Nobody expects the Spanish Inquisition!

31.5.2013 02:11 Sten
Rozbalit Rozbalit vše Re: Řazení pomocí sort - Ď

Pouze pokud aplikací této tzv. primární řadicí schopnosti nelze rozhodnout mezi řazením několika slov, bere se ohled na ostatní diakritická znaménka.
... čili ve výsledku by to mělo být správně, ne?

Tohle se týká akorát případu, kdy by tam bylo „Db“ a „Ďb“. Primární řadicí schopnost totiž tahle dvě slova nedokáže seřadit.

31.5.2013 09:30 Šangala | skóre: 56 | blog: Dutá Vrba - Wally
Rozbalit Rozbalit vše Re: Řazení pomocí sort - Ď

Tomu nechci věřit.

OT: Neboj nejsi první ani zdaleka poslední. Toto „překvapení“ zažije téměř každý našinec, jenže většina si prostě jen pomyslí „je to blbě - ach jo“. Až se někdo zajímá o řazení „hlouběji“ (má pocit odpovědnosti za výsledek), tak to řeší a z toho plynou tyto otázky, periodicky se opakující :-)

…

To, že trpíš stihomamem, ještě neznamená, že po tobě nejdou. ⰞⰏⰉⰓⰀⰜⰉ ⰗⰞⰅⰜⰘ ⰈⰅⰏⰉ ⰒⰑⰎⰉⰁⰕⰅ ⰏⰉ ⰒⰓⰄⰅⰎ ·:⁖⁘⁙†

31.5.2013 01:11 MadCatX
Rozbalit Rozbalit vše Re: Řazení pomocí sort - Ď

Lehce off-topic:
Tento způsob třídění je naopak velmi logický, písmena jako Ď, Ň a Ť se totiž v českém jazyce zřídkakdy píší s háčkem, viz nikdo, nějaký, dítě. Kdyby se řadila stejně jako např. Č, bylo by dle tohoto systému slovo nikdo v abecedě před slovem ňadra, což by nedávalo už vůbec žádný smysl. Obě slova začínají na Ň, ale řadicímu algoritmu by se toto dost obtížně rozpoznávalo. Mohl by se to sice pokusit odhadnout podle následujícího písmene, ale to by též nebylo stoprocentní (nihilista, diskrétní, titan ...).

31.5.2013 06:15 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Řazení pomocí sort - Ď

Logické to je jen za předpokladu, že přijmete tu základní myšlenku, že řazení slov, které vždy provádíme - a vždy jsme prováděli - na jejich psané podobě, určujeme podle jejich mluvené podoby. A právě ta mi připadá absurdní nejvíc, tím spíš, že ani ta se neaplikuje úplně obecně.

31.5.2013 10:30 kuka
Rozbalit Rozbalit vše Re: Řazení pomocí sort - Ď

To je ovšem vlastnost češtiny, že má specifický vztah mezi psanou a mluvenou podobou, a už tady byly uvedeny příklady, kdy by striktní rozlišení ď/d, ť/t, ň/n vedlo k nelogickému řazení. Pochopitelně existují i opačné případy, ale lidé prostě usoudili, že ty první převažují. Takto se to jednoduše nejlépe hledá ve slovníku (hledal bys intuitivně slovo loděnice na předchozí nebo následující stránce, pokud bys už našel slovo loď?). V době počítačů se mohou pohledy posouvat, ale ta pravidla rozhodně nejsou hloupá nebo dokonce absurdní.

Z pozice informatika nemám vůbec problém s pravidly jako takovými (jsou zcela jednoznačně definovaná), může pouze docházet k výkonnostní penalizaci a je prostě obtížnější to naimplementovat. A není to vůbec jen případ češtiny, i když ta je možná v tomto nejsložitější.

31.5.2013 10:57 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Řazení pomocí sort - Ď

hledal bys intuitivně slovo loděnice na předchozí nebo následující stránce, pokud bys už našel slovo loď?

Kdybych neznal tu hrůznou normu, hledal bych loděnice "samozřejmě" před loď.

ale ta pravidla rozhodně nejsou hloupá nebo dokonce absurdní

Jak praví klasik, názory jsou od toho, aby se různily.

jsou zcela jednoznačně definovaná

To právě moc ne. Pokud si vzpomínám, bylo tam dokonce i něco takového, že "ch" se podle okolností může a nemusí považovat za slitek, přičemž rozhodnutí je de facto opět dáno výslovností. A to nemluvím o úplných šílenostech, jako třeba že "Karel VI." < "Karel IX.", které vedou k tomu, že jazykovědecky "logické" porovnávání nemusí být ani tranzitivní (což principiálně znemožňuje řazení).

A není to vůbec jen případ češtiny

Klasická logika prvního stupně základní školy: dostal jsem sice čtyřku z češtiny, ale Franta dostal pětku, takže je to v pohodě… Ne, to, že podobné ptákoviny vymysleli i v některých jiných zemích, neznamená automaticky, že je to dobře.

31.5.2013 13:03 kuka
Rozbalit Rozbalit vše Re: Řazení pomocí sort - Ď

Rozlišení ch a c-h není dáno výslovností, ta je naopak odvozena od toho, že ve druhém případě se jedná o předponu. Ano ch je oříšek a v zásadě je třeba mít pro správné strojové rozhodnutí tabulku výjimek, protože stroje zatím bohužel nepoznají to, co je pro člověka zřejmé. Jiné jazyky jsem uváděl proto, aby bylo zřetelné, že se nejedná o nic nepřirozeného - jazyky se vyvíjejí v nějakém historickém a kulturním prostředí a z čistě technického hlediska tak vzniká spousta "nesmyslů", co v češtině nemáme jsou např. převody speciálních písmen na dvojice (např. přehlasované o), kdy dva rozdílné zápisy znamenají přesně totéž a to musí platit i z hlediska práva atd. Pokud by např. dnes někdo navrhoval na zelené louce abecedu a bylo v ní jedno písmeno zapsané dvěma znaky, které už tam samostatně jsou, bylo by to skutečně na pováženou. Řešením ale není na složitost (někdo v ní vidí krásu) a netriviální vnitřní logiku jazyka rezignovat. Lépe řečeno možná to řešením je, ale je to dlouhodobější proces (např. napsat filozofie by bylo ještě nedávno považováno za projev nevzdělanosti, později to začalo být neformálně akceptováno a dnes už to je správně i podle oficiálních pravidel).

31.5.2013 13:31 Filip Jirsák
Rozbalit Rozbalit vše Re: Řazení pomocí sort - Ď

To řazení ch vs c-h bylo docela smysluplné, draka s přílišným počtem hlav bych hledal kolem moc-, ne za moh-.

S těmi římskými čísly to podle mne bylo jinak – vy to máte (zřejmě) seřazené podle hodnoty čísla, ale v té normě myslím bylo, že se to řadí, jako by číslo bylo vyjádřené slovně, tedy řadí se jako Karel šestý > Karel devátý (což také lépe odpovídá výše uvedenému řazení dle výslovnosti).

Moc ale nerozumím tomu, že by porovnání nebylo tranzitivní – podle mne všechny vámi uvedené příklady tranzitivní jsou (pro celý řazený výraz).

31.5.2013 14:28 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Řazení pomocí sort - Ď

To řazení ch vs c-h bylo docela smysluplné, draka s přílišným počtem hlav bych hledal kolem moc-, ne za moh-.

Což o to, to já taky - já mám problém spíš s tím druhým případem.

Moc ale nerozumím tomu, že by porovnání nebylo tranzitivní

Jak seřadíte (za předpokladu platnosti pravidla, že se čísla zapsaná římskými číslicemi mezi sebou porovnávají jako čísla) "Karel VI.", "Karel IX." a "Karel Soukup"?

31.5.2013 14:39 Filip Jirsák
Rozbalit Rozbalit vše Re: Řazení pomocí sort - Ď

Karel Soukup, Karel VI., Karel IX. – nejprve písmena, pak čísla, a čísla podle vašeho návodu podle číselné hodnoty.

31.5.2013 14:44 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Řazení pomocí sort - Ď

Jinak řečeno, nesmyslnou výjimku nezrušíme, ale (některé) problémy, které způsobila, v konkrétním případě obejdeme přidáním další výjimky. Úžasné… Ale jinak uznávám, že jste skvěle vystihl způsob myšlení lídí, kteří stojí za tou normou.

2.6.2013 12:33 Filip Jirsák
Rozbalit Rozbalit vše Re: Řazení pomocí sort - Ď

Jste si jist, že reagujete na můj komentář? Já jsem žádná pravidla nebo výjimky nehodnotil, pouze jsem podle stávajících pravidel (+ vašeho pravidla o řazení čísel zapsaných římskými číslicemi) seřadil tři výrazy. Vy jste tvrdil, že ta pravidla tranzitivní nejsou, tedy jsem předpokládal, že to na těch třech výrazech chcete nějak ukázat. Já tam problém nikde nevidím a myslím si, že podle těchto pravidel má být pořadí Karel Soukup, Karel IX. -- tedy alespoň pro tuhle trojici jsou pravidla řazení tranzitivní.

Jinak abecední řazení vznikalo v době, kdy o nějakých počítačích nikdo ani netušil. Vše se řadilo ručně a vyhledávalo se ručně, takže řazení bylo logicky přizpůsobené tomu, jak s jazykem pracuje lidský mozek. To bych autorům skutečně nezazlíval. A řekl bych, že dnešní počítače mají dost výkonu k tomu, aby dokázaly řadit tak, jak je to pohodlné pro člověka -- pořád ještě je počítač nástroj, který má člověku usnadnit práci, a ne naopak.

2.6.2013 13:14 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Řazení pomocí sort - Ď

Jste si jist, že reagujete na můj komentář?

Naprosto.

Jinak abecední řazení vznikalo v době, kdy o nějakých počítačích nikdo ani netušil.

Je snadné svést to na počítače (a případně líné programátory), ale tady o počítače vůbec nejde. Vždy, když se řazení provádělo, ať už šlo o knihy v knihovně, hesla ve slovníku nebo třeba autory článku, řadila se slova v psané podobě a výsledek byl opět psaný. Proto byl nesmysl vymýšlet zbytečně komplikovaná pravidla zamořená mraky výjimek a speciálních případů založená na mluvené podobě slova. Počítače s tím nemají vůbec nic společného.

2.6.2013 19:17 Filip Jirsák
Rozbalit Rozbalit vše Re: Řazení pomocí sort - Ď

Jenže to řazení se dělalo pro člověka. A člověk pracuje se slovem v mluvené podobě. Navíc ty mraky výjimek jsou pokud vím jen ch, a to jaksi tenkrát nikdo nemohl tušit, že ze všech těch spřežek v češtině jednou zbyde jen jedna jediná, takže za pár století někomu bude spřežka připadat jako divná výjimka.

2.6.2013 20:21 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Řazení pomocí sort - Ď

A člověk pracuje se slovem v mluvené podobě.

Ne při řazení. Při řazení i člověk řadí slova psaná. Ať už jsou to tituly nebo autoři na knihách knihovně, hesla ve slovníku, jména v telefonním seznamu nebo třeba jména autorů v článku.

Navíc ty mraky výjimek jsou pokud vím jen ch

A co ten druhý průchod pro samohlásky? A co to, že se do druhého průchodu přeřadily i některé souhlásky? A co ty další výjimky (viz výše)?

3.6.2013 18:50 petr_p | skóre: 59 | blog: pb
Rozbalit Rozbalit vše Re: Řazení pomocí sort - Ď

Otázka je, kdy pravidla vznikla. Je docela možné, že se tehdy měnil pravopis, nebo nebyl vůbec ustálen. Vezměte si třeba knihu z doby Komenského, kdy se pro hlásku J používal znak G a hláska G se zapisovala jako Ġ. Pak řazení podle výslovnosti umožňovalo zachovat homomorfismus.

31.5.2013 18:47 Sten
Rozbalit Rozbalit vše Re: Řazení pomocí sort - Ď

Proto mám nejraději tengwar, tam jsou ty vztahy mezi mluvenou a psanou podobou velmi pevné nejen v řazení jednotlivých písmen, ale i v jejich tvarech.

Třeba estonština má zajímavé pravidlo, kde ve jménech se „v“ a „w“ bere jako stejné písmeno, ale v ostatních slovech je „w“ po „v“ (jak tohle chcete naprogramovat?), případně v angličtině, pokud jméno začíná členem („A“, „An“, „The“), tak člen se má při řazení ignorovat, nebo zkratky se mají řadit „rozbalené“ (třeba „St.“ jako „Saint“). Čeština má z hlediska programátorů ještě hodně jednoduchá a snadno implementovatelná pravidla.

31.5.2013 06:49 stilett
Rozbalit Rozbalit vše Re: Řazení pomocí sort - Ď

Bohužel tato logika nefunguje v případě, že d se čte jako d. Např. ďábel je zařazen před dub, což už tak dobrý smysl nedává.

3.6.2013 00:47 potato
Rozbalit Rozbalit vše Re: Řazení pomocí sort - Ď

Ďábel samozřejmě patří před dub. Ve všech slovnících a indexech tam vždycky byl a jinde bych ho ani nehledal.

Nechcete-li výsledek ukazovat lidem, tak si to, informatici, klidně interně řaďte podle codepointu v kanonickém Unicode zápisu.

1.6.2013 12:50 Roslav | skóre: 6 | blog: mamblog
Rozbalit Rozbalit vše Re: Řazení pomocí sort - Ď

Futajbl, práve zisťujem, že u nás je to rovnako. Tá norma od STN je už neplatná, ale stále sa používa. Možno by to chcelo nátlak na SUTN, aby sa zaviedla nová norma s prihliadnutím na informatický vek a teda rozumnejším radením slov.

OT.: <rant>Oni chcu 11 Ecok za zobrazenie tej normy v elektronickom formate! Nenažranci</rant>

Hmmpf... Niečomu tak deterministickému ako počítače sa jednoducho nedá veriť.

3.6.2013 00:49 potato
Rozbalit Rozbalit vše Re: Řazení pomocí sort - Ď

Možná by to chtělo ignorovat všechny brouky Pytlíky a amatérské jazykovědce a řadit, jak se to dělalo vždycky.

31.5.2013 23:08 jadd | skóre: 34 | blog: Greenhorn
Rozbalit Rozbalit vše Re: Řazení pomocí sort - Ď

Můžeš ukázat nastavené všechny locale? http://www.gnu.org/software/coreutils/manual/coreutils.html#fn-2

31.5.2013 23:32 jadd | skóre: 34 | blog: Greenhorn
Rozbalit Rozbalit vše Re: Řazení pomocí sort - Ď

Spíše to je ale už mapou latin2 v unicode.

17.7.2015 14:09 Fanky
Rozbalit Rozbalit vše Re: Řazení pomocí sort - Ď

tu je to vysvetlene http://www.java.cz/article/ceskerazeni

z nejakeho dovodu maju niektore znaky v abecede mensiu prioritu ako ostatne

Založit nové vlákno • Nahoru

Tiskni Sdílej: