abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 03:33 | Komunita

    Na čem pracují vývojáři webového prohlížeče Ladybird (GitHub)? Byl publikován přehled vývoje za červen (YouTube).

    Ladislav Hagara | Komentářů: 0
    dnes 02:33 | Nová verze

    Libreboot (Wikipedie) – svobodný firmware nahrazující proprietární BIOSy, distribuce Corebootu s pravidly pro proprietární bloby – byl vydán ve verzi 25.06 "Luminous Lemon". Přidána byla podpora desek Acer Q45T-AM a Dell Precision T1700 SFF a MT. Současně byl ve verzi 25.06 "Onerous Olive" vydán také Canoeboot, tj. fork Librebootu s ještě přísnějšími pravidly.

    Ladislav Hagara | Komentářů: 0
    dnes 01:33 | Komunita

    Licence GNU GPLv3 o víkendu oslavila 18 let. Oficiálně vyšla 29. června 2007. Při té příležitosti Richard E. Fontana a Bradley M. Kuhn restartovali, oživili a znovu spustili projekt Copyleft-Next s cílem prodiskutovat a navrhnout novou licenci.

    Ladislav Hagara | Komentářů: 0
    včera 16:55 | Nová verze

    Svobodný nemocniční informační systém GNU Health Hospital Information System (HIS) (Wikipedie) byl vydán ve verzi 5.0 (Mastodon).

    Ladislav Hagara | Komentářů: 0
    včera 16:22 | Komunita

    Open source mapová a navigační aplikace OsmAnd (OpenStreetMap Automated Navigation Directions, Wikipedie, GitHub) oslavila 15 let.

    Ladislav Hagara | Komentářů: 0
    včera 11:55 | Zajímavý software

    Vývojář Spytihněv, autor počítačové hry Hrot (Wikipedie, ProtonDB), pracuje na nové hře Brno Transit. Jedná se o příběhový psychologický horor o strojvedoucím v zácviku, uvězněném v nejzatuchlejším metru východně od všeho, na čem záleží. Vydání je plánováno na čtvrté čtvrtletí letošního roku.

    Ladislav Hagara | Komentářů: 35
    1.7. 18:22 | IT novinky

    V uplynulých dnech byla v depu Českých drah v Brně-Maloměřicích úspěšně dokončena zástavba speciální antény satelitního internetu Starlink od společnosti SpaceX do jednotky InterPanter 660 004 Českých drah. Zástavbu provedla Škoda Group. Cestující se s InterPanterem, vybaveným vysokorychlostním satelitním internetem, setkají například na linkách Svitava Brno – Česká Třebová – Praha nebo Moravan Brno – Břeclav – Přerov – Olomouc.

    Ladislav Hagara | Komentářů: 21
    1.7. 13:11 | Nová verze

    Byla vydána nová verze 8.7.0 správce sbírky fotografií digiKam (Wikipedie). Přehled novinek i s náhledy v oficiálním oznámení (NEWS). Nejnovější digiKam je ke stažení také jako balíček ve formátu AppImage. Stačí jej stáhnout, nastavit právo ke spuštění a spustit.

    Ladislav Hagara | Komentářů: 0
    1.7. 12:22 | IT novinky

    Před 30 lety, k 1. 7. 1995, byl v ČR liberalizován Internet - tehdejší Eurotel přišel o svou exkluzivitu a mohli začít vznikat první komerční poskytovatelé přístupu k Internetu [𝕏].

    Ladislav Hagara | Komentářů: 4
    1.7. 11:33 | Nová verze

    Byla vydána (𝕏) nová verze 7.4 open source monitorovacího systému Zabbix (Wikipedie). Přehled novinek v oznámení na webu, v poznámkách k vydání a v aktualizované dokumentaci.

    Ladislav Hagara | Komentářů: 0
    Jaký je váš oblíbený skriptovací jazyk?
     (59%)
     (28%)
     (7%)
     (2%)
     (0%)
     (1%)
     (3%)
    Celkem 342 hlasů
     Komentářů: 16, poslední 8.6. 21:05
    Rozcestník

    Standardní knihovna pro Python - 7 (řetězce 3)

    13. 2. 2007 | Jakub Matys | Programování | 10340×

    Dnešním dílem ukončíme povídání o metodách řetězců. Uvedu některé zbývající funkce a ty, které jsem v minulých dílech opomenul.
    split([sep[,maxsplit]])

    Tato metoda pracuje přesně naopak než metoda join. Vrátí seznam slov volajícího řetězce, která jsou oddělena parametrem sep. Není-li sep zadán, nebo pokud je None, používají se jako oddělovače bílé znaky. Parametr maxsplit představuje, kolik rozdělení bude provedeno, zbytek řetězce je uložen na poslední místo v seznamu. Vrácený seznam bude tedy mít velikost maxsplit + 1. Pokud metoda narazí na dva oddělovače bezprostředně vedle sebe, vrátí prázdný řetězec. Jako oddělovač nemusí být použit jen jeden znak, zadáte-li delší řetězec, bude použit pro separaci. Má-li metoda rozdělit prázdný řetězec a byl jí předán parametr sep, vrátí jednoprvkový seznam obsahující prázdný řetězec. Pokud jí však nebude parametr předán, vrátí prázdný seznam.

    >>> "1, 2, 3, 4".split(',')
    ['1', ' 2', ' 3', ' 4']
    >>> "1, 2, 3, 4".split(", ")
    ['1', '2', '3', '4']
    >>> "1,2,3,,5,6,,,9".split(',')
    ['1', '2', '3', '', '5', '6', '', '', '9']
    >>> "1 2 3 4 5".split()
    ['1', '2', '3', '4', '5']
    >>> ''.split('a')
    ['']
    >>> ''.split()
    []
    >>>
    
    splitlines([keepends])

    Vrátí seznam řádků volajícího řetězce. Čili jako oddělovač bude použit znak přechodu na nový řádek. Pokud budete chtít ponechat znaky pro přechod na nový řádek jako součásti jednotlivých fragmentů, musíte jako argument metody předat True.

    >>> f = file("std_lib-7.html", 'r')
    >>> x = f.read(300)
    >>> x.splitlines()
    ['Standardn\xc3\xad knihovna pro Python - 7 (\xc5\x99et\xc4\x9bzce III)', 
    '', '', '<dl>', '<dt><tt>split([sep[,maxsplit]])</tt></dt>', '<dd>',
    '<p>Tato metoda pracuje p\xc5\x99esn\xc4\x9b naopak ne\xc5\xbe metoda join.
    Vr\xc3\xa1t\xc3\xad seznam slov volaj\xc3\xadc\xc3\xadho ', 
    '\xc5\x99et\xc4\x9bzce, kter\xc3\xa1 jsou odd\xc4\x9blena parametrem sep. 
    Nen\xc3\xad-li sep zad\xc3\xa1n, nebo pokud je None, ', 
    'pou\xc5\xbe\xc3\xadvaj\xc3\xad']
    >>> x.splitlines(True)
    ['Standardn\xc3\xad knihovna pro Python - 7 (\xc5\x99et\xc4\x9bzce III)\n', 
    '\n', '\n', '<dl>\n', '<dt><tt>split([sep[,maxsplit]])</tt></dt>\n', '<dd>\n',
    '<p>Tato metoda pracuje p\xc5\x99esn\xc4\x9b naopak ne\xc5\xbe metoda join.
    Vr\xc3\xa1t\xc3\xad seznam slov volaj\xc3\xadc\xc3\xadho \n', 
    '\xc5\x99et\xc4\x9bzce, kter\xc3\xa1 jsou odd\xc4\x9blena parametrem sep. 
    Nen\xc3\xad-li sep zad\xc3\xa1n, nebo pokud je None, \n', 
    'pou\xc5\xbe\xc3\xadvaj\xc3\xad']
    >>>
    
    startswith(prefix[,start[,end]]

    Vrátí True, pokud volající řetězec obsahuje prefix na začátku. Od verze 2.5 může být prefix také n-tice obsahující možnosti, které se mají porovnávat. Ke specifikaci rozsahu, který se má prohledávat, slouží parametry start a end.

    >>> s = "/usr/local/bin/python2.5"
    >>> s.startswith("/usr/local/bin")
    True
    >>> s.startswith(("/usr/bin", "/usr/sbin", "/usr/local/bin"))
    True
    >>> s.startswith("/bin",10)
    True
    >>> s.startswith("/bin",10, 12)
    False
    >>>
    
    strip([chars])

    Vrací kopii řetězce, která je oříznutá zprava i zleva. Argument chars obsahuje množinu všech znaků, které mají být oříznuty. Odstraňování znaků bude přerušeno v momentě, kdy metoda narazí na znak, který není uveden v chars. V případě, že bude parametr vynechán, budou se ořezávat pouze mezery.

    Na příkladu je vidět, že metody lstrip a rstrip (viz minulý díl) pouze rozšiřují funkci strip.

    >>> s = "www.abclinxu.cz"
    >>> s.strip("wcz.")
    'abclinxu'
    >>> s.lstrip("wcz.").rstrip("wcz.")
    'abclinxu'
    >>>
    
    swapcase()

    Vrací kopii řetězce, která má zaměněny velikosti znaků. Tj. malá písmena se změní na velká a naopak. U 8bitových znaků záleží na nastavení locale.

    >>> "MALA pismena velka PISMENA".swapcase()
    'mala PISMENA VELKA pismena'
    >>> print "MALÁ písmena velká PÍSMENA".swapcase()
    malÁ PíSMENA VELKá pÍsmena
    >>> print u"MALÁ písmena velká PÍSMENA".swapcase()
    malá PÍSMENA VELKÁ písmena
    >>>
    
    title()

    Vrací řetězec ve formátu nadpisu - všechna počáteční písmena jsou velká. Stejně jako u předcházející metody jsou 8bitové řetězce závislé na nastavení locale.

    >>> "standardni knihovna pro python".title()
    'Standardni Knihovna Pro Python'
    >>> print "česká republika".title()
    čEská Republika
    >>> print u"česká republika".title()
    Česká Republika
    >>>
    
    translate(table[,deletechars])

    Vrací nový řetězec, který je přemapován pomocí převodní tabulky table. Znaky uvedené v parametru deletechars jsou z řetězce odstraněny před jeho převodem. table musí být řetězec o 256 znacích. Tabulka se vytváří pomocí funkce string.maketrans().

    # -*- coding: iso-8859-2 -*- 
    import string
    
    line="Žluťoučký kůň pěl ďábelské ódy"
    
    table=string.maketrans("áčďéěíňóřšťúůýžÁČĎÉĚÍŇÓŘŠŤÚŮÝŽ",\
     "acdeeinorstuuyzACDEEINORSTUUYZ")
    print line.translate(table)
    

    Použitý příklad je z webu py.cz.

    Funkce maketrans (potažmo translate) nepracovala korektně při použití systémového kódování UTF-8. Nebo alespoň mně se nepodařilo zjistit, jak s ním pracovat. Jediné, co mi Google prozradil, je, že "translate and maketrans don't love utf-8" (viz converting some french chars with python. Příklad použití utf-16, který mi však s češtinou nefungoval (francouzsky však ano :-/).

        import string
        french=u"15 résultats trouvés".encode("utf_16")
        
        sfrom = u"àâäéèêëïîôöûùüç".encode("utf_16")
        sto   = u"aaaeeeeiioouuuc".encode("utf_16")
        print french.translate( string.maketrans(sfrom,sto) )
    

    Máte-li někdo nějaké zkušenosti s kódováním utf-8, uveďte je, prosím, v diskuzi.

    upper()

    Převede všechny znaky na velké. Pro korektní převádění českých znaků v obyčejných řetězcích musíte mít správně nastavené locale.

    zfill(width)

    Vrací nový řetězec o délce width, který je zleva vyplněn znaky 0. width musí být větší než délka volajícího řetězce, jinak je vrácen tento řetězec nezměněn.

    >>> "255".zfill(5)
    '00255'
    >>>
    

    Tímto ukončíme povídání o metodách řetězců. V příštích několika dílech si budeme povídat o modulu re, to jest o regulárních výrazech. Ty slouží k vyhledávání dat v řetězcích podle určitého vzoru - ale nerad bych moc předbíhal.

           

    Hodnocení: 83 %

            špatnédobré        

    Nástroje: Tisk bez diskuse

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    Komentáře

    Vložit další komentář

    13.2.2007 00:54 Kyosuke | skóre: 28 | blog: nalady_v_modre
    Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)
    Je to divný, ale ten maketrans s češtinou mi s UTF-16 funguje. ;-) Zjevně i Pythonu nějaký ten krůček do úplné unicodizace chybí. Za modul unicodedata budiž ovšem had blahoslaven a veleben. :-)
    13.2.2007 10:48 Jan Martinek | skóre: 43 | blog: johny | Brno
    Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)
    Jestli mohu doporučit, tak funkcím maketrans/translate je dobré se vyhnout, pokud si opravdu nejste naprosto jistí, že je opravdu potřebujete. Tyto funkce pracují s jednotlivými bajty (nikoli znaky), což se moc nehodí při práci s utf-8 a při práci s textem obecně. Jestliže ten maketrans s češtinou fungoval, byla to náhoda. A pokud nefungoval, nebyla to chyba pythonu ;-)

    Pro překódování řetězce odněkud někam je lepší použít encode/recode. Pro "hádání" kódování slouží Yetiho enca se svým pythonovským modulem pyenca. Pro odstranění diakritiky lze využít výše zmíněný modul unicodedata.

    Jo a díky za pěkný článek!
    13.2.2007 11:57 Kyosuke | skóre: 28 | blog: nalady_v_modre
    Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)
    Takhle nějak?
    def deaccent(unistr):
        return "".join(aChar 
                       for aChar in unicodedata.normalize("NFD", unistr) 
                       if "COMBINING" not in unicodedata.name(aChar))
    
    13.2.2007 12:01 Kyosuke | skóre: 28 | blog: nalady_v_modre
    Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)
    Á, odpovím si sám:
    def deaccent(unistr):
        return "".join(aChar 
                       for aChar in unicodedata.normalize("NFD", unistr) 
                       if not unicodedata.combining(aChar))
    bude očividně mnohem rychlejší. :-) Budu si ten modul muset prostudovat. :-D
    13.2.2007 13:28 Jan Martinek | skóre: 43 | blog: johny | Brno
    Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)
    Vida, díky - tvůj postup naprosto precizně odstraní akcenty :-) Zkusil jsem si s tím taky pohrát a dostal jsem se do svízele s tím, že vlastně nechápu, k čemu se to vlastně používá. Má to smysl možná tehdy, když musí být výsledkem ascii řetězec, a pak pouhé odstranění akcentů nestačí. Zde je ukázka několika možností:
    #!/usr/bin/env python
    #coding: utf-8
    
    import unicodedata
    
    def deaccent(unistr):
        return "".join(aChar 
                       for aChar in unicodedata.normalize("NFD", unistr) 
                       if not unicodedata.combining(aChar))
                       
    old_cz = u'áÁčČďĎěĚéÉíÍňŇóÓřŘšŠťŤúÚůŮýÝžŽ'
    old_fr = u'ôœùûüÿàâçéèêëïîÔŒÙÛÜŸÀÂÇÉÈÊËÏÎ'
    old = old_cz + old_fr
    print old
    print deaccent(old)
    print deaccent(old).encode('ascii', 'replace')
    print deaccent(old).encode('ascii', 'ignore')
    print unicodedata.normalize('NFKD', old).encode('ascii', 'ignore')
    print unicodedata.normalize('NFKD', old).encode('ascii', 'replace')
    
    Výsledek je toto:
    áÁčČďĎěĚéÉíÍňŇóÓřŘšŠťŤúÚůŮýÝžŽôœùûüÿàâçéèêëïîÔŒÙÛÜŸÀÂÇÉÈÊËÏÎ
    aAcCdDeEeEiInNoOrRsStTuUuUyYzZoœuuuyaaceeeeiiOŒUUUYAACEEEEII
    aAcCdDeEeEiInNoOrRsStTuUuUyYzZo?uuuyaaceeeeiiO?UUUYAACEEEEII
    aAcCdDeEeEiInNoOrRsStTuUuUyYzZouuuyaaceeeeiiOUUUYAACEEEEII
    aAcCdDeEeEiInNoOrRsStTuUuUyYzZouuuyaaceeeeiiOUUUYAACEEEEII
    a?A?c?C?d?D?e?E?e?E?i?I?n?N?o?O?r?R?s?S?t?T?u?U?u?U?y?Y?z?Z?
     o??u?u?u?y?a?a?c?e?e?e?e?i?i?O??U?U?U?Y?A?A?C?E?E?E?E?I?I?
    
    Jak je vidět, s češtinou celkem není problém, a proto pro ni lze na netu najít tolik více či méně korektních postupů. Ale zkusil jsem francouzštinu a pro ascii reprezentaci by to ještě chtělo spravit ty ligatury.
    13.2.2007 13:41 Kyosuke | skóre: 28 | blog: nalady_v_modre
    Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)
    Tak s těmi ligaturami bacha, ono v některých jazycích je to plnohodnotné písmeno, takže jakékoli odstraňování čehokoliv je locale-dependent. ;-)
    13.2.2007 14:47 Jan Martinek | skóre: 43 | blog: johny | Brno
    Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)
    Aha, máš pravdu:
    >>> import unicodedata
    >>> unicodedata.name(u'Œ')
    'LATIN CAPITAL LIGATURE OE'
    >>> unicodedata.name(u'Æ')
    'LATIN CAPITAL LETTER AE'
    
    Konverze do ASCII (nebo spíš latin-1?) by IMHO locale-dependent být nemusela. Ale nejsem si jistý. Za přečtení stojí tohleto: http://effbot.org/zone/unicode-convert.htm Uf. Radši akcenty nikdy neodstraňovat.
    13.2.2007 15:21 Kyosuke | skóre: 28 | blog: nalady_v_modre
    Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)
    Mnojo, jazykověda je ještě lepší zábava než linuxový kernel. :-D ;-)
    13.2.2007 15:43 Jan Martinek | skóre: 43 | blog: johny | Brno
    Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)
    Hehe :-) A když už jsme u těch akademických debat, zdá se, že pro převod do ASCII se při normalizaci víc hodí parametr 'NFKD' (místo 'NFD'), přestože ničí část informace. Například:
    >>> ctvrtka = u'\N{VULGAR FRACTION ONE QUARTER}'
    >>> print unicodedata.normalize('NFKD', ctvrtka)
    1⁄4
    >>> print unicodedata.normalize('NFD', ctvrtka)
    ¼
    
    Bohužel, někteří často pomocí skriptů převádějí do ASCII názvy souborů a adresářů. Takže když bude v názvu jedna čtvrtina, vyrobí se z toho nadbytečné lomítko, které v cestě nadělá paseku. No teoreticky by se to stát mohlo, no ne? :-)
    13.2.2007 15:47 Kyosuke | skóre: 28 | blog: nalady_v_modre
    Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)
    Diskuse se začíná nebezpečně stáčet směrem k založení nového projektu na Sourceforgi. :-D

    Založit nové vláknoNahoru

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.