abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    včera 23:22 | Bezpečnostní upozornění

    Byl odhalen supply chain attack na Notepad++: útočníci kompromitovali hosting Notepad++ a vybrané dotazy na aktualizace přesměrovávali na servery pod jejich kontrolou. Doporučuje se stáhnout instalátor a přeinstalovat.

    a1bert | Komentářů: 0
    včera 13:22 | Zajímavý projekt

    Francouzská veřejná správa má v rámci vládní iniciativy LaSuite Numérique ('Digitální sada') v plánu od roku 2027 přestat používat Microsoft Teams a Zoom a přejít na videokonferenční platformu Visio, hostovanou na vlastním hardwaru. Konkrétně se jedná o instance iniciativou vyvíjeného open-source nástroje LaSuite Meet, jehož centrální komponentou je LiveKit. Visio nebude dostupné pro veřejnost, nicméně LaSuite Meet je k dispozici pod licencí MIT.

    NUKE GAZA! 🎆 | Komentářů: 5
    včera 12:11 | IT novinky

    Eben Upton oznámil další zdražení počítačů Raspberry Pi: 2GB verze o 10 dolarů, 4GB verze o 15 dolarů, 8GB verze o 30 dolarů a 16GB verze o 60 dolarů. Kvůli růstu cen pamětí. Po dvou měsících od předchozího zdražení.

    Ladislav Hagara | Komentářů: 10
    včera 05:11 | Zajímavý software

    Shellbeats je terminálový hudební přehrávač pro Linux a macOS, který umožňuje vyhledávat a streamovat hudbu z YouTube, stahovat odtud skladby a spravovat lokální playlisty. Pro stahování dat z YouTube využívá yt-dlp, pro práci s audiostreamy mpv. Je napsán v jazyce C a distribuován pod licencí GPL-3.0, rezpozitář projektu je na GitHubu.

    NUKE GAZA! 🎆 | Komentářů: 6
    včera 03:22 | Nová verze

    Byla vydána nová verze 26.1.30 svobodného multiplatformního video editoru Shotcut (Wikipedie) postaveného nad multimediálním frameworkem MLT. S podporou hardwarového dekódování videa. Shotcut je vedle zdrojových kódů k dispozici také ve formátech AppImage, Flatpak a Snap.

    Ladislav Hagara | Komentářů: 0
    včera 03:00 | Nová verze

    LibrePCB, tj. svobodný multiplatformní softwarový nástroj pro návrh desek plošných spojů (PCB), byl po deseti měsících od vydání verze 1.3 vydán ve verzi 2.0.0. Přehled novinek v příspěvku na blogu a v aktualizované dokumentaci. Zdrojové kódy LibrePCB jsou k dispozici na GitHubu pod licencí GPLv3.

    Ladislav Hagara | Komentářů: 2
    1.2. 21:11 | Komunita

    Guido van Rossum, tvůrce programovacího jazyka Python, oslavil 70. narozeniny. Narodil se 31. ledna 1956 v nizozemském Haarlemu.

    Ladislav Hagara | Komentářů: 13
    1.2. 12:22 | Zajímavý software

    OpenClaw je open-source AI asistent pro vykonávaní různých úkolů, ovládaný uživatelem prostřednictvím běžných chatovacích aplikací jako jsou například WhatsApp, Telegram nebo Discord. Asistent podporuje jak různé cloudové modely, tak i lokální, nicméně doporučován je pouze proprietární model Claude Opus 4.5 od firmy Anthropic v placené variantě. GitHubová stránka projektu OpenClaw.

    NUKE GAZA! 🎆 | Komentářů: 4
    1.2. 03:00 | Komunita

    Projekt VideoLAN a multimediální přehrávač VLC (Wikipedie) dnes slaví 25 let. Vlastní, tenkrát ještě studentský projekt, začal již v roce 1996 na vysoké škole École Centrale Paris. V první únorový den roku 2001 ale škola oficiálně povolila přelicencování zdrojových kódů na GPL a tím pádem umožnila používání VLC mimo akademickou půdu.

    Ladislav Hagara | Komentářů: 3
    31.1. 18:11 | Humor

    Moltbook je sociální síť podobná Redditu, ovšem pouze pro agenty umělé inteligence - lidé se mohou účastnit pouze jako pozorovatelé. Agenti tam například rozebírají podivné chování lidí, hledají chyby své vlastní sociální sítě, případně spolu filozofují o existenciálních otázkách 🤖.

    NUKE GAZA! 🎆 | Komentářů: 3
    Které desktopové prostředí na Linuxu používáte?
     (18%)
     (6%)
     (0%)
     (10%)
     (25%)
     (3%)
     (5%)
     (2%)
     (11%)
     (30%)
    Celkem 733 hlasů
     Komentářů: 24, poslední včera 21:31
    Rozcestník
    Alternativně viz také můj osobní blog (RSS pro anglické články, RSS pro české články), kde toho hlavně v angličtině vychází mnohem víc.

    Víte že můžete odebírat mé blogy pomocí RSS? (Co je to RSS?)


    A kdo neumí použít RSS, tak je tu twitter: @Bystroushaak.

    Od určité doby jsou všechny texty které zde publikuji verzované na Githubu.

    Jestliže najdete chybu, nepište mi do diskuze a rovnou jí opravte. Github má online editor, není to skoro žádná práce a podstatně mi tím usnadníte život. Taky vás čeká věčná sláva v commit logu :)

    Aktuální zápisy

    Jak se píše programovací jazyk 3: Parser a AST

    16.2.2019 21:09 | Přečteno: 2343× | Obecné IT | Výběrový blog | poslední úprava: 25.2.2019 00:01

    Ve třetím dílu seriálu Jak se píše programovací jazyk se podíváme na způsob, kterým se z jednorozměrného pole Token objektů udělá syntaktický strom, který pak následně můžeme dále zpracovávat a vyhodnocovat.

    Parser

    Jak bylo popsáno v minulém dílu, Lexer vám kód rozřeže na pole jednotlivých elementů. V mém případě z kódu jako:

    (| asd = 1 | ^asd.)

    udělá pole ve stylu:

    [
      Token("OBJ_START", "("),
      Token("SEPARATOR", "|"),
      Token("IDENTIFIER", "asd"),
      Token("ASSIGNMENT", "="),
      Token("NUMBER", "1"),
      Token("SEPARATOR", "|"),
      Token("RETURN", "^"),
      Token("IDENTIFIER", "asd"),
      Token("OBJ_END", ")")
    ]

    Jde o seznam Token objektů, kde v property .name je uložen název tokenu (například „IDENTIFIER“) a v .value jeho hodnota (například „asd“). Na parseru je poté kód vzít a udělat z něj AST (abstraktní syntaktický strom) ve stylu:

    Object(
      slots={"asd": Number(1)},
      params=[],
      parents={},
      code=[
        Return(
          Send(Self(), Message("asd"))
        )
      ],
    )

    Na to jak je tinySelf jednoduchý jazyk mi dal parser docela zabrat. Původně jsem ho začal psát v RPythonním rpython.rlib.parsing.ebnfparse, což vypadalo opticky dobře a jednoduše:

    IGNORE: " |\n";
    
    root: (expression ["\."])* expression;
    
    object: ["("] slots? sends* [")"];
    block: ["["] slots? sends* ["]"];
    
    return: ["^"] expression;
    expression: IDENTIFIER | value | object | block | send;
    
    #sends: (send ["\."])* send ["\."]?;
    sends: (expression ["\."])* expression ["\."]?;
    send: (receiver? keyword) | (receiver? message) | (receiver? receiver? operator receiver);
    receiver: IDENTIFIER | object | block;
    message: IDENTIFIER;
    keyword: FIRST_KW_IDENTIFIER >expression< (KEYWORD_IDENTIFIER >expression<)*;
    operator: operator_characters+;
    operator_characters: "!" | "@" | "#" | "$" | "%" | "&" | "*" | "-" | "+" | \
                         "=" | "~" | "/" | "?" | "<" | ">" | "," | ";";
    
    slots: ["|"] (>slot_definition< ["\."])* >slot_definition<? ["\."]? ["|"];
    slot_definition: IDENTIFIER | (FIRST_KW_IDENTIFIER >expression<) | ARGUMENT;
    
    value: <string> | <float> | <integer>;
    
    float: integer "\." POSINT;
    integer: "\-" POSINT | POSINT;
    
    POSINT: "0|[1-9][0-9]*";
    
    ARGUMENT: ":[a-z_][a-zA-Z0-9_\*]*";
    IDENTIFIER: "[a-z_][a-zA-Z0-9_\*]*";
    FIRST_KW_IDENTIFIER: "[a-z_][a-zA-Z0-9_]*:";
    KEYWORD_IDENTIFIER: "[A-Z][a-zA-Z0-9_]*:";
    
    string: SINGLE_QUOTED_STRING | DOUBLE_QUOTED_STRING;
    SINGLE_QUOTED_STRING: "'[^\\\']*'";
    DOUBLE_QUOTED_STRING: "\\"[^\\\\"]*\\"";

    Poměrně záhy jsem však narazil na nedostatek dokumentace a taky na chování, které mi vysloveně vadilo (všechny ty >< a <> kolem identifikátorů, divná rekurze s |, mixování s reguláry atd..). Od začátku jsem to pojal jako TDD development (psatní testů před kódem) a jen díky tomu jsem se z toho nezcvokl, neměl jsem k tomu však daleko.

    Bystřejší čtenáři si jistě všimli, že v kódu jsou použity jiné tokeny, než v předchozím díle. Je tomu tak proto, že ebnfparse umožňuje definovat tokeny zároveň s parserem, což rply neumožňuje a to co bylo uvedeno v minulém díle je má pozdější snaha.

    RPLY

    Chybějící dokumentace mě časem donutila od RPythonního ebnfparse odejít, speciálně když jsem si procházel ostatní projekty, které používaly jiné parsery. Časem jsem narazil na rply, což je port parseru ply přímo pro RPython. Funguje tak, že píšete dekorátory funkcím ve stylu:

    @pg.production('expression : NUMBER')
    def expression_number(p):
        return Number(int(p[0].getstr()))

    Dekorátor určuje pattern z tokenů. Dekorovaná funkce pak co se s tokeny provede. Všechny tokeny jsou předány v poli v proměnné ‚p‘.

    V kódu nahoře se vezme první token (index 0) a vratí se objekt Number s tokenem, jehož hodnota byla převedena na číslo.

    Number není žádný magický objekt, nadefinoval jsem si ho sám po vzoru ostatních parserů. Dohromady mám tyto objekty, ze kterých se sestavuje syntaktický strom:

    Jak je vidět, v tinySelfu existují pouze objekty, bloky, akt poslání zprávy, přeposlání zprávy, kaskáda zpráv (akt poslání několika zpráv jednomu objektu), návrat hodnoty, tři typy zpráv (unární, binární, keyword) a poté čtyři zkratky pro často používané objekty: čísla, stringy, Self a Nil. Self by existovat teoreticky nemusel, mohla by to být jen Message("self") poslaná nikomu, ale zpřehledňuje to kód i výsledný strom. Nil je jen zkratka pro singleton, který by mohl být uložený v globálním namespace.

    Složitější rekurzivní pravidla

    Zde je ukázka složitějšího transformačního pravidla:

    @pg.production('expression : IDENTIFIER')
    def unary_message(p):
        return Send(obj=Self(), msg=Message(p[0].getstr()))
    
    @pg.production('expression : expression IDENTIFIER')
    def unary_message_to_expression(p):
        return Send(obj=p[0], msg=Message(p[1].getstr()))

    Na ukázce je dobře vidět, jak vzniká poslání zpráv a jak je řešeno vkládání implicitního Selfu. Pokud je identifikátor poslán zdánlivě ničemu, je aktu poslání zprávy předán jako cíl Self(). Pokud je před identifikátorem nějaký výraz, je cíli poslání zprávy předán první token obsahující tento výraz (což už je naparsovaná expression, tedy prvek AST).

    Podobnými pravidly je složen celý jazyk. Zde je také hezky vidět rekurzivní povaha parseru, který definuje expression jako identifikátor a poté také jako expression následované identifikátorem. Parser takhle provede rekurzivní pattern matching na všechny odpovídající tokeny, v samotných funkcích se pak jen definuje, co se z toho má složit za AST.

    Tenhle přístup má svou výhodu, protože vám dovoluje skládat AST přímo tak jak ho chcete. Předtím používaný ebnf z RPythonu vypadal sice zapsán elegantněji jako jeden krásný string, ale neumožňoval žádné skoro žádné manipupace s AST a vyplivl vám strom z tokenů, který bylo dále třeba zpracovávat. I když to bylo na vyšší úrovni, než samotné pole tokenů, stejně to byl masivní opruz. Oproti tomu přímý přístup k datům v rply vám umožňuje vygenerovat rovnou hotový a upravený AST.

    Zde je zdrojový kód celého parseru:

    Nikdy dřív jsem nepsal takhle složitý EBNF parser a musím říct, že to pro mě byl docela záhul. Naučit se přemýšlet v rekurzivně skládaných definicích mi dalo zabrat, a to ani nemluvím o tom, že jsem pro Self nenašel žádnou EBNF definici, takže jsem si jí podle manuálu +- skládal sám.

    Nakonec se však povedlo a kód prošel všemi testy, které jsem pro něj napsal. Myslel jsem si, že tím to pro mě končí, ale jak se ukázalo, byl to jen začátek další parsovací bolesti, tentokrát spočívající ve snaze kód upravit pro překlad RPythonem.

    Pokračování

    Příští díl bude takovým mezidílem na téma RPythonu a některých praktických problémů, které jsem musel vyřešit, abych mohl parser a lexer pod ním zkompilovat.

           

    Hodnocení: 89 %

            špatnédobré        

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    Komentáře

    Vložit další komentář

    17.2.2019 14:20 Odin1918 | skóre: 6 | blog: Valhalla
    Rozbalit Rozbalit vše Re: Jak se píše programovací jazyk 3: Parser a AST
    Kvuli takovym clankum ma stale smysl sem chodit. Dekuji moc za clanek. Mohu se prosim zeptat, jakym nastrojem je vygenerovan onen pekny diagram?
    Bystroushaak avatar 17.2.2019 16:15 Bystroushaak | skóre: 36 | blog: Bystroushaakův blog | Praha
    Rozbalit Rozbalit vše Re: Jak se píše programovací jazyk 3: Parser a AST
    Je to obyčejné plantuml. Dělá se to deklarativními zápisy. Třeba ten pro tenhle diagram vypadá takhle: ast.plantuml.

    Někdy okolo sedmého dílu se tomu budu věnovat víc, protože jsem ty diagramy dynamicky generoval, když jsem se snažil oddebugovat tail call optimizace.
    17.2.2019 20:28 Odin1918 | skóre: 6 | blog: Valhalla
    Rozbalit Rozbalit vše Re: Jak se píše programovací jazyk 3: Parser a AST
    To je moc pekne, toto jsem neznal. Pred lety jsem toto resil u pomerne komplexniho a velmi "kosateho" projektu, kde snaha byla doplnit dokumentaci i automaticky generovanymi UML diagramy klicovych komponent. Nakonec jsem zplacal programek, ktery prolezl vsechny zdrojaky, zmapoval tridy a vztahy mezi nimi a vygeneroval zadani pro graphviz. Toto ale vypada lepe a srozumitelne - rozhodne vystup je daleko lepsi nez u graphvizu pred lety. ;-)
    Bystroushaak avatar 17.2.2019 20:59 Bystroushaak | skóre: 36 | blog: Bystroushaakův blog | Praha
    Rozbalit Rozbalit vše Re: Jak se píše programovací jazyk 3: Parser a AST
    Nakonec jsem zplacal programek, ktery prolezl vsechny zdrojaky, zmapoval tridy a vztahy mezi nimi a vygeneroval zadani pro graphviz.
    Hehe, to jsem před pár lety napsal taky. Tenkrát jsem si zakládal na tom, že mám v dokumentaci vždycky i pár obrázků, ze kterých je možné letmým pohledem pochopit vztahy v kódu, jednak co je tam za struktury, ale taky jak je použít, kde jsem UML znásilňoval tak aby popisovalo tok programu.
    Toto ale vypada lepe a srozumitelne - rozhodne vystup je daleko lepsi nez u graphvizu pred lety. ;-)
    Pokud se nepletu, tak plantuml na graphvizu staví, akorát ho v podstatě omezuje na jím používané diagramy. Ale nejsem si tím jistý stoprocentně.
    17.2.2019 21:49 Pavel Křivánek | skóre: 29 | blog: Kvičet nezávaznou konverzaci
    Rozbalit Rozbalit vše Re: Jak se píše programovací jazyk 3: Parser a AST
    PlantText taky používám, jen je škoda, že není založen na nějaké solidní gramatice. Jeden kolega si moc pochvaloval velice přívětivý přístup autora, který jeho rozumné návrhy na vylepšení prakticky okamžitě to PlantTextu zapracoval a komunikuje velice přátelsky.
    I'm sure it crashed in the most type-safe way possible.
    21.2.2019 21:46 kvr
    Rozbalit Rozbalit vše Re: Jak se píše programovací jazyk 3: Parser a AST
    Bouml ( http://bouml.fr/ ) má pěkné diagramy taky (a editovatelné), a umí reverse engineering. Podporuje poměrně hodně jazyků (Java, C++, Python, Php atd.), u reverse engineering těch dynamicky typovaných si nejsem jistý limitacemi, s Java a C++ funguje dobře. Export na web ideálně do SVG.
    22.2.2019 16:27 Ivan
    Rozbalit Rozbalit vše Re: Jak se píše programovací jazyk 3: Parser a AST
    Myslel jsem si, že tím to pro mě končí, ale jak se ukázalo, byl to jen začátek další parsovací bolesti, tentokrát spočívající ve snaze kód upravit pro překlad RPythonem.

    To mi pripomelo "Life After Parsing"

    https://www.semanticdesigns.com/Products/DMS/LifeAfterParsing.html?Home=DMSToolkit

    Založit nové vláknoNahoru

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.