abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 00:11 | Nová verze

    Byla vydána nová verze 4.5 (𝕏, Bluesky) multiplatformního open source herního enginu Godot (Wikipedie, GitHub). Přehled novinek i s náhledy v příspěvku na blogu.

    Ladislav Hagara | Komentářů: 0
    včera 21:33 | Nová verze

    Byla vydána verze 3.0 (Mastodon) nástroje pro záznam a sdílení terminálových sezení asciinema (GitHub). S novou verzí formátu záznamu asciicast v3, podporou live streamingu a především kompletním přepisem z Pythonu do Rustu.

    Ladislav Hagara | Komentářů: 0
    včera 21:00 | Komunita

    Canonical oznámil, že bude podporovat a distribuovat toolkit NVIDIA CUDA (Wikipedie) v Ubuntu.

    Ladislav Hagara | Komentářů: 0
    včera 20:44 | IT novinky

    Tržní hodnota americké společnosti Alphabet, která je majitelem internetového vyhledávače Google, dnes poprvé překonala hranici tří bilionů dolarů (62,1 bilionu Kč). Alphabet se připojil k malé skupině společností, které tuto hranici pokořily. Jsou mezi nimi zatím americké firmy Nvidia, Microsoft a Apple.

    Ladislav Hagara | Komentářů: 0
    včera 20:33 | IT novinky

    Spojené státy a Čína dosáhly dohody ohledně pokračování populární čínské platformy pro sdílení krátkých videí TikTok v USA. V příspěvku na síti Truth Social to dnes naznačil americký prezident Donald Trump. Dosažení rámcové dohody o TikToku vzápětí oznámil americký ministr financí Scott Bessent, který v Madridu jedná s čínskými představiteli o vzájemných obchodních vztazích mezi USA a Čínou. Bessentova slova později potvrdila také čínská strana.

    Ladislav Hagara | Komentářů: 0
    včera 16:55 | Komunita

    MKVToolNix, tj. sada nástrojů pro práci s formátem (medialnym kontajnerom) Matroska, byl vydán ve verzi 95.0. Podpora přehrávání formátu Matroska míří do Firefoxu [Bug 1422891, Technický popis]. Přehrávání lze již testovat ve Firefoxu Nightly.

    Ladislav Hagara | Komentářů: 0
    13.9. 17:33 | Pozvánky

    Spolek OpenAlt zve příznivce otevřených řešení a přístupu na 211. sraz, který proběhne v pátek 19. září od 18:00 ve Studentském klubu U Kachničky na Fakultě informačních technologií Vysokého učení technického na adrese Božetěchova 2/1. Na srazu proběhne přednáška Jiřího Eischmanna o nové verzi prostředí GNOME 49. Nemáte-li možnost se zúčastnit osobně, přednáškový blok bude opět streamován živě na server VHSky.cz a následně i zpřístupněn záznam.

    Ladislav Hagara | Komentářů: 0
    13.9. 01:33 | IT novinky

    Microsoft se vyhnul pokutě od Evropské komise za zneužívání svého dominantního postavení na trhu v souvislosti s aplikací Teams. S komisí se dohodl na závazcích, které slíbil splnit. Unijní exekutivě se nelíbilo, že firma svazuje svůj nástroj pro chatování a videohovory Teams se sadou kancelářských programů Office. Microsoft nyní slíbil jasné oddělení aplikace od kancelářských nástrojů, jako jsou Word, Excel a Outlook. Na Microsoft si

    … více »
    Ladislav Hagara | Komentářů: 10
    12.9. 14:00 | Nová verze

    Samba (Wikipedie), svobodná implementace SMB a Active Directory, byla vydána ve verzi 4.23.0. Počínaje verzí Samba 4.23 jsou unixová rozšíření SMB3 ve výchozím nastavení povolena. Přidána byla podpora SMB3 přes QUIC. Nová utilita smb_prometheus_endpoint exportuje metriky ve formátu Prometheus.

    Ladislav Hagara | Komentářů: 0
    12.9. 12:00 | Zajímavý článek

    Správcovský tým repozitáře F-Droid pro Android sdílí doporučení, jak řešit žádosti o odstranění nelegálního obsahu. Základem je mít nastavené formální procesy, vyhrazenou e-mailovou adresu a být transparentní. Zdůrazňují také důležitost volby jurisdikce (F-Droid je v Nizozemsku).

    |🇵🇸 | Komentářů: 21
    Pro otevření více webových stránek ve webovém prohlížečí používám
     (81%)
     (7%)
     (3%)
     (3%)
     (4%)
     (2%)
    Celkem 181 hlasů
     Komentářů: 12, poslední 10.9. 13:00
    Rozcestník

    Dotaz: Python a XML

    17.8.2012 09:47 George O.
    Python a XML
    Přečteno: 651×
    Zdravim, potrebuju parsovat html obsah a tak jsem se koukal, ktere knihovny python nabizi, nasel jsem xml.parsers.expat a xml.dom.minidom. Bohuzel, ani jedna nefunguje a momentalne nechapu proc. Data, ktera parsuji jsou v kodovani utf-8 a presne takove kodovani nastavuji i parseru, avsak vzdy to selze na nejakem beznem znaku, napriklad:
    <img src="imageResize.php?src=_public/upload/images/2011-03/34502249_villa.jpg&w=522&h=619&crop=1" alt="The Villas" />
                            <img src="imageResize.php?src=_public/upload/images/2011-03/p1-2.jpg&w=522&h=619&crop=1" alt="The Villas 2" />
                            <img src="imageResize.php?src=_public/upload/images/2011-03/p1.jpg&w=522&h=619&crop=1" alt="The Villas" />
    zde to pada na 2. radku a pise to chybu u 92., 94. anebo 105. znaku... Chyba presne zni: "noZdravim, potrebuju parsovat html obsah a tak jsem se koukal, ktere knihovny python nabizi, nasel jsem xml.parsers.expat a xml.dom.minidom. Bohuzel, ani jedna nefunguje a momentalne nechapu proc. Data, ktera parsuji jsou v kodovani utf-8 a presne takove kodovani nastavuji i parseru, avsak vzdy to selze na nejakem beznem znaku, napriklad:
    <img src="imageResize.php?src=_public/upload/images/2011-03/34502249_villa.jpg&w=522&h=619&crop=1" alt="The Villas" />
                            <img src="imageResize.php?src=_public/upload/images/2011-03/p1-2.jpg&w=522&h=619&crop=1" alt="The Villas 2" />
                            <img src="imageResize.php?src=_public/upload/images/2011-03/p1.jpg&w=522&h=619&crop=1" alt="The Villas" />
    zde to pada na 2. radku a pise to chybu u 92., 94. anebo 105. znaku... Chyba presne zni: "not well-formed (invalid token): line 106, column 94", coz mi nedava smysl, protoze tam zadny non-ascii znak neni...

    Mate s tim nekdo zkusenosti? Diky :-)t well-formed (invalid token): line 106, column 94", coz mi nedava smysl, protoze tam zadny non-ascii znak neni...

    Mate s tim nekdo zkusenosti? Diky :-)

    Odpovědi

    17.8.2012 09:51 George O.
    Rozbalit Rozbalit vše Re: Python a XML
    Koukam, ze zde to vkladani dotazu je nejake rozbite, inu tady je PRESNA KOPIE meho dotazu, kterou si vzdycky ukladam pred odeslanim requestu do pameti:

    http://pastebin.com/2DMp7Eht
    17.8.2012 10:01 l4m4
    Rozbalit Rozbalit vše Re: Python a XML
    Ampersandy v atributech musí být zapsány pomocí entit, pokud to má být parsovatelné coby XML.
    17.8.2012 10:09 George O.
    Rozbalit Rozbalit vše Re: Python a XML
    Aha, takze i presto, ze treba ten parser neukazuje primo chyby u tech "&", tak je to jimi? To uz, hadam, je vykonnejsi napsat si svuj vlastni parser, kdyz bych musel zvalidovat to cele xml pred vlastnim parsovanim...
    17.8.2012 10:25 l4m4
    Rozbalit Rozbalit vše Re: Python a XML
    Nevím, zda jsou ampersandy jediný problém, ale praštily do očí.

    Můžeš použít třeba tidy...

    Ale obecně, ano: nedává smysl parsovat něco, co není X[HT]ML, coby XML. Stejně dobře můžeš zkoušet parsovat JPEG jako CSV...
    17.8.2012 10:29 kuka
    Rozbalit Rozbalit vše Re: Python a XML
    Tak s chuti do toho, napsat parser bude jiste snazsi nez osetrit par specialnich znaku. Ale jak uz nekdo psal - jestlize to neni XML, tak mozna XML parser nebude nejlepsi napad...
    17.8.2012 10:50 George O.
    Rozbalit Rozbalit vše Re: Python a XML
    Problem vyresen - ja blbec jsem se spatne koukal a az ted jsem nasel primo HTMLParser, mlatim se hlavou do stolu, dekuji za vas cas :-)
    17.8.2012 20:07 intense
    Rozbalit Rozbalit vše Re: Python a XML
    Ak je možné tak odporúčam používať validné XML + lxml. V prípade že sa nedá validnosť xml kódu zaručiť (asi tento prípad) tak odporúčam použiť knižnicu Beautiful Soup, ktorá v celku dobre handluje chyby počas parsovania.
    17.8.2012 20:31 chrono
    Rozbalit Rozbalit vše Re: Python a XML
    lxml obsahuje aj html5parser, takže aj lxml by si s tým malo poradiť.
    17.8.2012 20:56 intense
    Rozbalit Rozbalit vše Re: Python a XML
    ono ani tak nejde o parsovanie html5 ale o štruktúru kódu, lxml ale nehandluje moc dobre nevalidný kód, teda pri parsovaní zlyhá, preto skôr soup, ktorý si väčšinou dokáže poradiť s nevalidným kódom
    17.8.2012 20:57 intense
    Rozbalit Rozbalit vše Re: Python a XML
    ne html5... (preklep) html/xml celkovo som myslel
    17.8.2012 21:45 chrono
    Rozbalit Rozbalit vše Re: Python a XML
    Práve html5 štandard by sa mal postarať, okrem iného, o to, aby nevalidný kód všetky aplikácie spracovávali rovnako. Takže ak ten kód dokážu spracovať prehliadače, mali by fungovať aj knižnice na parsovanie html5 (zvyčajne používam práve html5 parser z lxml, ale pre python sú aj iné).
    18.8.2012 15:46 l4m4
    Rozbalit Rozbalit vše Re: Python a XML
    Práve html5 štandard by sa mal postarať, okrem iného, o to, aby nevalidný kód všetky aplikácie spracovávali rovnako.
    Další ukázka toho, že lidi okolo HTML5 nechápou smysl slov jako standard, validní, specifikace, vyhovující, ...

    V tomto případě fakticky rozšiřují definici platných (validních) HTML dokumentů tak, že zahrnuje i dnes nevalidní -- ať už tomu říkají jakkoli.
    18.8.2012 19:12 Radek Miček | skóre: 23 | blog: radekm_blog
    Rozbalit Rozbalit vše Re: Python a XML
    To, že se specifikuje chování v chybových stavech ještě neznamená, že se tyto stavy považují správné.
    18.8.2012 19:58 l4m4
    Rozbalit Rozbalit vše Re: Python a XML
    Je specifikováno, že takový chybový stav bude indikován jako chybový (o odmítnutí ani nemluvím)? Liší se nějak zacházení s takovým dokumentem od zacházení se ,správným`? Neliší-li, tak se tyto stavy považují za správné, jen se to ve ,standardu` nesmyslně pojmenovává.

    Lze vůbec z pohledu toho jejich ,living standard` v principu odlišit chybový stav? Třeba je ten dokument podle standardu, jak vypadal před týdnem, nebo jak bude vypadat až za týden...
    18.8.2012 20:29 intense
    Rozbalit Rozbalit vše Re: Python a XML
    Asi som so svojím príspevkom rozpútal vášnivú diskusiu ale nemôžeme ísť späť k pôvodnému problému? Myslím že ideme off topic. Ako som už písal, tak z vlastnej skúsenosti odporúčam skúsiť ten Beautiful Soup na rozparsovanie, ktorý (v mojom prípade) zvláda rozparsovať väčšinou aj html kde lxml a xml zlyhávajú.
    18.8.2012 21:10 Radek Miček | skóre: 23 | blog: radekm_blog
    Rozbalit Rozbalit vše Re: Python a XML
    Je specifikováno, že takový chybový stav bude indikován jako chybový (o odmítnutí ani nemluvím)?
    Při výskytu chyby se musí parser řídit pravidly pro zotavení nebo musí ukončit zpracování vstupu.
    Neliší-li, tak se tyto stavy považují za správné, jen se to ve ,standardu` nesmyslně pojmenovává.
    Nevím, co si představujete pod pojmem "lišit se".

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.