Portál AbcLinuxu, 1. května 2025 05:45
rssLougne
Navíc, pokud chodí diff, tak není třeba nic filtrovat – nezajímavé části stránky se nemění a nejsou tedy vidět.Já to používal právě naopak - kvůli filtraci dynamckého obsahu. Dneska bych to ale celé psal úplně jinak, v té době jsem ani neuměl pořádně používat HTML parser.
Máš ten kód někde poruce?Je to gigantická prasárna, kterou jsem začal psát před lety a když zmizela motivace proč vlastně, tak jsem to nedodělal. Kód ani nemá cenu posílat, jen jednoduché použití pythonní difflib. V podstatě se ten script koukne na diff mezi dvěma načteními stránky a pak vrátí jen to co je stejné. Díky tomu člověk zahodí reklamu a různé nesmyslné hodiny, svátky a další dynamické kraviny, co si lidi dávaj na stránky. Jinak teď koukám, že v té difflib je i HtmlDiff - ten by mohl práci dost usnadnit. PS: reklama tady na abclinuxu je taky boží. Někdy používá jiné kódování, takže mi pak shazuje python 2.x scripty, které neumí tohle mixování zkousnout a padají na tisíckrát proklínaném "ascii codec can't decode..". Řešení je prostě dokola načítat stránku, dokud nepřijde jiná reklama.
Tiskni
Sdílej:
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.