abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    včera 01:00 | Komunita

    Debian dnes slaví 32 let. Ian Murdock oznámil vydání "Debian Linux Release" 16. srpna 1993.

    Ladislav Hagara | Komentářů: 15
    15.8. 17:44 | IT novinky

    Policisté zadrželi odsouzeného drogového dealera Tomáše Jiřikovského, který daroval ministerstvu spravedlnosti za tehdejšího ministra Pavla Blažka (ODS) bitcoiny v miliardové hodnotě, a zajistili i darovanou kryproměnu. Zadržení Jiřikovského může být podle ministerstva důležité k rozuzlení kauzy, která vypukla koncem května a vedla ke konci Blažka. Zajištění daru podle úřadu potvrzuje závěry dříve publikovaných právních

    … více »
    Ladislav Hagara | Komentářů: 8
    15.8. 13:44 | IT novinky

    Administrativa amerického prezidenta Donalda Trumpa jedná o možném převzetí podílu ve výrobci čipů Intel. Agentuře Bloomberg to řekly zdroje obeznámené se situací. Akcie Intelu v reakci na tuto zprávu výrazně posílily. Trump minulý týden označil Tana za konfliktní osobu, a to kvůli jeho vazbám na čínské společnosti, čímž vyvolal nejistotu ohledně dlouholetého úsilí Intelu o obrat v hospodaření. Po pondělní schůzce však prezident o šéfovi Intelu hovořil příznivě.

    Ladislav Hagara | Komentářů: 3
    15.8. 05:44 | IT novinky

    Společnost Purism stojící za linuxovými telefony a počítači Librem má nově v nabídce postkvantový šifrátor Librem PQC Encryptor.

    Ladislav Hagara | Komentářů: 10
    14.8. 18:00 | Nová verze

    VirtualBox, tj. multiplatformní virtualizační software, byl vydán v nové verzi 7.2. Přehled novinek v Changelogu. Vypíchnou lze vylepšené GUI.

    Ladislav Hagara | Komentářů: 0
    14.8. 14:11 | IT novinky

    Eric Migicovsky, zakladatel společnosti Pebble, v lednu oznámil, že má v plánu spustit výrobu nových hodinek Pebble s již open source PebbleOS. V březnu spustil předprodej hodinek Pebble Time 2 (tenkrát ještě pod názvem Core Time 2) za 225 dolarů s dodáním v prosinci. Včera představil jejich konečný vzhled (YouTube).

    Ladislav Hagara | Komentářů: 31
    14.8. 12:44 | Zajímavý software

    Byla oznámena nativní podpora protokolu ACME (Automated Certificate Management Environment) ve webovém serveru a reverzní proxy NGINX. Modul nginx-acme je zatím v preview verzi.

    Ladislav Hagara | Komentářů: 1
    14.8. 12:22 | Nová verze

    Vývojáři KDE oznámili vydání balíku aplikací KDE Gear 25.08. Přehled novinek i s náhledy a videi v oficiálním oznámení.

    Ladislav Hagara | Komentářů: 0
    13.8. 11:55 | IT novinky

    Společnost Perplexity AI působící v oblasti umělé inteligence (AI) podala nevyžádanou nabídku na převzetí webového prohlížeče Chrome internetové firmy Google za 34,5 miliardy dolarů (zhruba 723 miliard Kč). Informovala o tom včera agentura Reuters. Upozornila, že výše nabídky výrazně převyšuje hodnotu firmy Perplexity. Společnost Google se podle ní k nabídce zatím nevyjádřila.

    Ladislav Hagara | Komentářů: 5
    13.8. 04:33 | Bezpečnostní upozornění

    Intel vydal 34 upozornění na bezpečnostní chyby ve svých produktech. Současně vydal verzi 20250812 mikrokódů pro své procesory řešící 6 bezpečnostních chyb.

    Ladislav Hagara | Komentářů: 0
    Kolik tabů máte standardně otevřeno ve web prohlížeči?
     (52%)
     (19%)
     (4%)
     (5%)
     (2%)
     (1%)
     (1%)
     (17%)
    Celkem 406 hlasů
     Komentářů: 23, poslední 4.8. 13:01
    Rozcestník

    Dotaz: HTML->RSS jako třída PHP nebo free online app ...

    9.4.2013 10:02 hanoj
    HTML->RSS jako třída PHP nebo free online app ...
    Přečteno: 273×
    Zajimam se o problem urednich desek na webu, ktere nemaji RSS. V nasem meste je jich cca 40 a kazda je na jinem webu a ma jinou formu HTML, vyvesene rozhodnuti je ale nakonec vzdy PDF.

    Chtel bych agregovat vsechna rozhodnuti na jednu stranku, umoznit filtrovani, hledat zmeny, archivovat. Neco jako HTML->RSS. Nema nekdo zkusenost free online aplikaci nebo s nejakou PHP tridou?

    Odpovědi

    9.4.2013 10:17 NN
    Rozbalit Rozbalit vše Re: HTML->RSS jako třída PHP nebo free online app ...
    RSS je jen dobre naformatovane XML, tak proc tak slozite. Cele to napises bez problemu v PHP. Jednou casti kodu budes tahat data, druhou je parsovat do RSS XML formatu.
    9.4.2013 12:07 hanoj
    Rozbalit Rozbalit vše Re: HTML->RSS jako třída PHP nebo free online app ...
    Abys mohl neco dobre naformatovat potrebujes dobre XML a pak staci XPATH. Ale 40 ruznych adhoc HTML formatu... to bych si rad ulehcil nejakym udelatkem... Takovej nastroj na HTML DOM jako adblock+ by byl dobrej ale GUI nepozaduji ;)
    9.4.2013 11:01 pesspi | skóre: 7 | blog: hateblog
    Rozbalit Rozbalit vše Re: HTML->RSS jako třída PHP nebo free online app ...
    Robil som podobny web v PHP len som agregoval ponuky realitnych kancelarii ktore nemali RSS. Robil som to tak ze som parsoval tie ich stranky. Ak som chcel mat kvalitny vystup, musel som dost pracne pisat parser pre kazdu stranku zvlast. Na jeden web to vychadzalo cca 10 riadkov husteho ad-hoc kodu (regexy, ify, fory). Nejake genericke riesenie mi moc nefungovalo lebo sa menili reklamy na ich webe co sposobovalo ze si system myslel ze sa nieco zmenilo, alebo oni menili poradie inzeratov, pripadne znova publikovali starsie inzeraty.

    Ak je to ako pises ze skutocne je to len odkaz na PDF na webstranke, malo by stacit primitivny regex typu: /http[s]*:\/\/[a-zA-Z0-9-\.\/]+.pdf/ a tieto PDF stahovat a na zaklade nejakeho MD5 hashu rozhodnut ci je to PDF nove alebo nie. Ak je nove zverejnit na RSS (atom je primitivny xml, da sa bez problemov napisat aj rucne).
    9.4.2013 12:04 hanoj
    Rozbalit Rozbalit vše Re: HTML->RSS jako třída PHP nebo free online app ...
    Ano tvuj pripad je hodne podobny. Chapu to tak, ze jsi zadnou knihovnu nepouzil. S temi PDFkami je trochu problem. Jsou zpravidla vnorene nekolik stranek pod uvodnim seznamem. Nektere dokonce zadny prehledny seznam nemaji a lze v nich jen listovat (na jedne strance N je 1 PDF a odtud vede odkaz na stranku N-1 s PDF).
    9.4.2013 12:39 pesspi | skóre: 7 | blog: hateblog
    Rozbalit Rozbalit vše Re: HTML->RSS jako třída PHP nebo free online app ...
    Myslim ze budes kazdu stranku musiet riesit osobitne, niektore na viac krokov (nacitat index, najst formular, daco vyhladat, najst vyseledkove stranky, stiahnut tie a v nich hladat pdf)
    9.4.2013 13:18 hanoj
    Rozbalit Rozbalit vše Re: HTML->RSS jako třída PHP nebo free online app ...
    Jeste by mne zajimalo, jak jsi resil update. Mam predstavu ze 1x za den by se to melo aktualizovat. Jak jsi rozpoznaval na strankach zmeny oproti predchozimu stavu, pripadne novinky od zmen, duplicity z ruznych serveru?
    9.4.2013 13:26 pesspi | skóre: 7 | blog: hateblog
    Rozbalit Rozbalit vše Re: HTML->RSS jako třída PHP nebo free online app ...
    Updaty som riesil raz za hodinu cronom. U mna bol unikatny identifikator md5(nadpis+obsah inzeratu+zoznam nazvov obrazkov), ukladal som to do db a co tam nebolo som oznacil ako nove a islo to do feedu. Duplicity to riesilo len ak skopirovali plne znenie inzeratu. Rucne som potom vyhodil niekolko notoricky sa opakujucich inzeratov (napr. tento). Byty som riesil inak, tam som mal regexy na vsetko mozne a veci ktore ma nezaujimali som rovno zahadzoval (prve poschodie, posledne pozschodie, vybrane ulice a mestske casti). Po tej filtracii uz tam nebol az tak velky trafik, radovo 10 inzeratov denne ktore som vyfiltroval rucne. Pouzival som to len dokym som nekupil byt, potom som to nechal tak.
    9.4.2013 12:30 Kit
    Rozbalit Rozbalit vše Re: HTML->RSS jako třída PHP nebo free online app ...
    V PHP je na to třída DomDocument. Umí číst i nevalidní HTML, ale musí se před to hodit @.
    9.4.2013 13:25 hanoj
    Rozbalit Rozbalit vše Re: HTML->RSS jako třída PHP nebo free online app ...
    diky zda se ze tohle by mi mohlo usnadnit adresovani DOM... getElementsByTagName
    9.4.2013 13:35 Kit
    Rozbalit Rozbalit vše Re: HTML->RSS jako třída PHP nebo free online app ...
    Na to už můžeš použít XPath.
    9.4.2013 13:37 Kit
    Rozbalit Rozbalit vše Re: HTML->RSS jako třída PHP nebo free online app ...
    Také se to dá zpracovat XSLT. Dokonce se tá udělat jednotná šablona pro všech 40 webů.
    9.4.2013 14:04 hanoj
    Rozbalit Rozbalit vše Re: HTML->RSS jako třída PHP nebo free online app ...
    XSLT a XPATH u mne budi hruzu. Jednou jsem to musel pouzit, ale nikdy jsem to nebyl schopen pochopit. Zaklady ano, ale pokrocile, ty co clovek opravdu potrebuje byly mimo me chapani.
    9.4.2013 14:36 Kit
    Rozbalit Rozbalit vše Re: HTML->RSS jako třída PHP nebo free online app ...
    To bude asi proto, že jsi zvyklý na procedurální programování. Také mi dlouho trvalo, než jsem u toho začal přemýšlet v duchu jazyka.

    Načtením do DOMu získáš strom. Virtuální procesor XSLT je druhým stromem. Jejich sloučením (transformací) vznikne třetí strom, výsledek.

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.