Portál AbcLinuxu, 11. května 2025 04:59

Dotaz: Stiahnutie webu a prevod na CSV súbor.

13.12.2010 10:45 macros
Stiahnutie webu a prevod na CSV súbor.
Přečteno: 314×
Odpovědět | Admin
Potreboval by som z adresy http://obaly.sazp.sk/regosob.php?action=edit&id=507 vytiahnuť dáta a vložiť ich do samostatného súboru. A toto urobiť pre id 1 až 10000. Pričom konečným výstupom by mal byť jeden najlepšie CSV súbor.

Je mi jasné, že pomocou nejakého skriptu by to šlo. Žiaľ s mojimi znalosťami je to nad moje sily a preto by som Vás chcel poprosiť buď o radu, alebo o návrh riešenia. Mne sa zatiaľ podarilo len to, že lynx mi spraví dump stranky a zobrazí údaje:
[majo@mitgard ~]$  lynx --dump "http://obaly.sazp.sk/regosob.php?action=edit&id=507" -assume_charset:iso8859-2 
     [1]Prihlásenie   [rozdelovnik.gif]   Register osôb

                       Dnes je 13.12.2010   [rozdelovnik.gif]    [2]tlacit



     [3]Register osôb [rozdelovnik_nadpis.gif] COLOR company, s.r.o.,
   36307262

     Základná Údaje:
     Názov firmy: COLOR company, s.r.o.
     ICO: 36307262
     Registracné císlo: PO_0000261
     Druh firmy: Právnicka osoba
     Stav firmy: Registrované
     Dátum registrácie: 12.02.2004
     Dátum prijatia: 12.02.2004
     Adresa:
     Ulica: Stúrova
     Císlo: 1504
     PSC: 01841
     Obec: Dubnica nad Váhom
     Telefón: 042/4428989
     Fax: 042/4428989
     Email: [4]color@colorcompany.sk
     Stránka www: [5]www.colorcompany.sk
     Statutár:
     Meno a priezvisko: Dusan Bucek, Ing.
     Ulica: Pod Hájom
     Císlo: 1099/101
     PSC: 01841
     Obec: Dubnica nad Váhom
     Registrované materiály:
     Plasty, Kovy - Ocel

References

   1. http://obaly.sazp.sk/index.php
   2. http://obaly.sazp.sk/regosob.php?action=edit&id=507
   3. http://obaly.sazp.sk/regosob.php?action=list
   4. mailto:color@colorcompany.sk
   5. http://www.colorcompany.sk/

Z tohto by som potreboval vybrať len meniace sa hodnoty za spoločnosť, oddeliť ich čiarkou a takto uložiť do súboru. Pričom by sa tam mohlo uložiť aj číslo ID, alebo link ktory je napr. Referencia č. 2. Viem že by to mohlo ísť trebárs cez grep, ale sám neviem ako...

Ďakujem Vám za Vaše rady.
Nástroje: Začni sledovat (0) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

13.12.2010 12:39 NN
Rozbalit Rozbalit vše Re: Stiahnutie webu a prevod na CSV súbor.
Odpovědět | | Sbalit | Link | Blokovat | Admin
Myslim, ze curl,wget + perl/sed regex to hrave zvladnou..

NN
13.12.2010 13:53 macros
Rozbalit Rozbalit vše Re: Stiahnutie webu a prevod na CSV súbor.
Ano, to si myslim aj ja. Ale skor by som potreboval nieco viac ako len ze to ide... ;)
13.12.2010 15:48 Buri
Rozbalit Rozbalit vše Re: Stiahnutie webu a prevod na CSV súbor.
No viac je len navrh spominane nastudovat, zacnite Regular Expressions vyborny tutorial: http://www.regular-expressions.info/tutorial.html

Ostatne sa vyvrbi.

Alebo zalozte projekt a budget a nechajte si to napisat.
13.12.2010 17:22 macros
Rozbalit Rozbalit vše Re: Stiahnutie webu a prevod na CSV súbor.
Dakujem za ten link. Skusim si to nastudovat. Netusim kolko by mohlo stat nechat si napisat skript, ktory bude mat tak mozno do 20 riadkov... Ale snad sa mi to podari aj samemu. A ak nie, nic ine mi neostane :)

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.