Portál AbcLinuxu, 10. května 2025 13:39

Dotaz: Zhuštění HTML.

26.3.2006 17:59 jirka
Zhuštění HTML.
Přečteno: 193×
Odpovědět | Admin
Potřeboval bych nějaký program nebo script, který by dokázal zkrátit html kód (je tam i javascript). Obsahuje spoustu mých komentářů a také plno mezer, které tvoří formátování dokumentu. Existuje něco co by dokázalo tyto věci vyházet aniž bych přišel o funkčnost? Nebo je to součástí nějakého editoru?
Nástroje: Začni sledovat (0) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

26.3.2006 18:23 © | skóre: 37 | blog: escaped
Rozbalit Rozbalit vše Re: Zhuštění HTML.
Odpovědět | | Sbalit | Link | Blokovat | Admin
Myslim, ze odmazat komentare pomoci nastroje sed(1) by snad nemel byt takovy problem. Je jen zapotrebi znat regularni vyrazy a precist si manual. Napr. odmazani HTML komentaru se udela velmi snadno:
---cut---
#!/usr/bin/sed -f
/<!--/!b
:a
/-->/!{
        N
        ba
}
s/<!--.*-->//
---cut---
Tento script je ale asi notoricky znamy. Nevim, jak se komentuje v tech vlozenych scriptech, ale jestli to je podobne treba C ci C++, pak se jich zbavis treba timto scriptikem.

Vice o sed(1) a regularnich vyrazech naleznes treba tady.

Skvely editor Vim by mel v kazde normalni distribuci GNU/Linuxu podporovat (perlovske) regularni vyrazy. Zkusil bych hledat i na jeho strankach, treba tam neco bude...

Anebo pouzij Google abys nasel presne to, co hledas; tedy, asi nenaleznes uplne presne to, co hledas, ale rozhodne naleznes nekolik vhodnych kusu, ktere si das dohromady a... voila.
26.3.2006 19:04 jirka
Rozbalit Rozbalit vše Re: Zhuštění HTML.
Tak ten script hlásí spoustu chyb.
./rem_rem.sed: line 5: !--/!b: není souborem ani adresářem
./rem_rem.sed: line 6: :a: command not found
./rem_rem.sed: line 7: /!{: Přístup odmítnut
./rem_rem.sed: line 8: N: command not found
./rem_rem.sed: line 9: ba: command not found
./rem_rem.sed: line 10: syntax error near unexpected token `}'
./rem_rem.sed: line 10: `}'
Asi nevím jak ho spustit. Potřeboval bych vymazat všechno mezi
<!--  -->
a pak všechno co začíná
//
do konce řádku. Dále mezery před a za těmito znaky:
{}(),;=+-<>
a ještě možná něco. Mezery na začátku řádku a na konci řádku. A taky více mezer zaměnit za jednu.
S tím sedem, jsem už několikrát experimentoval, ale asi jsem to nepochopil, nebo't mi nikdy nic nefungovalo. Ale myslím si, že nejsem první, kdo něco takového chce, takže to někde (na Google) musí být. Jinak Google jsem pochopitelně zkoušel, ale nic kloudného jsem nenašel. Je to asi otázka vhodně volených slov.
26.3.2006 20:42 jirka
Rozbalit Rozbalit vše Re: Zhuštění HTML.
#!/bin/sh
f1="f1.txt"
f2="f2.txt"
cat $1 | sed 's/        / /g '| sed 's/     / /g' | sed 's/   / /g '| sed 's/  / /g' >${f2}
cat ${f2} | sed 's/= /=/g '| sed 's/ =/=/g '| sed 's/( /(/g '| sed 's/ )/)/g '| sed 's/ (/(/g '| sed 's/) /)/g' >${f1}
cat ${f1} | sed 's/+ /+/g '| sed 's/ +/+/g '| sed 's/- /-/g '| sed 's/ -/-/g' >${f2}
cat ${f2} | sed 's/, /,/g '| sed 's/ ,/,/g '| sed 's/; /;/g '| sed 's/ ;/;/g' >${f1}
cat ${f1} | sed 's/< /</g '| sed 's/ </</g '| sed 's/> />/g '| sed 's/ >/>/g' >${f2}
cat ${f2} | sed 's/{ /{/g '| sed 's/ {/{/g '| sed 's/} /}/g '| sed 's/ }/}/g '| sed 's/^ //g '| sed 's/ $//g' >${f1}
cat ${f1} | sed 's/[ (){};]\/\/.*//g '| sed 's/\s*$//g '| sed 's/^$//g '| sed 's/<\!--.*-->//g' >${f2}
cat ${f2} | sed '/^$/d '| sed '/^\/\//d' >$2
Tak jsem napsal tohle, no jakžtakž to funguje. No mohlo to bejt lepší.
David Watzke avatar 27.3.2006 06:18 David Watzke | skóre: 74 | blog: Blog... | Praha
Rozbalit Rozbalit vše Re: Zhuštění HTML.
Jo, to mohlo :-) Zbytečný caty (zvládne to sed), zbytečný sedy (přepínač -e u sedu).
“Being honest may not get you a lot of friends but it’ll always get you the right ones” ―John Lennon
27.3.2006 09:29 jirka
Rozbalit Rozbalit vše Re: Zhuštění HTML.
Tak jsem si stím hrál celou noc:
s1="zdroj.html"
s2="cíl.html"
f1="f1.txt"
f2="f2.txt"

# smaže prázdné místo (mezery, tabulátory) ze začátku i z konce
sed 's/^[ \t]*//g;s/[ \t]*$//g' ${s1} >${f1}

# nahradí tabulátor mezerou, smaže mezery, smaže mezeru (tabulátor) na konci řádku.
sed -e 's/\t/ /g' -e 's/        / /g' -e 's/     / /g' -e 's/   / /g' -e 's/  / /g' -e 's/[ \t]*$//' ${f1} >${f2}

# Mazání mezer před a za vybranými znaky:
sed -e 's/= /=/g' -e 's/ =/=/g' -e 's/( /(/g' -e 's/ )/)/g' ${f2} >${f1}
sed -e 's/+ /+/g' -e 's/ +/+/g' -e 's/- /-/g' -e 's/ -/-/g' ${f1} >${f2}
sed -e 's/, /,/g' -e 's/ ,/,/g' -e 's/; /;/g' -e 's/ ;/;/g' ${f2} >${f1}
sed -e 's/< /</g' -e 's/ </</g' -e 's/> />/g' -e 's/ >/>/g' ${f1} >${f2}
sed -e 's/{ /{/g' -e 's/ {/{/g' -e 's/} /}/g' -e 's/ }/}/g' -e 's/^ //g' -e 's/ $//g' ${f2} >${f1}

# Pozor na konstrukci: //--></SCRIPT> ukončující javascript:
sed -e 's/\/\/[^-].*//g' -e 's/ $//g' -e 's/ \*/*/g' -e 's/\* /*/g' -e 's/<\!--.*-->//g' ${f1} >${f2}

# smaže prázdné řádky
sed -e '/^$/d' ${f2} >${f1}

# pokud řádka začíná "}" připojí ji k předchozí řádce a přidá tam "}":
sed -e :a -e '$!N;s/\n}/}/;ta' -e 'P;D' ${f1} >${f2}

# pokud řádka začíná "</" připojí ji k předchozí řádce a přidá tam "</":
sed -e :a -e '$!N;s/\n<\//<\//;ta' -e 'P;D' ${f2} >${f1}

# pokud řádka končí těmito znaky [{,;] připojí následující řádku:
sed -e :a -e '/[{,;]$/N; s/\n//; ta' ${f1} >${f2}

# Doplní omylem smazaný řádek (někde je tam chyba):
sed -e 's/^<\!D.*/<!DOCTYPE HTML PUBLIC "-\/\/W3C\/\/DTD HTML 4\.01 Frameset\/\/EN">/g' ${f2} >${s2}

# Uklidí dočasné soubory:
rm -f ${f1}
rm -f ${f2}
Už to začíná vypadat k světu. :-)
27.3.2006 01:25 © | skóre: 37 | blog: escaped
Rozbalit Rozbalit vše Re: Zhuštění HTML.
Ten script samosebou funguje, proc by take nefungovat? Neco delate spatne!
chmod +x rem_rem.sed
./rem_rem.sed
A tady piste, uvidite sam, ze funguje...
staci do nej presmerovat vstup a jede...
komentar <!-- bude ignorovan -->
jeste nejaky problem?
CTRL-D
Jo, nastavte si taky dobre cestu na zacatku toho scriptu. Spravnou cestu k programu sed(1) zjistite treba takto:
which sed
/usr/bin/sed
Vice viz which(1) (neboli man 1 which).

Ten script spustite treba takto:
./rem_rem.sed soubor.html
./rem_rem.sed < soubor.html
./rem_rem.sed soubor.html > vysledek.html
./rem_rem.sed < soubor.html > vysledek.html
Prvni 2 priklady vam to vypisi na standardni vystup. Druhe 2 to vypisi do souboru vysledek.html. Prvni priklad dava scriptu soubor.html jako parametr. Druhy priklad soubor presmeruje na standardni vstup do scriptu. V tretim prikladu se vezme soubor a vystup se presmeruje do jineho souboru. Ve ctvrtem prikladu se presmeruje soubor do script a vystup se presmeruje do jineho souboru. Pouzijte co se vam libi.

Heledte, a co si treba precist alespon nejake zaklady prace v shellu? Doporucuji knizku "Linux v kostce" (neni draha, maji ji snad vsude a obsahuje manualove stranky vsech zakladnich programu plus mozna i neco navic, samosebou cesky). Pro zakladni orientaci snad postaci, je takova bila s obrazkem kone na obalce.

PS: Neni to vsechno tak tezke, jak to vypada. Jen staci tomu dat par veceru a budete v tom jako doma, verte mi!
27.3.2006 01:46 © | skóre: 37 | blog: escaped
Rozbalit Rozbalit vše Re: Zhuštění HTML.
In Google non est, ergo non est. ;-)
26.3.2006 18:30 Michal Vyskočil | skóre: 60 | blog: miblog | Praha
Rozbalit Rozbalit vše Re: Zhuštění HTML.
Odpovědět | | Sbalit | Link | Blokovat | Admin
Nebo, přenášet data komprimovaná, jak to definuje rfc2616. Prohlížeč si je potom normálně rozbalí a zobrazí.
When your hammer is C++, everything begins to look like a thumb.
27.3.2006 04:35 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Zhuštění HTML.
Nebo dělat SFX stránky s dekompresním algoritmem v Javascriptu... :-D

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.