Portál AbcLinuxu, 7. května 2025 05:41

Dotaz: Regexp na vymazání středníků mimo entit typu & amp ;

20.7.2010 17:51 outlier | skóre: 14
Regexp na vymazání středníků mimo entit typu & amp ;
Přečteno: 323×
Odpovědět | Admin
Ahoj, nenapadá někoho, jak (pro python) napsat regulární výraz, který z řetězce (např. "&_amp_; one ; two; &_nbsp_;" - podtržítka jsou přidaná pro zobrazení v html) vymaže všechny středníky, které nejsou z html entit typu &something; ? Tj. z daného řetězce by vrátil "&_amp_; one two  ". Vím, že se to udělat jinak než přes jeden regexp, ale přeci jen je to výzva. Přes lookbehind konstrukci to asi nejde, zkoušel jsem nějak přes skupiny, ale k pozitivnímu výsledku jsem se zatím nedobral...

"\&\; one ; two;  " 
--> "\&\; one  two \ \;"

Řešení dotazu:


Nástroje: Začni sledovat (1) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

20.7.2010 19:12 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Regexp na vymazání středníků mimo entit typu & amp ;
Odpovědět | | Sbalit | Link | Blokovat | Admin
Entitu &something; můžete zapstat jako &something; První část (&) se převede na ampersand a společně s druhou částí dotvoří požadovaný text.
"& one ; two;  " 
--> "& one  two  "
20.7.2010 20:51 Filip Jirsák | skóre: 68 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Regexp na vymazání středníků mimo entit typu & amp ;
Odpovědět | | Sbalit | Link | Blokovat | Admin
Proč by to přes lookbehind nemělo jít? Zkusil jsem to v Groovy (Javovskou třídu pro regexp znám, Pythonovskou bych musel hledat), ale v Javě se používají Perl-like regulární výrazy stejně jako v Pythonu, takže tenhle výraz by měl fungovat:
java.util.regex.Pattern.compile("(?<!&amp|&nbsp);").matcher("&amp; one ; two; &nbsp;").replaceAll("");
20.7.2010 23:30 outlier | skóre: 14
Rozbalit Rozbalit vše Re: Regexp na vymazání středníků mimo entit typu & amp ;
V Pythonu musí být v tom lookbehind výrazu řetězec fixované délky, tedy žádné + ani *, dokonce neprojde ani &amp|&nbsp, protože obě varianty nemají stejnou délku.
wamba avatar 20.7.2010 23:37 wamba | skóre: 38 | blog: wamba
Rozbalit Rozbalit vše Re: Regexp na vymazání středníků mimo entit typu & amp ;
Odpovědět | | Sbalit | Link | Blokovat | Admin

 ten rgulární výraz by mohl vypadat např:

/(&[^&;]*;|[^&;]*)/g

 Test v perlu:

echo "&amp; one; two; &nbsp; " |perl -ne 'print m/(&[^&;]*;|[^&;]*)/g'
This would have been so hard to fix when you don't know that there is in fact an easy fix.
wamba avatar 20.7.2010 23:58 wamba | skóre: 38 | blog: wamba
Rozbalit Rozbalit vše Re: Regexp na vymazání středníků mimo entit typu & amp ;

popř:

echo "&amp; one; two; &nbsp; " |perl -pe 's/(&[^&;]*;|[^&;]*);?/$1/g'
This would have been so hard to fix when you don't know that there is in fact an easy fix.
21.7.2010 10:40 outlier | skóre: 14
Rozbalit Rozbalit vše Re: Regexp na vymazání středníků mimo entit typu & amp ;
Díky, funguje i v Pythonu:

line=re.sub(r'(&[^&;]*;|[^&;]*);?',r'\g<1>',line)

Dobrá práce, na to bych sám nepřišel.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.