Jak vypreparovat data z HTML tabulky do CSV?

Jak zhruba vypadá to html (špičaté závorky pro rychlost nahrazeny hranatými):

[html]
[head]
  [title]titulek[/title]
  [script language="javascript"]
    skript, ktery obsahuje ruzne [elementy /] a mate tim xsltproc
  [/script]
[head]
[body]
[table] [!-- layout --]
[tbody]
[tr]
[td]
[div]
[table]
[script language="javascript"]dalsi skript[/script]
[tbody]
[tr]
  [td]nadpis sloupce 1[/td]
  [td]nadpis sloupce 2[/td]
  [td]nadpis sloupce 3[/td]
  [td]nadpis sloupce 4[/td]
  [td][/td]
[/tr]
[tr]
  [td]text11[/td]
  [td]text12[/td]
  [td]text13[/td]
  [td]text14[/td]
  [td][input onclick="akce1"][/td]
[/tr]
[tr]
  [td]text21[/td]
  [td]text22[/td]
  [td]text23[/td]
  [td]text24[/td]
  [td][input onclick="akce2"][/td]
[/tr][/tbody][/table][/div][/td][/tr][/tbody][/table][/body]

přičemž celé <body> je na jednom řádku a potřebuji z toho dostat takovéto .csv:

text11;text12;akce1
text21;text22;akce2

oVirt | SPICE

2.11.2007 11:08 Vojtěch Horký | skóre: 39 | blog: Vojtův zápisník | Praha
Rozbalit Rozbalit vše Re: Jak vypreparovat data z HTML tabulky do CSV?

Nejdřív bych naházel každý tag na jeden řádek (teda ukončit řádku za uzavíracím):

sed 's#</[^>]*>#&\n#g'

Tohle by mohlo dát všechny [tr] do jednoho řádku a vytisknout je:

sed -n '/<tr>/{:a;s#</tr>#&#;t k;N;s#\n##;b a;:k;p}'

Možná to nebude fungovat úplně přesně, ale myšlenka (použít N a podmíněný skok t) je snad správná.

Pak by mělo stačit prohnat to grepem a sedem přetransformovat...

I am always ready to learn although I do not always like to be taught. (W. Churchill)

2.11.2007 11:30 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Jak vypreparovat data z HTML tabulky do CSV?

Je to jen naznačení postupu..

user@stroj:~$ w3m tabulky.htm | awk '{...}'

Taky mi z toho není jasné, jestli se v tom inputu objevují nějaké hodnoty generované javascriptem atp. To s ukázkou kódu nasimuluji stěží..

2.11.2007 23:31 Josef Kufner | skóre: 70
Rozbalit Rozbalit vše Re: Jak vypreparovat data z HTML tabulky do CSV?

Na tohle se hodí awk. Vždy pri [/tr] vypíšeš nakešované řádky od minulého [tr] na jeden řádek. Tím sladíš logické a fyzické řádky. Nakonec bych to předhodil sedu, ať vyhází zbytečnosti... něco jako:

awk '
   $0 ~ "[tr]" { ln = 0; }
   $0 ~ "[td]" { line[ln++] = $0; }
   $0 ~ "[/tr]" { print line[0] line[1] line[2] line[3] line[4]; }
' < file.html | sed 's/.../\1 \2 \3 \4 \5/'

Ten sed už zvládneš určitě sám... ;-)

Hello world ! Segmentation fault (core dumped)

3.11.2007 14:08 David Jaša | skóre: 44 | blog: Dejvův blog
Rozbalit Rozbalit vše Re: Jak vypreparovat data z HTML tabulky do CSV?

Celé <body> je na jednom fyzickém řádku...

oVirt | SPICE

3.11.2007 11:35 zoul | skóre: 43 | blog: ☂ | Boskovice
Rozbalit Rozbalit vše Re: Jak vypreparovat data z HTML tabulky do CSV?

Tak nabízím tohle:

#!/usr/bin/env perl

use strict;
use warnings;
undef $/;
$_ = <>;

my @ctx = m{
	<tr>\s*					# Úvodní TR
	<td>([^<]*)</td>\s*			# První buňka
	<td>([^<]*)</td>\s*			# Druhá buňka
	(?:<td>[^<]*</td>\s*)*			# Zbývající buňky
	<td><input\s*onclick="(.*?)">		# INPUT, od kterého se odpíchneme
	(?{print "$1;$2;$3\n"})			# Vypsat výstup
}gsx;

Na zadané ukázce frčí dobře:

zoul@naima:~$ ./tabulky.pl < vstup.html 
text11;text12;akce1
text21;text22;akce2
zoul@naima:~$

3.11.2007 11:48 moira | skóre: 30 | blog: nesmysly
Rozbalit Rozbalit vše Re: Jak vypreparovat data z HTML tabulky do CSV?

Predbehl jsi me :) Perl je proste na nektere veci k nezaplaceni.

Překladač ti nikdy neřekne: "budeme kamarádi"

3.11.2007 14:12 David Jaša | skóre: 44 | blog: Dejvův blog
Rozbalit Rozbalit vše Re: Jak vypreparovat data z HTML tabulky do CSV?

Na vzorovém html to funguje perfektně, ale pro reálné, které má v některých <tr> parametr bgcolor s různými hodnotami a v některých <td> je zarovnání, se mi to nedaří upravit. Jdu na to správně tímto způsobem:

<tr[^>]*>([^<]*)</td>\s*                # První buňka

oVirt | SPICE

3.11.2007 19:31 zoul | skóre: 43 | blog: ☂ | Boskovice
Rozbalit Rozbalit vše Re: Jak vypreparovat data z HTML tabulky do CSV?

Jo, jdeš na to dobře, akorát tam máš chybu (překřížený tag). Tohle by mělo fungovat:

#!/usr/bin/env perl -w0n

my @ctx = m{
	<tr[^>]*>\s*
	<td[^>]*>([^<]*)</td>\s*
	<td[^>]*>([^<]*)</td>\s*
	(?:<td[^>]*>[^<]*</td>\s*)*
	<td[^>]*><input\s*onclick="(.*?)">
	(?{print "$1;$2;$3\n"})
}gsx;

Byl bych řekl, že místo těžkopádného [^>]* (cokoliv kromě znaku >) bude fungovat i skromné srovnávání (.*?), ale to mi z nějakého důvodu nešlo.

3.11.2007 19:34 zoul | skóre: 43 | blog: ☂ | Boskovice
Rozbalit Rozbalit vše Re: Jak vypreparovat data z HTML tabulky do CSV?

P.S. Na nedávno skončené Pittsburgské perlové dílně se objevila přednáška Essential Perl One-liners [PDF], stručné a užitečné čtení.

3.11.2007 20:09 Filip Jirsák | skóre: 67 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Jak vypreparovat data z HTML tabulky do CSV?

Prožeňte to HTML Tidy, ať z toho získáte XHTML (jsou tací, kteří tvrdí, že to, že HTML není XML není žádná nevýhoda), a pak použijte následující XSLT:

<?xml version="1.0" encoding="UTF-8" ?>
<xsl:stylesheet
  xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
  version="1.0">
  
  <xsl:output method="text"/>

  <xsl:template match="/html/body/table/tbody/tr/td/div/table/tbody/tr[td[last()]/input]">
<xsl:value-of select="td[1]"/>;<xsl:value-of select="td[2]"/>;<xsl:value-of select="td[last()]/input/@onclick"/>
<xsl:text>&#13;&#10;</xsl:text>
  </xsl:template>
	
  <xsl:template match="*"><xsl:apply-templates select="*" /></xsl:template>
</xsl:stylesheet>

5.11.2007 13:24 David Jaša | skóre: 44 | blog: Dejvův blog
Rozbalit Rozbalit vše Re: Jak vypreparovat data z HTML tabulky do CSV?

Někde v té XSLT je chyba - nic se na stdout nevypíše. Když spustím xsltproc ukecaně, tak na stderr vypíše toto:

creating dictionary for stylesheet
reusing dictionary from opory.xsl for stylesheet
xsltParseStylesheetProcess : found stylesheet
xsltPrecomputeStylesheet: removing ignorable blank node
xsltParseTemplateContent: removing text
xsltCompilePattern : parsing '/html/body/table/tbody/tr/td/div/div/table/tbody/tr[td[last()]/input]'
xsltCompilePattern : parsed /html/body/table/tbody/tr/td/div/div/table/tbody/tr[td[last()]/input], default priority 0.500000
added pattern : '/html/body/table/tbody/tr/td/div/div/table/tbody/tr[td[last()]/input]' priority 0.500000
xsltCompilePattern : parsing '*'
xsltCompilePattern : parsed *, default priority -0.500000
added pattern : '*' priority -0.500000
parsed 2 templates
Resolving attribute sets references
Creating sub-dictionary from stylesheet for transformation
Registered 0 modules
reusing transformation dict for output
Registering global variables
Registering global variables from opory.xsl
xsltProcessOneNode: no template found for /
xsltProcessOneNode: applying template '*' for html
xsltApplyTemplates: node: 'html'
xsltApplyTemplates: select *
xsltApplyTemplates: list of 2 nodes
(...)
xsltProcessOneNode: applying template '*' for tr
xsltApplyTemplates: node: 'tr'
xsltApplyTemplates: select *
xsltApplyTemplates: list of 6 nodes
xsltProcessOneNode: applying template '*' for td
xsltApplyTemplates: node: 'td'
xsltApplyTemplates: select *
xsltApplyTemplates: list of 0 nodes
xsltProcessOneNode: applying template '*' for td
xsltApplyTemplates: node: 'td'
xsltApplyTemplates: select *
xsltApplyTemplates: list of 0 nodes
xsltProcessOneNode: applying template '*' for td
xsltApplyTemplates: node: 'td'
xsltApplyTemplates: select *
xsltApplyTemplates: list of 0 nodes
xsltProcessOneNode: applying template '*' for td
xsltApplyTemplates: node: 'td'
xsltApplyTemplates: select *
xsltApplyTemplates: list of 0 nodes
xsltProcessOneNode: applying template '*' for td
xsltApplyTemplates: node: 'td'
xsltApplyTemplates: select *
xsltApplyTemplates: list of 0 nodes
xsltProcessOneNode: applying template '*' for td
xsltApplyTemplates: node: 'td'
xsltApplyTemplates: select *
xsltApplyTemplates: list of 1 nodes
xsltProcessOneNode: applying template '*' for input
xsltApplyTemplates: node: 'input'
xsltApplyTemplates: select *
xsltApplyTemplates: list of 0 nodes

a v podobném duchu pokračuje dalších ~ 17k řádků.

oVirt | SPICE

5.11.2007 13:49 Filip Jirsák | skóre: 67 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Jak vypreparovat data z HTML tabulky do CSV?

Asi to html vypadá trochu jinak, než jak vypadal příklad uvedený zde v diskuzi. Bude potřeba upravit ten XPath výraz

/html/body/table/tbody/tr/td/div/table

tak, aby se chytil na tu správnou tabulku. Pokud v tom html jsou nějaká id, je nejlepší se chytit na ně. Jinak je potřeba zvolit správné pořadí elementů. Pokud ty tagy <input> jinde na stránce nejsou, můžete taky zkusit

/html/body//table/tbody/tr[td[last()]/input]

5.11.2007 23:34 David Jaša | skóre: 44 | blog: Dejvův blog
Rozbalit Rozbalit vše Re: Jak vypreparovat data z HTML tabulky do CSV?

Jediný rozdíl je, že jsou v sobě dva div-y, což jsem přidal do xpath výrazu:

/html/body/table/tbody/tr/td/div/div/table/tbody/tr[td[last()]/input]

a výsledek jsem posílal minule.

Pokud v tom html jsou nějaká id, je nejlepší se chytit na ně.

Vnější div má id "p_r_i_n_t". Zkusil jsem vztáhnout xpath výraz od něj:

id('p_r_i_n_t')/div/table/tbody/tr[td[last()]/input]

a výsledek se od předchozího nijak neliší:

Celé XML sem nechci posílat, tak dávám alespoň odkaz na zastřelenou obrazovku DOM inspektoru.

oVirt | SPICE

6.11.2007 09:05 Filip Jirsák | skóre: 67 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Jak vypreparovat data z HTML tabulky do CSV?

Zkusil bych

//div[@id='p_r_i_n_t']/div/table/tbody/tr[td[last()]/input]

A podívejte se, jak jsou tagy zapsané v tom očištěném (XHTML) souboru, zda jsou malými písmeny, resp. přizpůsobte velikost písmen v XPath. Případně sem pošlete (nebo někam vystavte, přinejhorším pošlete e-mailem) alespoň začátek to XML – aby tam byl alespň jeden řádek s daty. Ta data a texty klidně nahraďte něčím jiným.

6.11.2007 13:05 David Jaša | skóre: 44 | blog: Dejvův blog
Rozbalit Rozbalit vše Re: Jak vypreparovat data z HTML tabulky do CSV?

Díky za tip. Tagy v očištěném xhtml jsou všechny malými písmeny, hodnoty atributů jsou všechny v apostrofech. Nicméně DOM inspektor pěkně kecá, protože žádný tag tbody v původním ani očištěném html není! Očištěné xhtml už je lidsky čitelné a relevantní část vypadá takto:

<div id='p_r_i_n_t'>
<div align='center'>
<h2>nadpis 2</h2>
<p>lorem ipsum ...</p>
<table border='1'>
<tr>
<th>nadpis 1</th>
<th>nadpis 2</th>
<th>nadpis 3</th>
<th>nadpis 4</th>
<th>nadpis 5</th>
<th>nadpis 6</th>
</tr>
<tr bgcolor="">
<td>text11</td>
<td>text12</td>
<td>text13</td>
<td align='right'>text14</td>
<td align='right'>text15</td>
<td><input type='button' value='Otevřít' onclick=
'js_fce("id")' /></td>
</tr>
<tr bgcolor="#FFCCCC">
<td>text21</td>
<td>text22</td>
<td>text23</td>
<td align='right'>text24</td>
<td align='right'>text25</td>
<td><input type='button' value='Otevřít' onclick=
'js_fce("id")' /></td>
</tr>
(...)
</table>
</div>
</div>

Xpath výraz jsem podle toho upravil takto:

//div[@id='p_r_i_n_t']/div/table/tr[td[last()]/input]

a xsltproc si stále mele svou:

creating dictionary for stylesheet
reusing dictionary from opory.xsl for stylesheet
xsltParseStylesheetProcess : found stylesheet
xsltPrecomputeStylesheet: removing ignorable blank node
xsltParseTemplateContent: removing text
xsltCompilePattern : parsing '//div[@id='p_r_i_n_t']/div/table/tr[td[last()]/input]'
xsltCompilePattern : parsed //div[@id='p_r_i_n_t']/div/table/tr[td[last()]/input], default priority 0.500000
added pattern : '//div[@id='p_r_i_n_t']/div/table/tr[td[last()]/input]' priority 0.500000
xsltCompilePattern : parsing '*'
xsltCompilePattern : parsed *, default priority -0.500000
added pattern : '*' priority -0.500000
parsed 2 templates
Resolving attribute sets references
Creating sub-dictionary from stylesheet for transformation
Registered 0 modules
reusing transformation dict for output
Registering global variables
Registering global variables from opory.xsl
xsltProcessOneNode: no template found for /
xsltProcessOneNode: applying template '*' for html
xsltApplyTemplates: node: 'html'
xsltApplyTemplates: select *
xsltApplyTemplates: list of 2 nodes
(...)
xsltProcessOneNode: applying template '*' for div
xsltApplyTemplates: node: 'div'
xsltApplyTemplates: select *
xsltApplyTemplates: list of 1 nodes
xsltProcessOneNode: applying template '*' for div
xsltApplyTemplates: node: 'div'
xsltApplyTemplates: select *
xsltApplyTemplates: list of 3 nodes
xsltProcessOneNode: applying template '*' for h2
xsltApplyTemplates: node: 'h2'
xsltApplyTemplates: select *
xsltApplyTemplates: list of 0 nodes
xsltProcessOneNode: applying template '*' for p
xsltApplyTemplates: node: 'p'
xsltApplyTemplates: select *
xsltApplyTemplates: list of 0 nodes
xsltProcessOneNode: applying template '*' for table
xsltApplyTemplates: node: 'table'
xsltApplyTemplates: select *
xsltApplyTemplates: list of 531 nodes
(radek s nadpisy)
xsltProcessOneNode: applying template '*' for td
xsltApplyTemplates: node: 'td'
xsltApplyTemplates: select *
xsltApplyTemplates: list of 0 nodes
xsltProcessOneNode: applying template '*' for td
xsltApplyTemplates: node: 'td'
xsltApplyTemplates: select *
xsltApplyTemplates: list of 0 nodes
xsltProcessOneNode: applying template '*' for td
xsltApplyTemplates: node: 'td'
xsltApplyTemplates: select *
xsltApplyTemplates: list of 0 nodes
xsltProcessOneNode: applying template '*' for td
xsltApplyTemplates: node: 'td'
xsltApplyTemplates: select *
xsltApplyTemplates: list of 0 nodes
xsltProcessOneNode: applying template '*' for td
xsltApplyTemplates: node: 'td'
xsltApplyTemplates: select *
xsltApplyTemplates: list of 0 nodes
xsltProcessOneNode: applying template '*' for td
xsltApplyTemplates: node: 'td'
xsltApplyTemplates: select *
xsltApplyTemplates: list of 1 nodes
xsltProcessOneNode: applying template '*' for input
xsltApplyTemplates: node: 'input'
xsltApplyTemplates: select *
xsltApplyTemplates: list of 0 nodes

oVirt | SPICE

6.11.2007 14:10 razor | skóre: 33
Rozbalit Rozbalit vše Re: Jak vypreparovat data z HTML tabulky do CSV?

Zdar, na to očištěné xhtml mi funguje tento stylesheet:


<?xml version="1.0" encoding="UTF-8" ?>
<xsl:stylesheet
  xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
  version="1.0">
  
  <xsl:output method="text"/>

<xsl:template match="tr[td[last()]/input]"> <xsl:value-of 
select="td[1]"/>;<xsl:value-of select="td[2]"/>;<xsl:value-of 
select="td[last()]/input/@onclick"/> <xsl:text>
</xsl:text> 
</xsl:template>

<xsl:template match="/">
    <xsl:apply-templates select="//div[@id='p_r_i_n_t']/div/table"/>
</xsl:template>

</xsl:stylesheet>

6.11.2007 14:34 Filip Jirsák | skóre: 67 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Jak vypreparovat data z HTML tabulky do CSV?

Někdy se vyplatí nekotvit ten XPath výraz moc pečlivě :-)

Takže s přeskočením nezajímavých textů by to mělo vypadat:

<?xml version="1.0" encoding="UTF-8" ?>
<xsl:stylesheet
  xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
  version="1.0">
  
  <xsl:output method="text"/>

  <xsl:template match="tr[td[last()]/input]"><xsl:value-of 
    select="td[1]"/>;<xsl:value-of select="td[2]"/>;<xsl:value-of 
    select="td[last()]/input/@onclick"/><xsl:text>&#13;&#10;</xsl:text> 
  </xsl:template>

  <xsl:template match="/">
    <xsl:apply-templates select="//div[@id='p_r_i_n_t']/div/table"/>
  </xsl:template>

  <xsl:template match="*"><xsl:apply-templates select="*" /></xsl:template>

</xsl:stylesheet>

6.11.2007 15:29 David Jaša | skóre: 44 | blog: Dejvův blog
Rozbalit Rozbalit vše Re: Jak vypreparovat data z HTML tabulky do CSV?

Hm, je zajímavé, že pokud oříznu celý strom XHTML na větev od <div> níže, transformace funguje, ale pokud mu podstrčím celé html, tak se mu nechce. Mimochodem umí XSL vyříznout z onoho <input onclick='jsFunkce("číselné_ID")'/>; ono číselné_ID?

oVirt | SPICE

6.11.2007 15:47 Filip Jirsák | skóre: 67 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Jak vypreparovat data z HTML tabulky do CSV?

Není na začátku toho html uveden v tagu <html> jmenný prostor? Ale to by snad xsltproc něco zahlásil…

Pokud je jsFunkce("…") (to okolo) vždy stejné, dalo by se použít funkcí substring a string-length, případně replace. Např.

<xsl:value-of select="replace(td[last()]/input/@onclick,'jsFunkce\(&quot;(.*)&quot;\)','$1')"/>

6.11.2007 16:12 David Jaša | skóre: 44 | blog: Dejvův blog
Rozbalit Rozbalit vše Re: Jak vypreparovat data z HTML tabulky do CSV?

Vypadá takto:

<html xmlns="http://www.w3.org/1999/xhtml">

Pokud je jsFunkce("…") (to okolo) vždy stejné, dalo by se použít funkcí substring a string-length, případně replace.

Je. Takto to vypadá dobře, jestli to bude funkční uvidíme až po vyřešení toho namespace. :-)

oVirt | SPICE

6.11.2007 16:23 Filip Jirsák | skóre: 67 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Jak vypreparovat data z HTML tabulky do CSV?

Přidejte ten namespace na začátek toho XSLT jako defaultní NS:

<?xml version="1.0" encoding="UTF-8" ?>
<xsl:stylesheet
  xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
  xmlns="http://www.w3.org/1999/xhtml"
  version="1.0">
…

6.11.2007 17:11 David Jaša | skóre: 44 | blog: Dejvův blog
Rozbalit Rozbalit vše Re: Jak vypreparovat data z HTML tabulky do CSV?

Toto nepomohlo, tak jsem to dal pryč a místo toho umazal sedem zmínku o NS z tagu <html>. :-] (sed tam už stejně byl, nahrazoval entity   na kterých xsltproc řval). Když jsem použil replace, tak to nahradilo pouze první řádek, tak jsem přesunul i tyto do sedu a tak se mi povedlo dostat vytoužené CSV:

sed -e 's/\&nbsp;/ /g;s/<html[^>]*>/<html>/;s/jsFunkce(\"\([^"]*\)\")/\1/;'

Díky všem za čas a pomoc. ;-)

oVirt | SPICE

6.11.2007 14:38 Filip Jirsák | skóre: 67 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Jak vypreparovat data z HTML tabulky do CSV?

Nicméně DOM inspektor pěkně kecá, protože žádný tag tbody v původním ani očištěném html není!

No jo, na tenhle oblíbený trik jsem zapomněl. On zobrazuje skutečný aktuální DOM dokumentu, tj. to co vznikne parsováním a „hádáním“ toho, jak ten dokument má správně vypadat.

5.11.2007 13:57 Pavel Kysilka
Rozbalit Rozbalit vše Re: Jak vypreparovat data z HTML tabulky do CSV?

tipuju, ze to nepujde proto, ze tidy Vam prida do html definici dokumentu a potom musite k jednotlivym elementum pristupovat pres namespace.

Coz se da poresit tim, ze umazete DOCTYPE nebo xmlns namespace atribut vysledneho dokumentu z tidy.

pripadne mi poslete mail a vysledna transformce se sem da hodit.

bye gf

5.11.2007 14:13 Filip Jirsák | skóre: 67 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Jak vypreparovat data z HTML tabulky do CSV?

Předpokládám, že by se o namespacech xsltproc v tom ukecaném výstupu zmínilo.

Dotaz: Jak vypreparovat data z HTML tabulky do CSV?

Odpovědi