format CSV - zalomene radky uvnitr poli?

A mají pravdu, v RFC 4180 se to tak píše a navíc se to tak dělá (jak jinak by jste to zapsal). Jinak „měly“ by tám být " ne '.
Ćíst to můžete více způsoby, ale pokud chcete univerzální schopný pracovat s libovolným objemem dat a rychle, tak je to nelepší po znaku a rekonstruovat záznamy postupně (a mít jako parametr oddělovač, textový oddělovač, a znakovou sadu) - a přijde na to v jakém jazyku.

To, že trpíš stihomamem, ještě neznamená, že po tobě nejdou. ⰞⰏⰉⰓⰀⰜⰉ ⰗⰞⰅⰜⰘ ⰈⰅⰏⰉ ⰒⰑⰎⰉⰁⰕⰅ ⰏⰉ ⰒⰓⰄⰅⰎ ·:⁖⁘⁙†

20.7.2011 16:30 PepeONaChair | skóre: 4
Rozbalit Rozbalit vše Re: format CSV - zalomene radky uvnitr poli?

Pak mam problem, jak od sebe odlisit jednotlive zaznamy?. Chtel jsem to zpracovavat GREPemem atd., jenze predtim musim zrusit/nahradit prave ta zalomeni radku uvnitr pole. Nevedel byste priklad napr. prikazu sed se spravnym reg. vyrazem pro vyhledani/nahrazeni jen ten zalomenych radku uvnitr pole?

20.7.2011 16:37 Miklik | skóre: 27 | Krnov
Rozbalit Rozbalit vše Re: format CSV - zalomene radky uvnitr poli?

Je třeba vědět, kolik záznamu má jeden řádek a takto to v cyklu čist od oddělovače k oddělovači. V bash, ale netuším, jestli je tam něco co umí číst soubor po znacích. Možná by si s tím mohlo poradit awk.

Netvrdím to, ale možná je to pravda.

20.7.2011 17:05 Šangala | skóre: 56 | blog: Dutá Vrba - Wally
Rozbalit Rozbalit vše Re: format CSV - zalomene radky uvnitr poli?

PS: není to třeba vědět, nebo respektive při prvním si to zjistíte, nicméně, jestli se nepletu, není zaručeno, že každý záznam/řádek ma totožný počet sloupců (i když to tak je :-)

).
Musíte prostě vědět jestli crlf nebo (nebo lf nebo cr :-)

) je mezi uzavíračem textu " nebo ne.

To, že trpíš stihomamem, ještě neznamená, že po tobě nejdou. ⰞⰏⰉⰓⰀⰜⰉ ⰗⰞⰅⰜⰘ ⰈⰅⰏⰉ ⰒⰑⰎⰉⰁⰕⰅ ⰏⰉ ⰒⰓⰄⰅⰎ ·:⁖⁘⁙†

21.7.2011 13:50 marek
Rozbalit Rozbalit vše Re: format CSV - zalomene radky uvnitr poli?

Dobry den.

Pred lety jsem delal v Bash prototyp streamoveho filtru.

Pak jsem to prepsal s jinou filosofii v C.

Nicmene vyvoj sel velmi rychle (stale jsem odchytaval dalsi a dalsi zverstva v tom streamu).

Myslim ze by to slo snadno priohnout.

Je to ale dost pomale....

Marek

#!/bin/bash
export IFS=""
ramecky=0
while read -rsn1 char
do

        if [ $ramecky -eq 1 ]
        then
                case "$char" in
                $'\033')
                        read -rsn1 char1
                        if [ "$char1" =  '[' ]
                        then
                                read -rsn1 char2
                                if [ "$char2" = '1' ]
                                then
                                        read -rsn1 char3
                                        if [ "$char3" = '0' ]
                                        then
                                                read -rsn1 char4
                                                if [ "$char4" = 'm' ]
                                                then
                                                        #rozpoznana escape sequence na zapnuti ramecku
                                                        ramecky=0
                                                        echo -en "\\033[0;39m"

                                                else
                                                        echo -n "$char$char1$char2$char3$char4"
                                                fi
                                        else
                                                echo -n "$char$char1$char2$char3"
                                        fi
                                else
                                        echo -n "$char$char1$char2"
                                fi
                        else
                                 echo -n "$char$char1"
                        fi
                        ;;
                D)
                        echo -n '-'
                        ;;
                Z)
                        echo -n ','
                        ;;
                '?')
                        echo -n '.'
                        ;;
                '@')
                        echo -n '`'
                        ;;
                'Y')
                        echo -n "'"
                        ;;
                '3')
                        echo -n '|'
                        ;;
                '')
                        echo
                        ;;
                *)
                        echo -n "$char"
                esac
        else
                case "$char" in
                $'\033')
                        read -rsn1 char1
                        case "$char1" in
                        "d")
                                read -rsn1 char2
                                if [ "$char2" = '#' ]
                                then
                                        #tady probiha tisk

                                        read -rsn1 char3
                                        ( while [ ! "$char3" = $'\024' ]
                                        do
                                                [ "$char" ] || echo
                                                echo -n "$char3"
                                                read -rsn1 char3
                                        done ) | /usr/local/sbin/print1
                                else
                                        echo -n "$char$char1$char2"
                                fi
                                ;;
                        '[')
                                read -rsn1 char2
                                case "$char2" in
                                1)
                                        read -rsn1 char3
                                        if [ "$char3" = '2' ]
                                        then
                                                read -rsn1 char4
                                                if [ "$char4" = 'm' ]
                                                then
                                                        #rozpoznana escape sequence na zapnuti ramecku
                                                        ramecky=1
                                                        echo -en "\\033[1;43m"
                                                else
                                                        echo -n "$char$char1$char2$char3$char4"
                                                fi
                                        else
                                                echo -n "$char$char1$char2$char3"
                                        fi
                                        ;;
                                5)
                                        read -rsn1 char3
                                        if [ "$char3" = ';' ]
                                        then
                                                read -rsn1 char4
                                                if [ "$char4" = '1' ]
                                                then

                                                        read -rsn1 char5
                                                        if [ "$char5" = 'i' ]
                                                        then
                                                                #rozpoznany zacatek tisku
                                                                konec=0
                                                                ( while [ "$konec" -eq 0 ]
                                                                do
                                                                        read -rsn1 char6
                                                                        if [ "$char6" = $'\033' ]
                                                                        then
                                                                                read -rsn1 char7
                                                                                if [ "$char7" = '[' ]
                                                                                then
                                                                                        read -rsn1 char8
                                                                                        if [ "$char8" = '4' ]
                                                                                        then
                                                                                                read -rsn1 char9
                                                                                                if [ "$char9" = 'i' ]
                                                                                                then
                                                                                                        konec=1
                                                                                                else
                                                                                                        echo -n "$char6$char7$char8$char9"
                                                                                                fi
                                                                                        else
                                                                                                echo -n "$char6$char7$char8"
                                                                                        fi
                                                                                else
                                                                                        echo -n "$char6$char7"
                                                                                fi
                                                                        else
                                                                                [ "$char6" ] || echo
                                                                                echo -n "$char6"
                                                                        fi
                                                                done ) | /usr/local/sbin/print1
                                                        else
                                                                echo -n "$char$char1$char2$char3$char4$char5"
                                                        fi
                                                else
                                                        echo -n "$char$char1$char2$char3$char4"
                                                fi
                                        else
                                                echo -n "$char$char1$char2$char3"
                                        fi
                                        ;;
                                *)
                                        echo -n "$char$char1$char2"
                                esac
                                ;;

                        *)
                                 echo -n "$char$char1"
                        esac
                        ;;
                $'\221')
                        echo -en "\\033[1;43m \\033[0;39m"
                        ;;
                $'\237')
                        echo -en "\\033[1;42m \\033[0;39m"
                        ;;
                $'\233')
                        echo -n "-"
                        ;;
                $'\232')
                        echo -n "|"
                        ;;

                '')
                        echo
                        ;;
                *)
                        echo -n "$char"
                esac
        fi
done

21.7.2011 18:53 Kit
Rozbalit Rozbalit vše Re: format CSV - zalomene radky uvnitr poli?

Obávám se, že BASH vůbec není určen pro znakové parsování řetězců. Když už, tak regulárním výrazem. Vůbec se nedivím, že je to pomalé. Ten program v C by mohl být mnohem zajímavější.

22.7.2011 10:40 marek
Rozbalit Rozbalit vše Re: format CSV - zalomene radky uvnitr poli?

Dobry den.

No ono to s tou pomalosti zas tak strasne neni.

Fungovalo to jako obalka pro telnet+xterm a nez ten telnet to i na starodavnych pleckach, na ktere to bylo urceno, bylo rychlejsi.

Pomalost se projevovala pouze pri tisku velkych souboru.

Marek

22.7.2011 10:43 marek
Rozbalit Rozbalit vše Re: format CSV - zalomene radky uvnitr poli?

Jo a nesmelo to bufferovat, takze se muselo parsovat opravdu znakove.

20.7.2011 16:59 Šangala | skóre: 56 | blog: Dutá Vrba - Wally
Rozbalit Rozbalit vše Re: format CSV - zalomene radky uvnitr poli?

No a je tam CRLF ("\r\n") nebo jen LF ("\n")?, z toho obrázku to není moc jasné :-)

Hm, spíš asi awk.
Je to bohužel obecná „kravina“ CSV a třeba i v fce v PHP (lze na to narazit i jinde) s tím nepočítají.

To, že trpíš stihomamem, ještě neznamená, že po tobě nejdou. ⰞⰏⰉⰓⰀⰜⰉ ⰗⰞⰅⰜⰘ ⰈⰅⰏⰉ ⰒⰑⰎⰉⰁⰕⰅ ⰏⰉ ⰒⰓⰄⰅⰎ ·:⁖⁘⁙†

20.7.2011 17:27 Šangala | skóre: 56 | blog: Dutá Vrba - Wally
Rozbalit Rozbalit vše Re: format CSV - zalomene radky uvnitr poli?

Něco jsem napsal a nevím co:

 sed ':a;N;$!ba;s/\("[^"]*\)\n\([^"]*"\)/\1Shit_new_line\2/g' kuk.csv

funguje to na , a " a LF na ' jsem neměl nervy to zapisovat do $quot; a escapovat,
na CRLF je třeba ipravit:

 sed ':a;N;$!ba;s/\("[^"]*\)\r\n\([^"]*"\)/\1Shit_new_line\2/g' kuk.csv

Což by mohl být základ „workaround-u“ co chcete…

PS: samozřejmě Shit_new_line musí být unikátní v souboru se nevyskytující řetězec.

To, že trpíš stihomamem, ještě neznamená, že po tobě nejdou. ⰞⰏⰉⰓⰀⰜⰉ ⰗⰞⰅⰜⰘ ⰈⰅⰏⰉ ⰒⰑⰎⰉⰁⰕⰅ ⰏⰉ ⰒⰓⰄⰅⰎ ·:⁖⁘⁙†

20.7.2011 17:32 Šangala | skóre: 56 | blog: Dutá Vrba - Wally
Rozbalit Rozbalit vše Re: format CSV - zalomene radky uvnitr poli?

s/$quot;/\" , nebo-li $quot; mělo být " :-(

To, že trpíš stihomamem, ještě neznamená, že po tobě nejdou. ⰞⰏⰉⰓⰀⰜⰉ ⰗⰞⰅⰜⰘ ⰈⰅⰏⰉ ⰒⰑⰎⰉⰁⰕⰅ ⰏⰉ ⰒⰓⰄⰅⰎ ·:⁖⁘⁙†

V tom RFC se ale píše, že pole obsahující konec řádku mají být v "uvozovkách" (oni mají 'apostrofy'). Takže oni by si to měli opravit a ty potřebuješ lepší parser. A jinak bych to asi předělal do XML…

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

22.7.2011 00:40 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše XML

viz csv2xml – to zalomené řádky zvládá :-)

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

22.7.2011 07:50 Radek Miček | skóre: 23 | blog: radekm_blog
Rozbalit Rozbalit vše Re: format CSV - zalomene radky uvnitr poli?

A jinak bych to asi předělal do XML

A v čem to bude lepší?

22.7.2011 08:17 Ladicek | skóre: 28 | blog: variace | Havlíčkův brod
Rozbalit Rozbalit vše Re: format CSV - zalomene radky uvnitr poli?

Můžeš na to použít nejhorší programovací jazyk v dějinách – XSLT. A to se vyplatí!

Ještě na tom nejsem tak špatně, abych četl Viewegha.

22.7.2011 10:23 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Re: format CSV - zalomene radky uvnitr poli?

Nebudou se muset hádat, jestli je formát správně podle RFC nebo podle nějakého nepsaného standardu, nebudou mít problém s konci řádků, diakritikou atd. Můžeš to předat rourou třeba příkazu xsltproc – to mi přijde rozumnější, než psát několikastránkové skripty v bashi. Nebo ty data naládovat do relační databáze a pak s tím pracovat už hezky v SQL :-)

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

22.7.2011 21:51 Radek Miček | skóre: 23 | blog: radekm_blog
Rozbalit Rozbalit vše Re: format CSV - zalomene radky uvnitr poli?

CSV lze specifikovat velmi jednoduše (RFC je výjimka, jenž potvrzuje pravidlo), což se o XML říct nedá.

<rejp>Napsat CSV parser dá zhruba stejně práce jako napsat hlavičku a patičku XSLT skriptu.</rejp>

22.7.2011 23:40 Filip Jirsák | skóre: 67 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: format CSV - zalomene radky uvnitr poli?

CSV lze specifikovat velmi jednoduše

Což bohužel znamená, že si CSV naspecifikuje každý znova a trochu jinak. Takže napsat obecný automatický parser CSV nakonec nejde, vždycky musí uživatel ze vzorku okem odhadnout, co asi budou jaké oddělovače atd.

Dotaz: format CSV - zalomene radky uvnitr poli?

Odpovědi