Linux: systémové volání splice()

Ukážeme si, jak elegantně kopírovat soubory mezi dvěma otevřenými souborovými deskriptory bez nutnosti kopírovat obsah z jádra do uživatelského prostoru a zpět.

Systémové volání splice() má dlouhou historii. splice() byl poprvé navržen Larrym McVoyem v roce 1998 jako způsob vylepšení I/O operací na serverech. Přestože se často v následujících letech zmiňovalo o splice(), žádná implementace nikdy nebyla vytvořena pro hlavní řadu linuxového jádra. Nicméně, situace se změnila těsně před uzavřením začleňovacího okna pro 2.6.17, kdy Jens Axboe zaslal sadu změn i s množstvím oprav, které byly začleněny.

Při pohledu na koncept na vyšší úrovni se v jádře objevuje nový pojem "náhodný jaderný buffer" (random kernel buffer), který je vystaven do uživatelského prostoru. Jinými slovy, splice() pracuje na jaderném bufferu, nad kterým má uživatel kontrolu.

Volání splice() způsobí přesun dat mezi dvěma popisovači souboru (file descriptors), bez nutnosti přesunout data z jádra do uživatelského prostoru a zpět. Jádro přesune až len dat z deskriptoru souboru fd_in do deskriptoru souboru fd_out, kde jeden z deskriptorů musí být roura (pipe). Takže ve velmi realném (ale stále abstraktním) smyslu, splice() není nic jiného, než read()/write() do jaderného bufferu.

Dvě hodnoty offsetu (off_in a off_out) ukazují, na kterou pozici by měl každý deskriptor souboru být umístěný před začátkem přesunu dat. Všimněte si, že offsety se předávají pomocí ukazatelů, které jsou příslušným způsobem upraveny po čtení/zápisu z/do bufferu. Z uživatelského prostoru se může použít ukazatel NULL k indikaci, že se má použít stávající offset. Nicméně je chyba použít NULL ukazatel jako offset k přiřazené rouře (pipe).

A kde byste ve skutečnosti chtěli použít splice()? Normálně byste použili splice()tam, kde chcete kopírovat z jednoho zdroje do druhého, aniž byste chtěli vidět data, která se kopírují. Použití splice() vám nabízí efektivnější způsob, jak to udělat. Takto se vyhnete zbytečné alokaci paměti a memcpy() z/do bufferu v uživatelském prostoru.

Pokud byste chtěli kopírovat soubor, mohli byste to napsat tradičním způsobem v uživatelském prostoru:

s tím rozdílem, že byste neměli buffer v uživatelském prostoru, a kde jsou systémová volání read() a write() nahrazena systémovým voláním splice() do/z roury (pipe). Takže jediné, co se změní je to, kde ve skutečnosti existuje buffer:

Ne každý deskriptor souboru se může použít se splice() a důvodem je to, že to ješte nikdo nepotřeboval, a tudíž ani nikdo nenapsal.

Diskuse k tomuto článku

in	pipe	reg	chr	unix	tcp	udp	raw
pipe	yes	yes	yes	yes	yes	yes	yes
reg	yes	no	no	no	no	no	no
chr	yes	no	no	no	no	no	no
unix	no	no	no	no	no	no	no
tcp	yes	no	no	no	no	no	no
udp	no	no	no	no	no	no	no
raw	no	no	no	no	no	no	no

No prave na kopirovanie suborov by som skor pouzil sendfile()

14.5.2013 09:02 Suchý čert
Rozbalit Rozbalit vše Re: Linux: systémové volání splice()

Jo, na kopírování stačí sendfile(). V článku by to chtělo zmínit i funkci vmsplice(), díky které to teprve začne být zajímavé — lze jí totiž v kombinaci se splice() udělat zero‐copy „send“ z uživ. prostoru (teoreticky i „recv“, ale v jádře to není implementované, resp. je to tam implementované pomocí kopírování). Pak se ještě v souvislosti se splice() může hodit funkce tee(), která umí z jedné roury zduplikovat data do druhé.

14.5.2013 09:27 Nikola Pajkovský | skóre: 16
Rozbalit Rozbalit vše Re: Linux: systémové volání splice()

Ano, chtěl jsem, ale članek mi připadal hodne dlouhý, když byl zalomený na 80 znaků v mojem editoru, tak jsem to zámerně vynechal. Neměl jsem.

Save the whales. Feed the hungry. Free the mallocs

14.5.2013 15:05 Nikola Pajkovský | skóre: 16
Rozbalit Rozbalit vše Re: Linux: systémové volání splice()

jak se to vezme, API je o něco jednodušší, ale sendfile je implemetovaný pomocí splice.

Můj snippet jsem ve skutečnosti použil pro kopírování tcp ipv4 spojení na disk. Což jsem mohl zmínit. Moje chyba.

Save the whales. Feed the hungry. Free the mallocs

15.5.2013 15:16 Tomáš Bžatek | skóre: 29 | Brno
Rozbalit Rozbalit vše Re: Linux: systémové volání splice()

Pamatuju si, ze sendfile() ve 2.4 fungoval dobre, ale ve 2.6 byl omezeny jen na sockety. Ted koukam do man a uz to zase zprovoznili:

In Linux kernels before 2.6.33, out_fd must refer to a socket.  Since Linux 2.6.33 it can be any file.  If it is a regular file, then sendfile() changes the file offset appropriately.

Nastesti slo chytat chybovy kod a fallbacknout do manualniho blokoveho rezimu.

Koupim litajiciho tucnaka

Zdravim,

dik, zajimavy clanek, ale klidne by mohl byt i o spetku mene odborny (pro nas co nedelame v Linuxu). Take mi neni jasna veta:

Nicméně je chyba použít NULL ukazatel jako offset k přiřazené rouře (pipe).

Nema to byt opacne? V prikladech je NULL..

14.5.2013 12:59 Josef Kufner | skóre: 70
Rozbalit Rozbalit vše Re: Linux: systémové volání splice()

Nezajímavého hnoje je všude dost. Buď rád že ten článek je, jaký je.

Hello world ! Segmentation fault (core dumped)

14.5.2013 17:04 JS
Rozbalit Rozbalit vše Re: Linux: systémové volání splice()

Vzdyt ja jsem za nej rad.

14.5.2013 14:59 Nikola Pajkovský | skóre: 16
Rozbalit Rozbalit vše Re: Linux: systémové volání splice()

Roura (pipe) je proud (stream) dat bez pozice. Muže se to zdát divné, ale ve skutečnosti, je to hodně dobrá věc. Nemusíš předávat "tento soubor, tento offset, tato délka" - pouze předáš jednoduše deskriptor souboru a nakrmíš jej daty, aniž by ses zajímat, co dělá čtenár (reader) na druhé straně roury. Čtenář nemuže vyhledávat data pomocí seek v proudu dat a také čtenář nebude zmatený, kde je konec souboru.

Takže čtení z roury s offsetem 1 je chyba a proto se musí offset u roury nastavit na NULL. Následuje chybné čtení z roury:

        int pipefd[2];
        pipe(pipefd)

        loff_t pipe_offset = 1;
        splice(pipefd[0], &pipe_offset, ...);

Save the whales. Feed the hungry. Free the mallocs

14.5.2013 17:05 JS
Rozbalit Rozbalit vše Re: Linux: systémové volání splice()

Ano, tak jsem to pochopil, a proto mi ta veta prisla divna - prijde mi, ze rika, ze se tam NULL predavat nesmi a pritom se predavat nesmi nic jineho nez NULL.

Chápu, že pokrok nelze zastavit, otázka ale zůstává, nakolik se vázat na linuxově specifické služby. (Poslední dobou mě třeba nadzvedlo zavedení printf("%m") v util-linux.)

14.5.2013 20:46 David Watzke | skóre: 74 | blog: Blog... | Praha
Rozbalit Rozbalit vše Re: Přenositelnost

To je ale rozšíření glibc, ne?

K věci: asi člověk nebude používat splice jen tak ze srandy, ale když už máš linux-only software (který např. přímo používá epoll a kdoví co), tak proč toho nevyužít...

“Being honest may not get you a lot of friends but it’ll always get you the right ones” ―John Lennon

14.5.2013 22:21 Nikola Pajkovský | skóre: 16
Rozbalit Rozbalit vše Re: Přenositelnost

ne, je to systémové volání. V glibc je wrapper. A ano, i bez glibc můžes volat jakékoliv systémové volání.

Save the whales. Feed the hungry. Free the mallocs

15.5.2013 07:15 petr_p | skóre: 59 | blog: pb
Rozbalit Rozbalit vše Re: Přenositelnost

Ano, je to věc standardní knihovny, jen to byla první věc, na kterou jsem si vzpomněl. Z oblasti systémových volání mě teď napadá systemd, který bezpodmínečně závisí na cgroups.

14.5.2013 22:12 frEon | skóre: 40 | Praha
Rozbalit Rozbalit vše Re: Přenositelnost

#ifdef

Talking about music is like dancing to architecture.

14.5.2013 23:38 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Přenositelnost

nakolik se vázat na linuxově specifické služby

V praxi stejně použijete nějaký wrapper, který zavolá splice() tam, kde je k dispozici, a nahradí ho pomocí univerzálních funkcí tam, kde není.

Poslední dobou mě třeba nadzvedlo zavedení printf("%m") v util-linux

Pominu-li, že tohle zrovna bude spíš glibc-specific než linux-specific, tak zrovna v util-linux mi použití linux-specific featur zas až tak absurdní nepřipadá. :-)

15.5.2013 07:16 petr_p | skóre: 59 | blog: pb
Rozbalit Rozbalit vše Re: Přenositelnost

%m je glibc-specific, tedy s jinou standardní knihovnou i na Linuxu budete mít smůlu.

15.5.2013 07:57 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Přenositelnost

Není nad to přečíst si celý příspěvek, na který se chystáte reagovat…

15.5.2013 15:00 R
Rozbalit Rozbalit vše Re: Přenositelnost

Asi to nikomu nevadilo, tak to tam je. Ak ti to vadi, tak posli vyvojarom patch.

15.5.2013 16:24 pc2005 | skóre: 38 | blog: GardenOfEdenConfiguration | liberec
Rozbalit Rozbalit vše Re: Přenositelnost

Jo je to ještě horší :-D

(teda pokud v eglibc apod. ten %m není definovaný).

Intel meltdown a = arr[x[0]&1]; karma | 帮帮我，我被锁在中国房

15.5.2013 18:00 michich | skóre: 51 | blog: ohrivane_parky
Rozbalit Rozbalit vše Re: Přenositelnost

eglibc to určitě má (glibc to umělo ještě před eglibc forkem). uclibc to má (volitelně při konfiguraci). bionic to asi nemá.

15.5.2013 01:22 Luboš Doležel (Doli) | skóre: 98 | blog: Doliho blog | Kladensko
Rozbalit Rozbalit vše Re: Přenositelnost

Chápu, že pokrok nelze zastavit, otázka ale zůstává, nakolik se vázat na linuxově specifické služby.

Vzhledem k rozšířenosti Linuxu vs. ostatních unixových OS na nových strojích... asi bych to neřešil. Ať si to řeší ti, co tu "exotiku" provozují.

Proč exotiku? Minimálně na desktopu za měřenou dobu existence AbcLinuxu BSD/Solaris/ostatní trvale padají a jestli ta křivka nezmění tvar, tak to za pár roků bude nula. A nejsem ochoten věřit, že by to na serverech bylo až tak jinak. Taková bomba to ZFS není.

15.5.2013 08:04 Mti. | skóre: 31 | blog: Mti
Rozbalit Rozbalit vše Re: Přenositelnost

Ehm... zatim "nam" tohle delaji vyrobci hw i sw s ohledem na prevahu woknousu, ze? :-)

Vidim harddisk mrzuty, jehoz hlava plotny se dotyka...

15.5.2013 08:27 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Přenositelnost

Ano. A je mi moc smutno, když vidím, že ani tahle zkušenost mnoha lidem nebrání chovat se úplně stejně k jiným.

15.5.2013 08:55 Luboš Doležel (Doli) | skóre: 98 | blog: Doliho blog | Kladensko
Rozbalit Rozbalit vše Re: Přenositelnost

Takže používat Linux-specific funkce se zapovídá a vývojáři by se měli starat o to, aby to chodilo na všech možných a nemožných platformách? To jako proč by si s tím měli dávat práci? Ať si to naportují ti, co tu platformu používají.

15.5.2013 09:07 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Přenositelnost

Nezapovídá. Ale program by měl být napsaný tak, aby se obešel i bez ní, pokud k dispozici není (viz můj včerejší příspěvek z 23:38).

15.5.2013 16:31 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Přenositelnost

Je krásné mít své ideály.

Já už tu vlastně ani nejsem. Abclinuxu umřelo.

15.5.2013 08:53 Luboš Doležel (Doli) | skóre: 98 | blog: Doliho blog | Kladensko
Rozbalit Rozbalit vše Re: Přenositelnost

Já na tom u SW nevidím nic špatného. To mají podporovat každou minoritní platformu?

15.5.2013 09:14 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Přenositelnost

Smutné. Opravdu velmi smutné. Jen nevím, jestli je to povahou nebo jestli se opravdu tak strašně moc změnilo za těch deset let mezi tím, kdy jsem s Linuxem začínal já, tím, kdy jste začínal vy.

15.5.2013 13:14 Ivan
Rozbalit Rozbalit vše Re: Přenositelnost

+1 Prenositolenost na urovni zdrojaku byla jedna hlavnich vyhod Unixu. Bylo tu nekolik konkurencnich ale vice-mene kompatibilnich systemu. Cele to fungovalo, i kdyz to nekdy bylo dost drahe. Linux ohrome tezil z toho ze mohl kopirovat a nemusel vymyslet svoje standarty. Skoda, ze to takhle nejde dal. Dneska si kazdy vymysli svoje kolo a neohlizi se na to jak vypadaji kola tech ostatnich.

15.5.2013 14:04 Michal Vyskočil | skóre: 60 | blog: miblog | Praha
Rozbalit Rozbalit vše Re: Přenositelnost

Dneska si kazdy vymysli svoje kolo a neohlizi se na to jak vypadaji kola tech ostatnich.

Dneska?

Unfortunately, in particular since OpenSSH does authentication, it runs into a *lot* of differences between Unix operating systems OpenSSH Portable Release

When your hammer is C++, everything begins to look like a thumb.

15.5.2013 14:27 Luboš Doležel (Doli) | skóre: 98 | blog: Doliho blog | Kladensko
Rozbalit Rozbalit vše Re: Přenositelnost

Jste ve světě open source. Lidé programují to, co se hodí jim. Nikdo mě přece nemůže nutit podporovat něco, o co nemám zájem.

15.5.2013 19:39 Václav HFechs Švirga | skóre: 26 | blog: HF | Kopřivnice
Rozbalit Rozbalit vše Re: Přenositelnost

Myslím, že chápu názor obou stran - a nechci se zastávat ani jedné, ale dovolil bych si podotknout, že u Windows je největší problem v uzavřenosti kodu. Pokud už byl kód nějakým způsobem k dispozici (třeba ho autor dodotečně zveřejnil, atd...), linuxáci (a další) si dali tu práci a program naportovali (známe je to třeba u her). Jinak museli psát program znova od píky. Samozřejmě, zde to trošku idealizuju, něco se rozumně naportovat nedá a musí se to zgruntu přepsat. Ale i tak můžou zdrojáky sloužit aspoň k inspiraci.

Pokud ale vývojář použije specifické konstrukce pro Linux a řekne, že na ostatní platformy kašle, je to jeho právo, ale pokud zveřejní kód, může se najít někdo jiný, kdo to patchne / forkne. Tedy je situace u OSS oproti closed source na windows lepší.

Baník pyčo!

Linux: systémové volání splice()

Další články z této rubriky

Diskuse k tomuto článku