Portál AbcLinuxu, 14. prosinec 2017 10:59

Linux: systémové volání splice()

14. 5. 2013 | Nikola Pajkovský
Články - Linux: systémové volání splice()  

Ukážeme si, jak elegantně kopírovat soubory mezi dvěma otevřenými souborovými deskriptory bez nutnosti kopírovat obsah z jádra do uživatelského prostoru a zpět.

Systémové volání splice() má dlouhou historii. splice() byl poprvé navržen Larrym McVoyem v roce 1998 jako způsob vylepšení I/O operací na serverech. Přestože se často v následujících letech zmiňovalo o splice(), žádná implementace nikdy nebyla vytvořena pro hlavní řadu linuxového jádra. Nicméně, situace se změnila těsně před uzavřením začleňovacího okna pro 2.6.17, kdy Jens Axboe zaslal sadu změn i s množstvím oprav, které byly začleněny.

Prototyp systémového volání splice() vypadá následovně:

	long splice(int fd_in, loff_t *off_in, int fd_out, loff_t *off_out,
                    size_t len, unsigned int flags);

Při pohledu na koncept na vyšší úrovni se v jádře objevuje nový pojem "náhodný jaderný buffer" (random kernel buffer), který je vystaven do uživatelského prostoru. Jinými slovy, splice() pracuje na jaderném bufferu, nad kterým má uživatel kontrolu.

Volání splice() způsobí přesun dat mezi dvěma popisovači souboru (file descriptors), bez nutnosti přesunout data z jádra do uživatelského prostoru a zpět. Jádro přesune až len dat z deskriptoru souboru fd_in do deskriptoru souboru fd_out, kde jeden z deskriptorů musí být roura (pipe). Takže ve velmi realném (ale stále abstraktním) smyslu, splice() není nic jiného, než read()/write() do jaderného bufferu.

Dvě hodnoty offsetu (off_in a off_out) ukazují, na kterou pozici by měl každý deskriptor souboru být umístěný před začátkem přesunu dat. Všimněte si, že offsety se předávají pomocí ukazatelů, které jsou příslušným způsobem upraveny po čtení/zápisu z/do bufferu. Z uživatelského prostoru se může použít ukazatel NULL k indikaci, že se má použít stávající offset. Nicméně je chyba použít NULL ukazatel jako offset k přiřazené rouře (pipe).

Argument flags upravuje, jak se kopírování provádí:

A kde byste ve skutečnosti chtěli použít splice()? Normálně byste použili splice()tam, kde chcete kopírovat z jednoho zdroje do druhého, aniž byste chtěli vidět data, která se kopírují. Použití splice() vám nabízí efektivnější způsob, jak to udělat. Takto se vyhnete zbytečné alokaci paměti a memcpy() z/do bufferu v uživatelském prostoru.

Pokud byste chtěli kopírovat soubor, mohli byste to napsat tradičním způsobem v uživatelském prostoru:

	for (;;) {
		char *p;
		int ret = read(input, buffer, BUFSIZE);

		if (!ret)
			break;
		if (ret < 0) {
			if (errno == EINTR)
				continue;
			.. exit with an inpot error ..
		}

		p = buffer;
		do {
			int written = write(output, p, ret);
			if (!written)
				.. exit with filesystem full ..
			if (written < 0) {
				if (errno == EINTR)
					continue;
				.. exit with an output error ..
			}
			p += written;
			ret -= written;
		} while (ret);
	}

s tím rozdílem, že byste neměli buffer v uživatelském prostoru, a kde jsou systémová volání read() a write() nahrazena systémovým voláním splice() do/z roury (pipe). Takže jediné, co se změní je to, kde ve skutečnosti existuje buffer:

	int pipefd[2], r;

	r = pipe(pipefd);
	if (r < 0)
		die("pipe");

	for (;;) {
		int nr = splice(fd_in, NULL, pipefd[1], NULL, INT_MAX,
				SPLICE_F_MOVE | SPLICE_F_MORE);
		if (!nr)
			break;
		if (nr < 0) {
			if (errno == EINTR)
				continue;
			.. exit with an inpot error ..
		}

		do {
			int ret = splice(pipefd[0], NULL, fd_out, NULL, nr, SPLICE_F_MOVE);
			if (!ret)
				.. exit with filesystem full ..
			if (ret < 0) {
				if (errno == EINTR)
					continue;
				.. exit with an output error ..
			}

			nr -= ret;
		} while (nr);
	}

Ne každý deskriptor souboru se může použít se splice() a důvodem je to, že to ješte nikdo nepotřeboval, a tudíž ani nikdo nenapsal.

Kombinace možných souborových deskriptorů:

\out
inpipe reg chr unix tcp udp raw
pipe yes yes yes yes yes yes yes
reg yes no no no no no no
chr yes no no no no no no
unix no no no no no no no
tcp yes no no no no no no
udp no no no no no no no
raw no no no no no no no

Další články z této rubriky

Paralelizace běžných činností v konzoli pomocí GNU Parallel
Unixové nástroje – 26 (triky pro práci v Bashi)
Unixové nástroje – 25 ((s,c)fdisk, gdisk, parted a findmnt)
Linux: systémové volání splice()
Bootování ze sítě: pxelinux a kořenový adresář na NFS

Diskuse k tomuto článku

14.5.2013 07:57 CruX
Rozbalit Rozbalit vše Re: Linux: systémové volání splice()
Odpovědět | Sbalit | Link | Blokovat | Admin
No prave na kopirovanie suborov by som skor pouzil sendfile()
14.5.2013 09:02 Suchý čert
Rozbalit Rozbalit vše Re: Linux: systémové volání splice()
Jo, na kopírování stačí sendfile(). V článku by to chtělo zmínit i funkci vmsplice(), díky které to teprve začne být zajímavé — lze jí totiž v kombinaci se splice() udělat zero‐copy „send“ z uživ. prostoru (teoreticky i „recv“, ale v jádře to není implementované, resp. je to tam implementované pomocí kopírování). Pak se ještě v souvislosti se splice() může hodit funkce tee(), která umí z jedné roury zduplikovat data do druhé.
14.5.2013 09:27 Nikola Pajkovský | skóre: 16
Rozbalit Rozbalit vše Re: Linux: systémové volání splice()
Ano, chtěl jsem, ale članek mi připadal hodne dlouhý, když byl zalomený na 80 znaků v mojem editoru, tak jsem to zámerně vynechal. Neměl jsem.
Save the whales. Feed the hungry. Free the mallocs
14.5.2013 15:05 Nikola Pajkovský | skóre: 16
Rozbalit Rozbalit vše Re: Linux: systémové volání splice()
jak se to vezme, API je o něco jednodušší, ale sendfile je implemetovaný pomocí splice.

Můj snippet jsem ve skutečnosti použil pro kopírování tcp ipv4 spojení na disk. Což jsem mohl zmínit. Moje chyba.

Save the whales. Feed the hungry. Free the mallocs
Tomáš Bžatek avatar 15.5.2013 15:16 Tomáš Bžatek | skóre: 29 | Brno
Rozbalit Rozbalit vše Re: Linux: systémové volání splice()

Pamatuju si, ze sendfile() ve 2.4 fungoval dobre, ale ve 2.6 byl omezeny jen na sockety. Ted koukam do man a uz to zase zprovoznili:

In Linux kernels before 2.6.33, out_fd must refer to a socket.  Since Linux 2.6.33 it can be any file.  If it is a regular file, then sendfile() changes the file offset appropriately.

Nastesti slo chytat chybovy kod a fallbacknout do manualniho blokoveho rezimu.

Koupim litajiciho tucnaka
14.5.2013 09:03 JS
Rozbalit Rozbalit vše Re: Linux: systémové volání splice()
Odpovědět | Sbalit | Link | Blokovat | Admin
Zdravim,

dik, zajimavy clanek, ale klidne by mohl byt i o spetku mene odborny (pro nas co nedelame v Linuxu). Take mi neni jasna veta:
Nicméně je chyba použít NULL ukazatel jako offset k přiřazené rouře (pipe).
Nema to byt opacne? V prikladech je NULL..
Josef Kufner avatar 14.5.2013 12:59 Josef Kufner | skóre: 67
Rozbalit Rozbalit vše Re: Linux: systémové volání splice()
Nezajímavého hnoje je všude dost. Buď rád že ten článek je, jaký je.
Hello world ! Segmentation fault (core dumped)
14.5.2013 17:04 JS
Rozbalit Rozbalit vše Re: Linux: systémové volání splice()
Vzdyt ja jsem za nej rad.
14.5.2013 14:59 Nikola Pajkovský | skóre: 16
Rozbalit Rozbalit vše Re: Linux: systémové volání splice()
Roura (pipe) je proud (stream) dat bez pozice. Muže se to zdát divné, ale ve skutečnosti, je to hodně dobrá věc. Nemusíš předávat "tento soubor, tento offset, tato délka" - pouze předáš jednoduše deskriptor souboru a nakrmíš jej daty, aniž by ses zajímat, co dělá čtenár (reader) na druhé straně roury. Čtenář nemuže vyhledávat data pomocí seek v proudu dat a také čtenář nebude zmatený, kde je konec souboru.

Takže čtení z roury s offsetem 1 je chyba a proto se musí offset u roury nastavit na NULL. Následuje chybné čtení z roury:

        int pipefd[2];
        pipe(pipefd)

        loff_t pipe_offset = 1;
        splice(pipefd[0], &pipe_offset, ...);
Save the whales. Feed the hungry. Free the mallocs
14.5.2013 17:05 JS
Rozbalit Rozbalit vše Re: Linux: systémové volání splice()
Ano, tak jsem to pochopil, a proto mi ta veta prisla divna - prijde mi, ze rika, ze se tam NULL predavat nesmi a pritom se predavat nesmi nic jineho nez NULL.
14.5.2013 18:05 petr_p | skóre: 59 | blog: pb
Rozbalit Rozbalit vše Přenositelnost
Odpovědět | Sbalit | Link | Blokovat | Admin
Chápu, že pokrok nelze zastavit, otázka ale zůstává, nakolik se vázat na linuxově specifické služby. (Poslední dobou mě třeba nadzvedlo zavedení printf("%m") v util-linux.)
David Watzke avatar 14.5.2013 20:46 David Watzke | skóre: 74 | blog: Blog... | Praha
Rozbalit Rozbalit vše Re: Přenositelnost
To je ale rozšíření glibc, ne?

K věci: asi člověk nebude používat splice jen tak ze srandy, ale když už máš linux-only software (který např. přímo používá epoll a kdoví co), tak proč toho nevyužít...
“Being honest may not get you a lot of friends but it’ll always get you the right ones” ―John Lennon
14.5.2013 22:21 Nikola Pajkovský | skóre: 16
Rozbalit Rozbalit vše Re: Přenositelnost
ne, je to systémové volání. V glibc je wrapper. A ano, i bez glibc můžes volat jakékoliv systémové volání.
Save the whales. Feed the hungry. Free the mallocs
15.5.2013 07:15 petr_p | skóre: 59 | blog: pb
Rozbalit Rozbalit vše Re: Přenositelnost
Ano, je to věc standardní knihovny, jen to byla první věc, na kterou jsem si vzpomněl. Z oblasti systémových volání mě teď napadá systemd, který bezpodmínečně závisí na cgroups.
frEon avatar 14.5.2013 22:12 frEon | skóre: 40 | Praha
Rozbalit Rozbalit vše Re: Přenositelnost
#ifdef
Talking about music is like dancing to architecture.
14.5.2013 23:38 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Přenositelnost
nakolik se vázat na linuxově specifické služby

V praxi stejně použijete nějaký wrapper, který zavolá splice() tam, kde je k dispozici, a nahradí ho pomocí univerzálních funkcí tam, kde není.

Poslední dobou mě třeba nadzvedlo zavedení printf("%m") v util-linux

Pominu-li, že tohle zrovna bude spíš glibc-specific než linux-specific, tak zrovna v util-linux mi použití linux-specific featur zas až tak absurdní nepřipadá. :-)

15.5.2013 07:16 petr_p | skóre: 59 | blog: pb
Rozbalit Rozbalit vše Re: Přenositelnost
%m je glibc-specific, tedy s jinou standardní knihovnou i na Linuxu budete mít smůlu.
15.5.2013 07:57 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Přenositelnost
Není nad to přečíst si celý příspěvek, na který se chystáte reagovat…
15.5.2013 15:00 R
Rozbalit Rozbalit vše Re: Přenositelnost
Asi to nikomu nevadilo, tak to tam je. Ak ti to vadi, tak posli vyvojarom patch.
15.5.2013 16:24 pc2005 | skóre: 34 | blog: GardenOfEdenConfiguration | liberec
Rozbalit Rozbalit vše Re: Přenositelnost
Jo je to ještě horší :-D (teda pokud v eglibc apod. ten %m není definovaný).
Chuck Norris řekl babičce, že si dá jen 3 knedlíky. A dostal 3 knedlíky. | 帮帮我,我被锁在中国房
michich avatar 15.5.2013 18:00 michich | skóre: 51 | blog: ohrivane_parky
Rozbalit Rozbalit vše Re: Přenositelnost
eglibc to určitě má (glibc to umělo ještě před eglibc forkem). uclibc to má (volitelně při konfiguraci). bionic to asi nemá.
Luboš Doležel (Doli) avatar 15.5.2013 01:22 Luboš Doležel (Doli) | skóre: 98 | blog: Doliho blog | Kladensko
Rozbalit Rozbalit vše Re: Přenositelnost
Chápu, že pokrok nelze zastavit, otázka ale zůstává, nakolik se vázat na linuxově specifické služby.
Vzhledem k rozšířenosti Linuxu vs. ostatních unixových OS na nových strojích... asi bych to neřešil. Ať si to řeší ti, co tu "exotiku" provozují.

Proč exotiku? Minimálně na desktopu za měřenou dobu existence AbcLinuxu BSD/Solaris/ostatní trvale padají a jestli ta křivka nezmění tvar, tak to za pár roků bude nula. A nejsem ochoten věřit, že by to na serverech bylo až tak jinak. Taková bomba to ZFS není.
15.5.2013 08:04 Mti. | skóre: 31 | blog: Mti
Rozbalit Rozbalit vše Re: Přenositelnost
Ehm... zatim "nam" tohle delaji vyrobci hw i sw s ohledem na prevahu woknousu, ze? :-)
Vidim harddisk mrzuty, jehoz hlava plotny se dotyka...
15.5.2013 08:27 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Přenositelnost
Ano. A je mi moc smutno, když vidím, že ani tahle zkušenost mnoha lidem nebrání chovat se úplně stejně k jiným.
Luboš Doležel (Doli) avatar 15.5.2013 08:55 Luboš Doležel (Doli) | skóre: 98 | blog: Doliho blog | Kladensko
Rozbalit Rozbalit vše Re: Přenositelnost
Takže používat Linux-specific funkce se zapovídá a vývojáři by se měli starat o to, aby to chodilo na všech možných a nemožných platformách? To jako proč by si s tím měli dávat práci? Ať si to naportují ti, co tu platformu používají.
15.5.2013 09:07 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Přenositelnost
Nezapovídá. Ale program by měl být napsaný tak, aby se obešel i bez ní, pokud k dispozici není (viz můj včerejší příspěvek z 23:38).
pavlix avatar 15.5.2013 16:31 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Přenositelnost
Je krásné mít své ideály.
Já už tu vlastně ani nejsem. Abclinuxu umřelo.
Luboš Doležel (Doli) avatar 15.5.2013 08:53 Luboš Doležel (Doli) | skóre: 98 | blog: Doliho blog | Kladensko
Rozbalit Rozbalit vše Re: Přenositelnost
Já na tom u SW nevidím nic špatného. To mají podporovat každou minoritní platformu?
15.5.2013 09:14 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Přenositelnost
Smutné. Opravdu velmi smutné. Jen nevím, jestli je to povahou nebo jestli se opravdu tak strašně moc změnilo za těch deset let mezi tím, kdy jsem s Linuxem začínal já, tím, kdy jste začínal vy.
15.5.2013 13:14 Ivan
Rozbalit Rozbalit vše Re: Přenositelnost
+1 Prenositolenost na urovni zdrojaku byla jedna hlavnich vyhod Unixu. Bylo tu nekolik konkurencnich ale vice-mene kompatibilnich systemu. Cele to fungovalo, i kdyz to nekdy bylo dost drahe. Linux ohrome tezil z toho ze mohl kopirovat a nemusel vymyslet svoje standarty. Skoda, ze to takhle nejde dal. Dneska si kazdy vymysli svoje kolo a neohlizi se na to jak vypadaji kola tech ostatnich.
15.5.2013 14:04 Michal Vyskočil | skóre: 60 | blog: miblog | Praha
Rozbalit Rozbalit vše Re: Přenositelnost
Dneska si kazdy vymysli svoje kolo a neohlizi se na to jak vypadaji kola tech ostatnich.
Dneska?
Unfortunately, in particular since OpenSSH does authentication, it runs into a *lot* of differences between Unix operating systems OpenSSH Portable Release
When your hammer is C++, everything begins to look like a thumb.
Luboš Doležel (Doli) avatar 15.5.2013 14:27 Luboš Doležel (Doli) | skóre: 98 | blog: Doliho blog | Kladensko
Rozbalit Rozbalit vše Re: Přenositelnost
Jste ve světě open source. Lidé programují to, co se hodí jim. Nikdo mě přece nemůže nutit podporovat něco, o co nemám zájem.
15.5.2013 19:39 Václav HFechs Švirga | skóre: 26 | blog: HF | Kopřivnice
Rozbalit Rozbalit vše Re: Přenositelnost
Myslím, že chápu názor obou stran - a nechci se zastávat ani jedné, ale dovolil bych si podotknout, že u Windows je největší problem v uzavřenosti kodu. Pokud už byl kód nějakým způsobem k dispozici (třeba ho autor dodotečně zveřejnil, atd...), linuxáci (a další) si dali tu práci a program naportovali (známe je to třeba u her). Jinak museli psát program znova od píky. Samozřejmě, zde to trošku idealizuju, něco se rozumně naportovat nedá a musí se to zgruntu přepsat. Ale i tak můžou zdrojáky sloužit aspoň k inspiraci.

Pokud ale vývojář použije specifické konstrukce pro Linux a řekne, že na ostatní platformy kašle, je to jeho právo, ale pokud zveřejní kód, může se najít někdo jiný, kdo to patchne / forkne. Tedy je situace u OSS oproti closed source na windows lepší.
Baník pyčo!
Tomáš Bžatek avatar 15.5.2013 15:21 Tomáš Bžatek | skóre: 29 | Brno
Rozbalit Rozbalit vše Re: Linux: systémové volání splice()
Odpovědět | Sbalit | Link | Blokovat | Admin

Dovolil bych si upozornit, ze v pripade pouziti na prenos dat ze souboroveho systemu se spolehlivost vyrazne lisi implementace od implementace. Takovy reiser4 vraci nuly misto dat a indikuje success. Verim, ze u jinych fs se problem neobjevuje, ale clovek nikdy nevi, kdo co pouziva za jadro a jake data tam opravdu proudi. Meli jsme v Gnome trosku bugreportu na ztracene data... :-)

Koupim litajiciho tucnaka

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.