Java Native Interface: vytváříme virtuální stroj

Odskočíme od „nudných“ témat a vytvoříme si svůj vlastní javovský virtuální stroj. Také si ukážeme, jak se dá v systému najít instalace Javy.

Obsah

Toto je téma, které můžete přeskočit, pokud vaším jediným důvodem, proč se o JNI zajímáte, je rozšiřování javovských aplikací o nativní kód. V tomto případě žádné JVM nevytváříte, protože to je vytvořeno při spuštění javovské aplikace.

Javo, kde jsi?

Pokud se ale snažíte o obrácený postup, tedy z nativní aplikace v C/C++ spouštět Javu, hned se musíte starat o něco navíc. Prvním krokem pro vytvoření JVM je najít knihovnu, která se na Linuxu nazývá libjvm.so. Problémem je, kde takovou knihovnu vlastně hledat. Typicky, pokud jsem tuto otázku někomu položil, dostal jsem odpověď: „No přece v /xyz/abc, kde jinde?“ Je pravda, že /usr/lib/jvm je už docela sjednocené umístění pro instalace JRE/JDK, nebo alespoň symbolické odkazy na ně (třeba kamsi do /opt).

Horší je, že pokud se chceme vydat touto cestou, musíme také zvolit to správné JRE, protože co jsem se díval, tak na každém mém systému jsou alespoň dvě JRE. Což znamená heuristiku, nebo si napsat něco, co přečte distribučně specifické konfigurační soubory. Pokud by vás napadlo nějak zkoumat /usr/bin/java, tak vězte, že zatímco na Debianu se přes sérii symbolických odkazů dostanete k binárce v té správné instalaci JRE, např. na Gentoo skončíte u skriptu run-java-tool.

Populární cestou je mít v aplikaci napevno spoustu cest, kde by Java mohla být. Takto to řeší například skript FindJNI.cmake v CMake:

Osobně se mi žádný z těchto způsobů nelíbil, a tak jsem zvolil to nejjednodušší. Co funguje na všech distribucích? Příkaz java. Před načtením libjvm.so proto spouštím následující primitivní třídu v podprocesu:

Výstup této třídy nám prozradí místo, kde je aktuálně používaná Java nainstalována. Správnou cestou pro nalezení libjvm.so by nyní bylo zavolat uname(), převést si utsname.machine na název architektury dle zvyklostí Javy (například x86-64 → amd64) a v tomto podadresáři už najít kýženou knihovnu, třeba ještě někde pod adresářem server (serverové VM). Osobně jsem v tomto trochu lenoch a knihovnu spíš hledám pomocí find, protože i kdyby tam bylo VM víc, tak mi vcelku nesejde na tom, které se použije. Samozřejmě, pokud je nastavena hodnota prostředí pojmenovaná JAVA_HOME, můžeme hledat právě tam.

Vytváříme JVM

JNI_CreateJavaVM je jednou z mála funkcí, které takto knihovna exportuje. Této funkci předáme parametry pro VM a zpátky dostaneme nám známý JNIEnv* a navíc i JavaVM*. Parametry pro JVM mohou být v podobě standardních javovských -Dklíč=hodnota nebo specifických pro JNI (například -verbose:jni). Specialitou navrch je možnost nastavit si háčky na volání vprintf, exit a abort.

Stojí za zmínku, že používání wildcards (*) v java.class.path mi u JNI nikdy nefungovalo. Ukončení práce s VM:

A ještě jedno upozornění: JVM si na sebe přemapuje handlery signálů jako SIGSEGV nebo SIGABRT a následně automaticky generuje logy s výpisem zásobníku a dalšími informacemi.

Práce s vlákny

Pokud bylo vlákno vytvořeno z Javy, nemusíme řešit vůbec nic. JVM si všechny nezbytné struktury spravuje pochopitelně samo. Jenže v případě, že v našem nativním programu vytvoříme vlákno my, musíme o jeho životě dát JVM vědět (pokud v něm budeme pracovat s Javou). Zde používáme funkce AttachCurrentThread a DetachCurrentThread.

Když z nějakého důvodu nezavoláme DetachCurrentThread(), DestroyJavaVM() bude na toto volání čekat. Takže pokud jsme vlákno ukončili bez tohoto volání, aplikace bude zablokovaná navždy. U složitějších aplikací, které používají vlákna aktivně, si můžeme práci usnadnit třeba takto:

A DetachCurrentThread vyřešit pomocí páru pthread_cleanup_push() a pthread_cleanup_pop() (i když to nemusí být vždy spolehlivé). Ještě jedna věc stojí za zmínku: jestliže vytváříme vícero virtuálních strojů, vlákno by mělo patřit jen jednomu z nich.

Registrace nativních funkcí

Rozšiřujeme-li javovskou aplikaci o nativní metody, nemusíme registraci provádět ručně – stačí se držet „předepsaných“ jmen C funkcí a Java si je najde sama. Jakmile rozšiřujeme nativní aplikaci o Javu, funkce k metodám je nutné zaregistrovat ručně (i když -export-dynamic by možná zabral, nezkoušel jsem). Tuto registraci můžeme provádět kdykoliv v průběhu života JVM.

Registrace neexistující metody vyvolá javovskou výjimku, takže si ji hlavně nezapomeňte vyzvednout, pokud RegisterNatives vrátí záporné číslo. Existuje i funkce UnregisterNatives, avšak ta běžně nenachází využití.

Použití metody označené klíčovým slovem native z javovského kódu v době, kdy není žádná nativní funkce zaregistrována nebo se ji nepodařilo najít, vyvolá samozřejmě taktéž výjimku.

Uvolňování paměti v nativním kódu

Aneb nacházíme konečně důvod, proč existuje metoda finalize() – tím je uklizení prostředků alokovaných v nativním kódu. Nejčastěji se odsud volá close() pro zavírání souborů, tak to Javisti jistě znají. Na toto nesmíme zapomenout ani u vlastních tříd, avšak samotné dispose() by nemělo být nativní metodou. Správné řešení může vypadat takto:

Mapování tříd na nativní objekty

Zde jen v krátkosti zmíním jednu věc, kterou jsem viděl v kódu psaném inženýry z Google (konkrétně to byl javovský wrapper pro knihovnu Tesseract). Pokud si naše nativní funkce ukládají vlastní data, tak si musíme vytvořit nějaké mapování mezi javovským objektem a těmito daty.

To, co vám teď ukáži, je ale prostě špatně. Jednak to nebude fungovat na x86-64 a i kdyby se tam dal long, tak je to principiálně nekorektní (ačkoliv uznávám, že je to jednoduché na napsání).

Nejsnazší řešení by mohlo vypadat jako mapa mezi Cčkovým ukazatelem a javovským objektem. První problém je v tom, že toto řešení bude leakovat reference. Druhým problémem je lineární složitost hledání v takové mapě, protože binárním půlením to nejde: reference na javovské objekty je nutné porovnávat pomocí volání IsSameObject, proto by se muselo iterovat přes všechny prvky.

Lepší je proto spíš do javovské třídy dát nějaký jedinečný identifikátor, který pak půjde mapovat na Cčkový ukazatel. Prvek takové mapy můžeme vymazat po vyvolání finalize().

Diskuse k tomuto článku

Zajímalo by mě proč je kontrukce

public class Trida {
     private long nativniData; // v nativniData je nějaký Cčkový ukazatel
}

špatně. V rámci metody disposeNative() se pak nativniData korektně uvolní z paměti.

Stejně tak nerozumím tomu, proč by metoda finalize neměla být nativní? S předpokladem, že nativní finalize volá finalize předka ve svém závěru.

Předem díky za vysvětlení.

13.8.2011 16:05 Luboš Doležel (Doli) | skóre: 98 | blog: Doliho blog | Kladensko
Rozbalit Rozbalit vše Re: Java Native Interface: vytváříme virtuální stroj

V rámci metody disposeNative() se pak nativniData korektně uvolní z paměti.

Jde o principiání nekorektnost. Ukazatale jsou a vždy budou jen 64bitové, že tam dáváte long?

To kolem finalize bych považoval za best practice. Jde spíš o praktičnost. Pokud by bylo finalize nativní a vy byste potřeboval najednou uzavírat nějaký soubor, tak byste to musel udělat přidáním volání close() do nativního kódu (což je zbytečně složité). Tak je lepší si to rovnou oddělit.

16.8.2011 14:02 Tomáš
Rozbalit Rozbalit vše Re: Java Native Interface: vytváříme virtuální stroj

Už rozumím. Jde o to, že není nikde definováno, že sizeof(void*) < sizeof(long). Já bych se asi místo vytváření mapy (= výkonostní zabiják) spíše přikláněl,k využití nativní třídy CPointer, která má pointer peer deklarovaný jako

public abstract class CPointer {
protected long peer;
     ...
}

A kruci, zase long. ;-)

17.8.2011 02:23 Luboš Doležel (Doli) | skóre: 98 | blog: Doliho blog | Kladensko
Rozbalit Rozbalit vše Re: Java Native Interface: vytváříme virtuální stroj

Mapa není až takový zabiják :-)

Hledání ve vhodně udělané mapě je v čase log_2(n). Při 10 tisísích takto spravovaných objektů je pro dohledání ukazatele nutné projít jen cca 13 prvků z mapy, než je nalezen ten správný. To není vůbec zlé.

Jinak ty odkazované stuby jsou taková znouzecnost, neboli jak emulovat C v Javě. (Normálně by se na tohle použilo JNA a člověk by si tyhle věci psát nemusel.) Je možné, že ukazatel nebude nikdy delší než javovský long. Ale takových předpokladů se už ve světě počítačů udělalo tolik a kolik škody to taky napáchalo... Mapa mě hřeje na srdci víc :-)