Llama.cpp na Steam Decku s Ubuntu 25.04

Portál AbcLinuxu, 19. srpna 2025 11:19

Llama.cpp na Steam Decku s Ubuntu 25.04

včera 11:53 | Přečteno: 314× | c0mput3rs | poslední úprava: včera 11:54

Takže ešte raz pozrieme sa na llama.cpp na Steam Decku (Ubuntu 25.04) s GPU akceleráciou (Vulkan) — krok za krokom

Tento návod ukazuje, ako rozbehať llama.cpp na Steam Decku (APU Van Gogh, gfx1033) s akceleráciou cez Vulkan na Ubuntu 25.04. Uvádzam len kroky a príkazy, ktoré fungovali end-to-end, plus praktické spôsoby, ako overiť, že prácu naozaj robí GPU.

TL;DR

Build: -DGGML_VULKAN=ON
Použi menšie GGUF modely (1–3B, kvantizované) a čo najviac vrstiev presuň na GPU cez --gpu-layers
Overovanie cez radeontop, vulkaninfo a prípadne rocm-smi

0) Over, že je GPU viditeľné

rocminfo          # malo by ukázať agent "gfx1033" (AMD Custom GPU 0405)
rocm-smi --json   # teplota/spotreba/VRAM (na APU sú metriky čiastočné, JSON je stabilný)

Ak chceš spúšťať ako bežný používateľ, pridaj skupiny a odhlás sa/prihlás:

sudo usermod -aG render,video $USER

1) Nainštaluj balíky

sudo apt update
sudo apt install -y \
  build-essential cmake git \
  mesa-vulkan-drivers libvulkan-dev vulkan-tools \
  glslang-tools glslc libshaderc-dev spirv-tools \
  libcurl4-openssl-dev ca-certificates

Rýchle kontroly:

vulkaninfo | head -n 20     # "Vulkan Instance Version"
glslc --version             # verzie shaderc/glslang

(Voliteľné zrýchlenie buildov):

sudo apt install -y ccache

2) Klonuj a postav llama.cpp s Vulkanom

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
rm -rf build
cmake -B build -DGGML_VULKAN=ON -DGGML_CCACHE=ON
cmake --build build --config Release -j

Ak CMake hlási chýbajúci CURL a nechceš ťahať modely z HF, môžeš vypnúť:

cmake -B build -DGGML_VULKAN=ON -DLLAMA_CURL=OFF
cmake --build build --config Release -j

3) Spusti model na GPU

Z Hugging Face (vyžaduje CURL v builde):

./build/bin/llama-cli \
  -hf ggml-org/gemma-3-1b-it-GGUF \
  --gpu-layers 32 \
  -p "Pozdrav zo Steam Deck GPU."

Lokálny model:

./build/bin/llama-cli \
  -m /cesta/k/modelu.gguf \
  --gpu-layers 32 \
  -p "Pozdrav zo Steam Deck GPU."

Poznámky: začni s kvantizáciami (*q4_0.gguf, *q5_k.gguf). Zvyšuj --gpu-layers až po limit VRAM (Deck má typicky ~1 GiB vyhradené + zdieľanú RAM). Väčší kontext (--ctx-size) = viac pamäte.

4) Over, že GPU naozaj pracuje

Jednoduché: radeontop

sudo apt install -y radeontop
radeontop
# v druhom termináli spusti llama.cpp; sleduj skok využitia "gpu"

Vulkan headless kontrola:

vulkaninfo | head -n 20   # "DISPLAY not set ..." je pri headless OK

ROCm SMI (užitočné teplota/spotreba/VRAM):

watch -n 1 rocm-smi --showtemp --showpower --showmeminfo vram --json

DPM stavy (zmeny hodín):

watch -n 0.5 "cat /sys/class/drm/card*/device/pp_dpm_sclk; echo; cat /sys/class/drm/card*/device/pp_dpm_mclk"

5) Čo sa osvedčilo na Van Gogh (gfx1033)

Vulkan backend je najspoľahlivejší na AMD iGPU/APU
Malé modely (1–3B) s q4/q5 na testy; ak treba, skús aj väčšie s nižšou záťažou
Viac --gpu-layers = lepší výkon (kým nedôjde pamäť)
radeontop je najpohodlnejší indikátor, že sa GPU hýbe

6) Rýchle riešenia problémov

CMake nevie nájsť Vulkan/glslc → doinštaluj libvulkan-dev, glslc, glslang-tools, libshaderc-dev, spirv-tools
CMake nevie nájsť CURL → sudo apt install -y libcurl4-openssl-dev alebo -DLLAMA_CURL=OFF
Nízky výkon/seká → zníž --ctx-size, --gpu-layers, použi menšiu kvantizáciu, zavri iné GPU úlohy
Práva → používateľ musí byť v skupinách render a video

Reflexia

Steam Deck je prekvapivo dobrá alternatíva k Raspberry Pi 5 ako nízkospotrebný domáci server, najmä ak chceš lokálnu inferenciu LLM s GPU akceleráciou. Má RDNA2 iGPU, 16 GB LPDDR5 a NVMe SSD, takže zvládne virtualizáciu aj LLM priamo na vstavanom disku s dobrou efektivitou.

Hoci idle spotreba je vyššia (~7 W) než pri Raspberry Pi 5 (~2.5–2.75 W), Deck ponúka rádovo vyšší výkon a GPU možnosti. Pri úlohách typu llama.cpp s presunom vrstiev na GPU dáva zmysel uprednostniť Deck, ak akceptuješ pár wattov naviac za výrazne väčšiu priepustnosť a flexibilitu.

Porovnanie spotreby (orientačne)

Zariadenie                Idle (typicky)   Záťaž (približne)
Raspberry Pi 5 (16 GB)    ~2.5–2.75 W      ~5–6 W (CPU; bez GPU akcelerácie)
Steam Deck (256 GB)       ~7 W             do ~25 W (max. systémová špička)

Zhrnutie: ak znesieš o pár wattov vyššiu idle spotrebu, Steam Deck ti za to vráti neporovnateľne viac výkonu a možností pre AI/LLM v domácom prostredí.

Hodnocení: 100 %

špatné • dobré

Tiskni Sdílej:

Komentáře

Nástroje: Začni sledovat (2) ? , Tisk

Vložit další komentář