Portál AbcLinuxu, 9. května 2025 06:32

Dotaz: Nefunkční RTX A5000 (možná příčina)

8.12.2024 12:07 PetebLazar | skóre: 34 | blog: l_eonardovo_odhodlani
Nefunkční RTX A5000 (možná příčina)
Přečteno: 568×
Odpovědět | Admin
Zdravím, nesetkal jste se někdo s chybou u grafické karty NVIDIA (konkrétně "Quadro" RTX A5000),

která se projevuje nefunkčností GK (v tomto případě karta vyhrazeně slouží pro CUDA výpočty), o zobrazení X11 se stará slabá GT710. dmesg
[   11.665860] NVRM: GPU 0000:08:00.0: Failed to copy vbios to system memory.
[   11.666009] NVRM: GPU 0000:08:00.0: RmInitAdapter failed! (0x30:0xffff:874)
[   11.668498] NVRM: GPU 0000:08:00.0: rm_init_adapter failed, device minor number 0
lspci
08:00.0 VGA compatible controller: NVIDIA Corporation Device 2231 (rev a1)
08:00.1 Audio device: NVIDIA Corporation Device 1aef (rev a1)
Karta je jako PCI zařízení viditelná jak z Linuxu (Ubuntu 18.04 tak Windows 10), ale jeví se "neaktivovanou" patrně problém s jejím BIOSem. Snaha o přímé přiřazení ovladačů zařízení ve Windows skončí její vypnutím z důvodů problémů. Pokud je v počítači jako jediná GK nezobrazuje obraz v POSTu ani po něm. Odkazy při snaze dohledat tuto chybu zmiňují možnost chybného obsah BIOSu GK. Než se pustím do jeho obnovy pomocí NVFLASH (karta je cca rok po záruce) zjišťuji zda se s tím někdo nesetkal.
Nástroje: Začni sledovat (0) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

8.12.2024 13:19 X
Rozbalit Rozbalit vše Re: Nefunkční RTX A5000 (možná příčina)
Odpovědět | | Sbalit | Link | Blokovat | Admin
Cely dmesg by nebyl? Tady to resi nastavenim IOMMU.
Ubuntu 18.04
Novejsi distro jsi testoval? Nvidia ovladace mas v jake vezi?
8.12.2024 14:26 PetebLazar | skóre: 34 | blog: l_eonardovo_odhodlani
Rozbalit Rozbalit vše Re: Nefunkční RTX A5000 (možná příčina)
Je to zakonzervované prostředí z roku 2019+, na němž se z hlediska OS(APL) nic prakticky nemění. Ovladače jsou starší (proprietární 450.?), kvůli GT710 která již snad v novějších generacích ovladačů není podporována.

IOMMU jsem v BIOSu preventivně vypnul a ještě ho zakázal v parametrech kernelu, ale to nepomohlo. Navíc obraz se neukáže ani při POSTu/bootu do Win10, takže si myslím že je to na straně GK.

N například utilita GPU-Z (pod Windows) nebyla schopna zobrazit verzi BIOSu této GK a ani jeho dump, což by asi taky nasvědčovalo, že něco není v pořádku.

Ještě budu zkoušet GK v jiném PC, kde případně jako poslední možnost vyzkouším NVFLASH video BIOSu. Mělo by jít o RTX A5000 prodávanou pod značkou HP, pro kterou jsem BIOS zahlédl na stránkách Techpowerup.

Zkusím obvolat nějaké servisy co deklarují provádění oprav GK, nejsem si vědom že by tu NVIDIA měla nějaké autorizované servisní středisko. Nakolik má smysl zkoušet HP netuším, ty to patrně předají dál.
9.12.2024 08:28 pepa
Rozbalit Rozbalit vše Re: Nefunkční RTX A5000 (možná příčina)
Zajima me to, bo kvuli ai jsem se koukal na bazarove karty RTX 6000 Ada Generation s 48 GB. Bohuzel jsem zadnou podobnou chybu nikdy nevidel, tezko rict, ale asi bych zacal ovladacema. Vyhodit starou kartu, nahrat novejsi ovladace a zkusit. Nekde mam mozna fedora xfce live cedo (bezelo z usb) na testy docker a nvidia runtime (nebo muzu vyrobit).

https://resources.nvidia.com/en-us-briefcase-for-datasheets/nvidia-rtx-a5000-dat-1?ncid=no-ncid

NVIDIA Ampere architecture- based CUDA Cores 8,192

https://en.wikipedia.org/wiki/Ampere_(microarchitecture) Launched May 14, 2020; 4 years ago rtx30xx

Drzim pesti !
9.12.2024 08:55 PetebLazar | skóre: 34 | blog: l_eonardovo_odhodlani
Rozbalit Rozbalit vše Re: Nefunkční RTX A5000 (možná příčina)
Pokud karta jako primární(jediná) PEG nezobrazí obraz po zapnutí PC nebude to problém v ovladačích. Dnes si ji vezmu sebou na pokusy v jíném PC.

Přepsal jsem zatim workflow, aby se využila A4000 v jinem stroji a omezil ji pomocí nvidia-smi powerlimit na 100W. Jednoslotova GK a 140W vede pri 100% vytizeni k vcelku vysokym teplotam (>90°C).
9.12.2024 21:14 GeorgeWH | skóre: 42
Rozbalit Rozbalit vše Re: Nefunkční RTX A5000 (možná příčina)
Odpovědět | | Sbalit | Link | Blokovat | Admin
Za davnych ciach sa nefunkcne dosky a hlavne grafiky vypekali v rure.
xxxs avatar 10.12.2024 05:50 xxxs | skóre: 25 | blog: vetvicky
Rozbalit Rozbalit vše Re: Nefunkční RTX A5000 (možná příčina)
tu asi ako posledna moznost. trosku draha na spontanny dopek.
10.12.2024 08:32 PetebLazar | skóre: 34 | blog: l_eonardovo_odhodlani
Rozbalit Rozbalit vše Re: Nefunkční RTX A5000 (možná příčina)
Jde spíš o to čím jí nahradit. Stejnou RTX A5000 (cena se pohybuje mezi 50-75kKc), její nástupce RTX 5000 Ada má cenu zdvojnásobnou (s výhodou 32GB, ale nižším memory bandwidth ... pouze 256bit). Blackwell generace příjde asi až někdy v příštím roce.

Při současném běhu (na A4000 s 16GB VRAM) je alokace VRAM podstatně nižší(11GB). Nakolik je to dáno množstvím okamžitě zpracovávaných dat a nakolik použití méně komplexního modelu pro inferenci nedovedu odhadnout.

Ještě je na trhu slabší A4500 s 20GB VRAM s výhodou dvouslotového chlazení (proti A4000). Zatím se přikláním k pořízení stejné (pokud se potvrdí nefunkčnost jinde) s tím, že jí pro klid duše omezím powerlimit <200W. To by mělo mít vcelku marginální dopad na výkon, při snížené teplotní expozici.
10.12.2024 16:49 MarV | skóre: 11
Rozbalit Rozbalit vše Re: Nefunkční RTX A5000 (možná příčina)
Investovat do někoho, kdo má zkušenosti s diagnostikou a je-li potřeba reflow/reball, tak i patřičné vybavení? Bohužel nemám konkrétní reference. Pečení v troubě tomu víc ublíží než pomůže. Grilované konektory a kondenzátory. Problematické spoje bezolovem se bez tavidla stejně nechytí ...
Max avatar 11.12.2024 08:43 Max | skóre: 72 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: Nefunkční RTX A5000 (možná příčina)
Přílohy:
Kolega nedávno jen tak ze srandy zkoušel zapéct jednu GPU a tragedie. Ta krátkodobá vyšší teplota odpálila GPU totálně, něco se odlepilo od PCB, nějaké plasty se zdeformovaly (úplně stejné vedle sebe, jeden ok, druhý ko apod.). Držel se postupů jako teplota, časy apod. Myslím, že to mohlo fungovat kdysi na ty staré GPU, co měly v sobě ještě dost olova a méně citlivější komponenty a plasty.
Foto pro tu srandu přidávám do přílohy.
Zdar Max
Měl jsem sen ... :(
11.12.2024 10:42 X
Rozbalit Rozbalit vše Re: Nefunkční RTX A5000 (možná příčina)
Loool ;D
11.12.2024 14:40 PetebLazar | skóre: 34 | blog: l_eonardovo_odhodlani
Rozbalit Rozbalit vše Re: Nefunkční RTX A5000 (možná příčina)
Myslím, že v tomto případě nepůjdu za hranici pokusů s nvflash.

U své GK bych se možná odhodlal k utopení GPU ve Fluxu a následně lokálně použil horkovzdušnou stanici.
11.12.2024 14:54 PetebLazar | skóre: 34 | blog: l_eonardovo_odhodlani
Rozbalit Rozbalit vše Re: Nefunkční RTX A5000 (možná příčina)
Pokusy budu dělat na stroji, kde jsem dříve provozoval IOMMU/GFX passthrough. Vzpomínám, že tam byla možnost v rámci VFIO přiřadit zařízení VgaBIOS ve formě souboru (romfile=). Tento musel být speciálně opatchován, aby byl šel incializovat. Třeba by se tím problémové GK vrátila funkčnost, byť jen v prostředí virtualizace a dala ověřit funkčnost zbylých částí GPU/VRAM.

https://wiki.archlinux.org/title/PCI_passthrough_via_OVMF#UEFI_(OVMF)_compatibility_in_VBIOS
11.12.2024 15:45 MarV | skóre: 11
Rozbalit Rozbalit vše Re: Nefunkční RTX A5000 (možná příčina)
Jen bych upozornil, že moderní PCB s velkým počtem vnitřních vrstev a k tomu velký čip se bez předehřevu prakticky nedá horkovzduchem pájet (obzvlášť pokud je to nějaké šidítko s mizivým výkonem < 750W), protože deska odvádí příliš mnoho tepla. Pro případ vlastních pokusů doporučuji shlédnout northwestrepair. Jaké používá SW tooly pro diagnostiku, co kontroluje na úrovni PCB, jak se dělá rework ...
11.12.2024 18:12 PetebLazar | skóre: 34 | blog: l_eonardovo_odhodlani
Rozbalit Rozbalit vše Re: Nefunkční RTX A5000 (možná příčina)
Na předmětnou GK s GA102 s 620mm2+ bych si netroufl, ani kdyby byla moje a měl jsem k tomu potřebné vybavení.

Měl jsem na mysli snad jedinou mou nefunkční historickou GK (ATI HD3870 s RV670 ~200mm2). Jelikož mi zbyla druhá HD3870 z CrossFire zapojení nikdy jsem opravu neřešil.
10.12.2024 08:37 PetebLazar | skóre: 34 | blog: l_eonardovo_odhodlani
Rozbalit Rozbalit vše Re: Nefunkční RTX A5000 (možná příčina)
Koukám, že nástroj nvflash má také možnost dumpu stávajícího Video BIOS a je i ve verzi pro Linux. Třeba průzkum/porovnání/průběh dumpu napoví něco více. https://www.techpowerup.com/download/nvidia-nvflash/
10.12.2024 18:51 PetebLazar | skóre: 34 | blog: l_eonardovo_odhodlani
Rozbalit Rozbalit vše Re: Nefunkční RTX A5000 (možná příčina)
Tak nvflash přímo zmíněném prostředí u desktop zobrazovadla (GT710) BIOS zazálohoval, u RTX A5000 ohlásil chybu (ve smyslu funkci překážejících aktivních ovladačů). Vyzkouším to na syrovém/Live prostředí (nomodeset?).
11.12.2024 19:42 vladimir
Rozbalit Rozbalit vše Re: Nefunkční RTX A5000 (možná příčina)
Odpovědět | | Sbalit | Link | Blokovat | Admin
tu je neco: https://forums.developer.nvidia.com/t/nvrm-failed-to-copy-vbios-to-system-memory/57270
11.12.2024 21:43 PetebLazar | skóre: 34 | blog: l_eonardovo_odhodlani
Rozbalit Rozbalit vše Re: Nefunkční RTX A5000 (možná příčina)
To jsem četl, jednomu pomohl reflash video-BIOSu, dalšímu nové ovladače, dalšímu jiný kernel a zbylý to vyřešil nákupem jiné GK. ;-)

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.