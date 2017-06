×

Analýza ELF binárky - jak ji oholit o přebytečné bajty

včera 23:33 | programování

Na embedded systémech člověk pořád narazí na problém, že se mu jeho binárka nevejde na flash. První, co vás asi napadne, bude něco jako -Os gcc flag a stripnout výslední binárku, ale existují ještě další triky jak donutit linker zahodit přebytečné symboly. Co se hodí v případě, že máte před sebou binárku, která do sebe linkuje miliony řádek kódu, má statisíce symbolů, umí od routingu přes SNMP, integrovaný web server snad i řešení P?=NP problému?

nm

readelf

objdump

arm-linux-gnueabi

Rychlá okomentrická analýza

ELF formát má výhodu, že funguje +/- stejně nezávisle od toho, jestli je na x86, MIPS nebo ARM architektuře. Prakticky rozdíly existují a můžou se projevit dost nenápadně, k tomu se ještě dostaneme. Některé nástroje jakofungují nezávisle od architektury, jiné jakoje potřeba použít z příslušného toolchainu pro cílový triplet architektury (třeba).Statistika velikosti sekcí:

size -A -d binary section size addr .interp 20 33076 .hash 2992 33096 .dynsym 7728 36088 .dynstr 6788 43816 .gnu.version 966 50604 .gnu.version_r 32 51572 .rel.dyn 1328 51604 .rel.plt 2248 52932 .init 16 55180 .plt 3392 55196 .text 16186316 58588 .fini 16 16244904 .rodata 6959461 16244920 .ARM.extab 46264 23204384 .ARM.exidx 285072 23250648 .eh_frame 4 23535720 .tbss 4 23568492 .init_array 4 23568492 .fini_array 4 23568496 .jcr 4 23568500 .data.rel.ro 2388 23568504 .dynamic 288 23570892 .got 1772 23571180 .data 9250956 23572952 .bss 5225372 32823912 .comment 74 0 .ARM.attributes 45 0 Total 37983554

Zde je vidět, že největší sekce jsou .data (read-write data), .rodata (read-only data), a .text (kód programu). Sekce .bss je sice celkem veliká, ale ta se na disk neukládá - je inicializována po spuštění v RAM na samé nuly.

Seřazení symbolů podle velikosti:

nm --print-size --size-sort --radix=d binary 27403032 00290304 D soc_mem_list 39231600 00295008 B dsv6DbCfgData 36415100 00296808 b mgmdv3Msg.26775 38049132 00498024 B lb2_work 36877696 00514332 B ssi 37477704 00528768 B lb_work 28134264 01720384 D soc_reg_list

soc_reg_list

Druhý sloupec je velikost symbolu, třetí je typ. Zde je důležité dívat se na typ, typ B je z .bss sekce, která se do ELF neukládá a je tvořena samými nulami. Typ D je globálně viditelný datový symbol, který zabírá příslušné místo (modulo alignment). Výčet typů viz manuálu nm (podstatné pro nás jsou d/D, g/G, t/T, r/R, v/V, w/W). Z předchozího výčtu je patrné, že se podle možnosti chceme zbavit např., který zabírá 1.7 MB.

Jak se zbavit zbytečných symbolů

--gc-sections

-Wl,--gc-sections

-fdata-sections

-ffunction-sections

Nejlépe je donutit linker udělat to automagicky. Linker má optionnebopokud mu to předáváme přes gcc/g++, který způsobí, že se zahodí nepoužité sekce ze vstupních knihoven, object fajlů, atd. Má to ale jeden zásadní háček, že pokud je jenom jeden symbol ze sekce object fajlu použit, celá sekce se skopíruje do výslední binárky. Na řešení tohoto problému se hodí dva flagy pro kompilaci,. Ty mají za výsledek, že každý symbol se obalí do separátní sekce a --gc-sections funguje mnohem lépe.

-Xlinker -Map=output.map

Je dobré zkontrolovat, zda se to tak překládá, protože to není podporováno na každé architektuře. S linker optionamisi při linkování necháme vygenerovat mapu symbolů output.map. Správně obalené symboly vypadají pak následovně:

.text.ERR_load_crypto_strings 0x0000000000f8a938 0x6c 0x0000000000f8a938 ERR_load_crypto_strings .text.ERR_print_errors_cb 0x0000000000f8a9a4 0xd0 0x0000000000f8a9a4 ERR_print_errors_cb .text.ERR_load_EVP_strings 0x0000000000f8aa74 0x38 0x0000000000f8aa74 ERR_load_EVP_strings

Automatické generování závislostí mezi symboly

-DMAGIC_MACRO1=whatever

Teď linker udělal asi maximum, dále musíme symboly vyklestit ručně. To lze udělat ručně pomocou analýzy kódu, ale já jsem narazil na spoustu generovaného a těžce o-ifdefovaného kódu o statisících LOC, který byl absolutně nečitelný.Pokud nemáte štěstí na nějaký rozumný projekt, je C notoricky těžký jazyk pro statickou analýzu kvůli makrošílenostem a "breathariánským" build systémům, kde se generují Makefily téměř z čistého vzduchu, z různých koutů multiverza tahají tolik makrodefinicpro gcc, že to nestíhá při překladu vypisovat konzole.

Co s tím? Nejlepší by bylo nějak ohackovat linker, aby vypsal vzájemne závislosti v momentě, kdy to linkuje, ale nepřišel jsem na jednoduchý způsob, jak na to. Shodou okolností jsem našel několik zajímavých featur dynamického linkeru, kdy vypíše, který symbol odkud linkuje, atd. , ale neumí to ty vzájemné závislosti mezi symboly.

Zkoušel jsem různé nástroje, i reverse-engineering frameworky jako radare2 (ten se na analýze zacyklil), nakonec jsem na stack overflow našel tenhle nenápadný ale velmi chytrý one-liner , který využívá disassemblovacích vlastností objdumpu:

#!/bin/bash objdump -d "$1" \ | grep '<' \ | sed -e 's/^[^<]*//' \ | sed 's/<\([^+]*\)[^>]*>/\1/' \ | awk 'BEGIN { FS = ":" } \ NF>1 { w=$1; } \ NF==1 && w != $1 { print w " " $0 }' \ | sort -u

Nejprve jsem si říkal, že to je takový divný awk/sed/grep hack, že to nemůže fungovat. Jaké bylo mé překvapení, když to vygenerovalo závislosti mezi symbolamaKdyž budete mít chvíli, projděte si jak to funguje, je to překvapivě jednoduché a vynalézavé. V té odpovědi se sice píše, že to vygeneruje caller-callee závislosti, ale generuje to i závislosti i funkce na datech (o tom ještě dále).

main

Použít graphviz na graf o stovkách tisíc hran fakt nefunguje (zkoušel jsem), tak jsem si napsal krátký pythoní kód, který mi ten graf prolezl oda spočítal kumulativní velikosti symbolů, kde co na čem závisí.

objdump na x86 správně v disassembleru referencuje datové symboly, na ARM-u ale vůbec, nevím proč (ani ARM gdb to neumí) na ARMu z nějakého důvodu mnoho závislostí mezi symboly chybí, tak se mi graf rozpadnul na spoustu komponent. Nevím zatím proč, zkoušel jsem různé triky jako vypnout inlinování a další magické compile optiony. Na malém příkladu ten problém neumím zreplikovat. Možná za to mohou nějaké záludnosti jako weak symboly, indirekce/trampolíny, whatever. Symboly označené se static linkage jsem podezříval taky, ale ty se mi objevují jako lokální symboly, těmi to nejspíš nebude.

Komentáře

Zde by byl šťastný konec, kdyby se neobjevilo pár zádrhelů:

včera 23:48 Sten

Re: Analýza ELF binárky - jak ji oholit o přebytečné bajty včera 23:48 Sten

dnes 01:37

Re: Analýza ELF binárky - jak ji oholit o přebytečné bajty dnes 01:37 pc2005

