Byl vydán Debian 13 s kódovým názvem Trixie. Přehled novinek v poznámkách k vydání.
WLED je open-source firmware pro ESP8266/ESP32, který umožňuje Wi-Fi ovládání adresovatelných LED pásků se stovkami efektů, synchronizací, audioreaktivním módem a Home-Assistant integrací. Je založen na Arduino frameworku.
Open source platforma Home Assistant (Demo, GitHub, Wikipedie) pro monitorování a řízení inteligentní domácnosti byla vydána v nové verzi 2025.8.
Herní studio Hangar 13 vydalo novou Mafii. Mafia: Domovina je zasazena do krutého sicilského podsvětí na začátku 20. století. Na ProtonDB je zatím bez záznamu.
Operátor O2 má opět problémy. Jako omluvu za pondělní zhoršenou dostupnost služeb dal všem zákazníkům poukaz v hodnotě 300 Kč na nákup telefonu nebo příslušenství.
Společnost OpenAI představila GPT-5 (YouTube).
Byla vydána (𝕏) červencová aktualizace aneb nová verze 1.103 editoru zdrojových kódů Visual Studio Code (Wikipedie). Přehled novinek i s náhledy a videi v poznámkách k vydání. Ve verzi 1.103 vyjde také VSCodium, tj. komunitní sestavení Visual Studia Code bez telemetrie a licenčních podmínek Microsoftu.
Americký prezident Donald Trump vyzval nového generálního ředitele firmy na výrobu čipů Intel, aby odstoupil. Prezident to zdůvodnil vazbami nového šéfa Lip-Bu Tana na čínské firmy.
Bylo vydáno Ubuntu 24.04.3 LTS, tj. třetí opravné vydání Ubuntu 24.04 LTS s kódovým názvem Noble Numbat. Přehled novinek a oprav na Discourse.
Byla vydána verze 1.89.0 programovacího jazyka Rust (Wikipedie). Podrobnosti v poznámkách k vydání. Vyzkoušet Rust lze například na stránce Rust by Example.
cp --reflink=always
) a data duplicit smaže,
- a tím se uvolní místo na HDD.
Použil jsem příkaz:
sudo duperemove -dr /mnt/btr_archive --hashfile=/mnt/btr_archive/Duperemove/duperemove_archive.hashfile
Už to jede asi 10 dnů a zatím se žádné místo neuvolnilo. Hashfile už zabírá 11 GB. Ze začátku HDD byl slyšet permanentně jak načítá data, teď už jen občas. V termínálu to vypisuje něco jako:
0x55b96b1268e0] Dedupe for file "/mnt/btr_archive/Duperemove/duperemove_archive.hashfile" had status (1) "data changed". [0x55b96b1269a0] (5/5) Try to dedupe extents with id a78ec70c [0x55b96b1269a0] Dedupe 49 extents (id: a78ec70c) with target: (131072, 131072), <jméno souboru>a pak to stojí třeba hodinu, HDD nic nedělá, ale proces duperemove vytěžuje CPU na 25%. Mám to nechat běžet dál a čekat, že za pár dnů to skončí a uvolní místo na HDD nebo to mám stopnout a zkusit jinak?
Řešení dotazu:
a pak to stojí třeba hodinu, HDD nic nedělá, ale proces duperemove vytěžuje CPU na 25%.Řekl bych, že máš jedno jádro ze čtyř vytíženo na 100%. Doporučil bych raději bees, verzi 0.11.
Je. A má být?
Je bambilion způsobů jak vytvořit subvolume. A deduplikace nemusí fungovat vždy podle tvých představ.
Já to řešil tak, že jsem měl lokální Btrfs ale ty snapshoty jsem rsyncoval na sdílený disk - pak to vyrábělo jen rozdíly.
Je bambilion způsobů jak vytvořit subvolume.
Já tedy vím o ± dvou a půl (subvolume create
/ subvolume snapshot
/ receive
). Zbytek z toho bambilionu mi asi nějak unikl. (Stárnu, příliš chlastám, atd.)
Já to řešil tak, že jsem měl lokální Btrfs ale ty snapshoty jsem rsyncoval na sdílený disk - pak to vyrábělo jen rozdíly.
Huh? Odkdy rsync
vyrábí jen rozdíly? Má sice volbu --inplace
, která je velmi žádoucí, ale v žádném případě nemůže nahradit „hlubší povědomí“ :-P o snapshotech.
--inplace
pomáhá, ale vůbec neřeší efektivní přejmenování / přesun souborů / adresářů. V takových případech rsync
brutálně duplikuje. Rozdílové snapshoty na Btrfs se duplikaci vyhnou.cp --reflink
: rsync
umí zachovat pouze hardlinky na úrovni celých souborů, zatímco o cp --reflink
na úrovni bloků nemá ponětí → hurá, zase všechno zduplikovat!Zachování (pouze) rozdílů při synchronizaci mezi zdrojovým Btrfs se snapshoty a cílovým Btrfs s kopiemi příslušných snapshotů lze docílit například (a možná jedině) pomocí btrfs send -p ... | btrfs receive ...
(Hlavně nezapomenout na -p
…)
Neřeším.
Ne že by včely nebyly super, ale nemám pro ně momentálně nasazení, protože moje data nemají příliš mnoho duplicit.
Spíš se snažím existující ne-duplicity (snapshoty, cp --reflink
atd.) zachovat a nezduplikovat omylem. To mi prozatím vždy stačilo (== nezabralo povážlivě moc místa).
Mám jednoduchý zálohovací skript, který (0) sejme snapshot na zdroji, (1) přenese snapshot na cíl (efektivně, pouze rozdíly) a (2) „exponenciálně“ naředí minulé snasphoty, aby byly směrem do minulosti postupně stále řidší. (Je-li zdroj malý a cíl velký, pro úsporu místa stačí držet na zdroji jenom jeden minulý snapshot a víc snapshotů si zachovávat jen na cíli. Aby efektivní diffy fungovaly (na obou stranách), stačí jen ten jeden snapshot.)
rsyncoval na sdílený disk - pak to vyrábělo jen rozdíly.Ty máš zřejmě na mysli rozdíly přírůstkových snapshotů. Já ale potřebuji zdeduplikovat různé větve snapshotů ve kterých jsou shodné soubory. V tom mi rsync ani send/receive nepomůže. Navíc bych považoval za krok zpátky používat rsync místo send/receive.
To byla ještě jiná doba, kdy byla maximální kapacita fyzického disku 1TB. Snapshotovaly se domovské adresáře v rámci nodu, kde ten virtuál běžel. A ten rsync jsem použil, když jsem to pak potřeboval sesypat na jeden disk, jako extra zálohu. Dnes už to nepoužívám, protože jsou uživatelské adresáře sdílené z Netappu.
Snap JE JEN ROZDIL. Vzdy. Tudiz ho jaksi deduplikovat nelzeTo vím
zadna souborova deduplikace na brtfs NEEXISTUJEProč to mají v dokumentaci rozdělené na souborovou a blokovou deduplikaci?
tu databazi ukladas na stejnej disk, kterej se snazis deduplikovat. Coz zcela zjevne delasTo možná nebylo nejmoudřejší, ale to asi nebyla příčina toho, že duperemove ve druhé fázi na disk vůbec nešahal. Používal převážně CPU (jedno jádro), něco počítal.
A vrchol debility je, poustet ten dedup pres snapy, coz zcela zjevne delas taky.Stejné soubory v RŮZNÝCH větvích snapshotů jsem vysvětlil v 1. bodu. Nebo něčemu vadí, že snapshoty jsou read-only?
Takze to ze ti to pobezi mesicE, je zcela vporadku, muzes si za to sam.Už 5 dnů běží bees a pořád šahá na HDD. Ale deduplikuje jen přes den. Kdyby jel měsíce tak bych byl zklamaný.
Protoze ten disk se ti celej bude cist tolikrat, kolik snapu tam mas. On totiz neprekvapive duperemove nevi, ze cte dokola totez.Pokud je to pravda tak je duperemove pěkně na prd. Předpokládám, že u bees takový problém není když je dělaný pro BTRFS.
/mount/btrfs /mount/btrfs/base/pc1 /mount/btrfs/base/pc2 /mount/btrfs/base/pc3 ... Tohle deduplikovat muzes mount/btrfs/snaps/pc1 mount/btrfs/snaps/pc2 mount/btrfs/snaps/pc3 ... Tohle deduplikovat je hovadinaPekne naprd to neni, krumpac taky predpokalda ze krumpacista vi jak se snim dela.
mount/btrfs/DIR-PC1/snaps_date_time mount/btrfs/DIR-PC2/snaps_date_time mount/btrfs/DIR-PC3/snaps_date_time ...Soubory v snaps_date_time v různých DIR-PCx o sobě neví. Jsou na sobě nezávislé. Deduplikace by měla ušetřit místo. Pokud myslíš, že ne, napiš důvod. PS: bees stále běží. Když jsem ho asi před 2 dny přerušil tak jsem si všiml, že zatím žádné volné místo nepřibylo. Stal se opak, volného místa ubylo asi 150 GB. Možná je to nějaký odpad, který na disku vznikl při deduplikaci a BTRFS ho ještě nezahodil.
Soubory v snaps_date_time v různých DIR-PCx o sobě neví. Jsou na sobě nezávislé. Deduplikace by měla ušetřit místo.Ano, přesně tak to funguje a bees od v0.11 v těchto případech ani neprocházejí data opakovaně (jako duperemove).
PS: bees stále běží. Když jsem ho asi před 2 dny přerušil tak jsem si všiml, že zatím žádné volné místo nepřibylo. Stal se opak, volného místa ubylo asi 150 GB. Možná je to nějaký odpad, který na disku vznikl při deduplikaci a BTRFS ho ještě nezahodil.Ono bývá vhodné si přečíst dokumentaci výrobce, to je ty chytrosti co jsou na stránce dole (včetně odkazů). Tam se mimo jiné píše, že při spuštění bees na disku, kde ještě neběžely, to ze začátku nějaké místo zabere a až pak se projení uvolňování a je tam i vysvětleno proč.
Ano, přesně tak to funguje a bees od v0.11 v těchto případech ani neprocházejí data opakovaně (jako duperemove).Nainstaloval jsem bees v0.10, který jsem měl v repozitáři. Bees jede už možná stejně dlouho jako před tím duperemove, ale zatímco duperemove pak už téměř nešahal na HDD tak bees šahá permanentně. Volné místo se zatím neuvolnilo. Dám tomu ještě pár dnů, pak to zastavím a počkám na v0.11. Vadí mi, že není možnost nastavit, aby deduplikoval jen bloky u větších souborů (>5 MB). Tím by se to mohlo hodně urychlit a zároveň to uvolní nejvíce volného místa.
Volné místo se zatím neuvolnilo. Dám tomu ještě pár dnů, pak to zastavím a počkám na v0.11. Vadí mi, že není možnost nastavit, aby deduplikoval jen bloky u větších souborů (>5 MB). Tím by se to mohlo hodně urychlit a zároveň to uvolní nejvíce volného místa.No práve bees má od verze v0.11 zásadně přepracovaný přístup ke skenování. Zatímco do v0.10 včetně skenovaly podobně jako duperemove po souborech (a prováděly opakované čtení), od verze v0.11 skenují přímo po extentech a při deduplikaci upřednostňují velké extenty. Dnes jsem spustil deduplikaci na 12 TB disku plném snapshotů různých OS (čekal jsem až bude v0.11 vydaná jeko stabilní) a slibuje mi:
PROGRESS: extsz datasz point gen_min gen_max this cycle start tm_left next cycle ETA ----- -------- ------ ------- ------- ---------------- ------- ---------------- max 6.298T 050663 0 535350 2025-07-21 11:25 3d 9h 2025-07-25 01:42 32M 2.338T 024682 0 535350 2025-07-21 11:25 1w 4h 2025-07-28 20:31 8M 728.658G 007716 0 535350 2025-07-21 11:25 3w 2d 2025-08-14 01:55 2M 232.671G 002777 0 535350 2025-07-21 11:25 9w 2d 2025-09-25 01:14 512K 87.983G 001503 0 535350 2025-07-21 11:25 17w 1d 2025-11-19 13:03 128K 58.983G 000004 0 535350 2025-07-21 11:25 - - total 9.719T gen_now 535804 updated 2025-07-21 15:47že cca do týdne budou velké rozsahy deduplikovány. A že pak ty malá pojedou ještě půl roku mi už nevadí.
Předchozí deduplikaci na 2 TB disku jsem dělal v0.11_rc3 s vynikajícími výsledky.
Doporučuji pokus s v0.10 skončit a začít znovu s v0.11.U kterých technologií to trvá kratěji? Nebuďte slušny, řekněte jméno.Napr. u ZFS a iných riešení. A to vrátane hotových komerčných diskových polí ktoré si to riešia v rámci vlastnej réžie, a plne transparentne.
Tím myslíš, že při každém zápisu souboru se obsah porovná se zbytkem souborů na disku a ihned se deduplikuje?Nie. Pri každom zápise sa vytvorí kontrolný súčet bloku, ktorý sa porovná s už existujúcou a zindexovanou tabuľkou. A ak nie je unikátny, tak sa namiesto zápisu len zreferencuje.
S BTRFS zatím spokojenost, nehodlám měnit.Závisí na prioritách ktoré sú určené potrebnou funkcionalitou. PS: Dúfam že máš ECC RAM.
Pri každom zápise sa vytvorí kontrolný súčet bloku, ktorý sa porovná s už existujúcou a zindexovanou tabuľkou.Jo, tak jsem to myslel. Při každém zápisu na disk se musí zároveň porovnávat s hash tabulkou celého disku (poolu). Deduplikace bude podobně náročná všude, z dokumentace ZFS: The deduplication process is very demanding! There are four main costs to using deduplication: large amounts of RAM, requiring fast SSDs, CPU resources, and a general performance reduction. The trade-off with deduplication is reduced server RAM/CPU/SSD performance and loss of top-end I/O speeds in exchange for saving storage size and pool expenditures. Deduplikace jako vestavěná součást ZFS mě nepřesvědčí, abych přešel z BTRFS na ZFS.
Jo, tak jsem to myslel. Při každém zápisu na disk se musí zároveň porovnávat s hash tabulkou celého disku (poolu).Tá tabuľka kontrolných súčtov je v RAM, takže bu ma zaujímalo aký dosah na výkon to môže mať. Teda ak si človek nepostaví NAS na nejakom Atome. Pri deduplikácii je viac ako odporúčané používať stroj v záruke, a s ECC RAM. Také majú výkonu viac ako dosť. Teda ak tam človek nenapchá niekoľko kusov 40G sieťoviek ktoré vyťaží.
DIR-PC1/date_time
jsou hard linky na ty hashe. Má modifikované rsync a pokud klient na PC narazí na soubor, který má zálohovat, spočte hash, a pokud je na serveru soubor s tímto hashem, tak se ani nepřenáší a jen server vytvoří hard link. Duplikace je okamžitá, přirozená a už při vzniku souboru. Navíc je možné zvolit i kompresi zálohy, což sice už má menší význam, protože mnoho formátů má lepší kompresi než obecné LZW, ale je to tam. Tak zauvažuj jestli to má smysl.
Ten výpis časů jsi získal pomocí parametru "--scan-mode"? Jak dlouho scanování trvá?Ten výpis je z konce status souboru (
cat /run/bees/ca1ccace-4aef-4cf7-8d66-f438b53f5d6b.status
, spuštěno přes beesd). Teď to vypadá takto:
PROGRESS: extsz datasz point gen_min gen_max this cycle start tm_left next cycle ETA ----- -------- ------ ------- ------- ---------------- ------- ---------------- max 7.987T 236516 0 535350 2025-07-21 11:25 2d 20h 2025-07-25 04:41 32M 1.029T 132784 0 535350 2025-07-21 11:25 5d 17h 2025-07-28 02:24 8M 424.109G 054617 0 535350 2025-07-21 11:25 2w 1d 2025-08-06 13:57 2M 152.04G 020778 0 535350 2025-07-21 11:25 5w 6d 2025-09-01 19:28 512K 77.386G 006418 0 535350 2025-07-21 11:25 19w 3d 2025-12-05 11:26 128K 51.152G 000038 0 535350 2025-07-21 11:25 - - total 9.705T gen_now 537574 updated 2025-07-22 08:32Ty časy jsou průběžné odhady a dost se mění, hlavně u těch malých extentů co mají nízkou prioritu.
Chápu správně, že do týdne budeš mít deduplikované rozsahy >=32MB, ale deduplikace pojede dál, pokud ji nezastavíš, a rozsahy >=512 KB budou hotové až za 17 týdnů? To jsem nevěděl, že to trvá tak dlouho.Jo, deduplikace už pojede pořád, a až na ten disk něco připíšu (je tam systém i veškerá data) tak se to zdeduplikuje hned. Momentálně je to cca 10 TB obsazenosti disku,
du
by našlo odhadem několik set TB snad možná i dokonce celý PB. Za těch cca 21 hodin to uvolnilo cca 6 TB.
Za těch cca 21 hodin to uvolnilo cca 6 TB.Sorry, oprava:
Za těch cca 21 hodin to uvolnilo cca 0,6 TB.
a až na ten disk něco připíšu (je tam systém i veškerá data) tak se to zdeduplikuje hnedJak se dívám do dokumentace bees tak tam píší, že problém je když se nejdříve vytvoří snapshoty a pak se na ně spustí bees (můj případ). To zřejmě vyřešili ve verzi 0.11. Když se nejdříve spustí bees a pak se přidávají snapshoty tak problém by být neměl a deduplikace nových snapshotů probíhá rychle. Jak jsem psal, že kvůli deduplikaci ubylo cca 150GB volného místa (možná to bylo méně), z dokumentace jsem pochopil, že jsou to nová medatada co bees vytvořil kvůli procházení jednotlivých snapshotů, tak teď přemýšlím jestli nenakopírovat všechna data na disk znovu a nezačít s deduplikací s v0.11 od začátku, abych se těch zbytečných metadat zbavil.
Snap JE JEN ROZDIL. Vzdy. Tudiz ho jaksi deduplikovat nelze, protoze neni co. To ze tam vidis stejny obrovsky soubory je jaksi vlastnost. Na disku to jsou identicky bloky.Snap deduplikovat ide. Pretoze ten "rozdiel" môže byť rôzny. Napr. ak si si spustíš napr. defragmentáciu, tak ti rozdiel medzi aktuálnymi dátami a snapshotom bude rásť bez toho aby sa zmenil jediný bit v tvojich dátach. A v najhoršom prípade budeš mať dáta veľkosti xyGB a snapshot tiež xyGB. Deduplikácou sa môžes priblížiť znova k ideálnemu stavu, kedy je rozdiel medzi dátami a snapshotom minimálny možný. K pôvodnej otázke ešte taký postreh. Je lepšie si pustiť deduplikáciu nie na celý disk ale po menších kúskoch. Ak máš na disku napr. video, faktury, fotky, mp3 tak pusti dedup na /mnt/disk/video + /mnt/disk/snapshot/video, potom na "/mnt/disk/mp3 + /mnt/disk/snapshot/mp3" a tak ďalej. Jednoducho, keď je možné predpokladať, že takmer žiadane duplicity medziadresárovo neexistujú. Je s tým viacej roboty, ale proces skončí rýchlejšie. Postup po menších kúskoch je dobrý aj na testovanie, keď nečakáš týždeň na výsledok aby si zistil, že si použil nesprávny switch alebo čo a žiadne miesto si neušetril.
Warning Defragmentation does not preserve extent sharing, e.g. files created by cp --reflink or existing on multiple snapshots. Due to that the data space consumption may increase.A mimochodom sú aj iné operácie pri ktorých sa rozbije extent sharing. Koniec koncov keby deduplkácia nemala zmysel, tak by nikto nepísal nástroj na deduplikáciu, že?
Btrfs totiz fragmentuje data z definice svy existence s kazdym jednim zapisem.No a čo?
Tiskni
Sdílej: