Portál AbcLinuxu, 10. května 2025 16:24

Dotaz: Hromadná oprava názvů souborů a adresářů

22.7.2015 18:31 grandpapa
Hromadná oprava názvů souborů a adresářů
Přečteno: 384×
Odpovědět | Admin
Dobré odpoledne, chtěl bych se prosím uctivě zeptat, zda nevíte o nějakém scriptu v pythonu, který by uměl opravit názvy adresářů a souborů. Jedná se asi cca 4 mil. položek. Správné názvy jsou ve tvaru: 'číslo.text'

Příklad
1.Foo
1025477.Bar
Problém je v tom, že spousta souborů nemá správný tvar, buď to co je před tečkou není číslo, nebo před tečkou není nic, nebo v názvu není vůbec tečka atd. Navíc je potřeba zachovat tu číselnou řadu u správných názvů Čili pokud bude správný název 500.foo a 600.bar, musí mít po opravě foo menší číslo než bar. Soubory ani adresáře nemají vůči sobě žádnou přednost v pořadí, rozhodující jsou čísla. První položka musí začínat číslem 1.

Neví prosím někdo o něčem ? Moc děkuji za pomoc.
Nástroje: Začni sledovat (0) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

22.7.2015 18:41 NN
Rozbalit Rozbalit vše Re: Hromadná oprava názvů souborů a adresářů
Odpovědět | | Sbalit | Link | Blokovat | Admin
Ja to zrekapituluji. Mam nahodne soubory, ktere je potreba ocislovat. Pokud soubor cislo obsahuje je potreba ho zachovat. Nekolik otazek:

Jakou roli hraji adresare?

Co udelat s priponou?

Co udelat se souborem bez pripony?

Program bude poreba pro trnto specificky pripad asi napsat(pokud se nedozvime o co se konkretne jedna..).
22.7.2015 19:11 grandpapa
Rozbalit Rozbalit vše Re: Hromadná oprava názvů souborů a adresářů
Dobrý den,

Pokud soubor cislo obsahuje je potreba ho zachovat.
Pokud položka číslo obsahuje, není potřeba toto číslo zachovat jako takové, ale musí být v konečném přečíslování na dané pozici vůči ostatním položkám, které měli správný formát. Pokud třeba budou existovat dvě položky s číslem 100 a s číslem 101, může ve finále taková položka mít číslo 10 a druhá 11 ale ne obráceně. Pokud bude položek 1 000 a jenom tyto dvě budou mít platný název, bude mít první položka (100) číslo 1 a druhá položka (101) číslo 2. Ostatní položky se špatným formátem budou již číslovány od čísla 3 (bez seřazení).
Jakou roli hraji adresare?
Žádnou, struktura se prohledávat nebude, jedná se pouze o položky v jednom adresáři (tedy jestli se ptáte na tohle).
Co udelat s priponou?
Pokud existuje přípona, nebo název bude třeba 'nejaky.nazev.souboru.ci.slozky' přidat pouze na začátek číslo a tečku.
Co udelat se souborem bez pripony?
Přidat pouze na začátek číslo a tečku.
Shrnutí, 
- NErozlišovat zda se jedná o soubor nebo složku
- název '.neco' // Přidá pouze číslo před tečku
- název 'neco.neco' // Přidá pouze číslo a tečku
- název 'neco' // Přidá pouze číslo a tečku
- název '0000089.neco' // Smazat před tečkou a vložit platné číslo
Pokud jsem napsal něco k nepochopení, hned doplním, Děkuji vám.
22.7.2015 20:27 vrana
Rozbalit Rozbalit vše Re: Hromadná oprava názvů souborů a adresářů
Jestli jsem zadani spravne pochopil, tak tenhle skript udela, co chces. "Nevalidni" polozky v adresari prejmenuje na validni, tak ze je zaradi za posledni (ciselne razeni) platnou.

Upozornuji, ze kod neni otestovany ani optimalizovany a doporucuji jej nastudovat nez ho vyzkousis pustit.

#!/usr/bin/env python

import glob import re import os

skip = set([".",".."]) valid_regexp = re.compile(r'^([1-9][0-9]*)\..+') max_value = -1 to_rename = set()

for f in glob.glob("*") + glob.glob(".*"): if f in skip: continue match = valid_regexp.match(f) if match: value = int(match.group(1)) if(value > max_value): max_value = value continue to_rename.add(f)

reg = re.compile(r'^0[0-9]*(\..+)')

for f in to_rename: max_value = max_value + 1 match = reg.match(f) if match: new_name = str(max_value) + match.group(1) elif f[0] == '.': new_name = str(max_value) + f else: new_name = str(max_value) + "." + f

#print f +" => " + new_name os.rename(f,new_name)

22.7.2015 20:29 vrana
Rozbalit Rozbalit vše Re: Hromadná oprava názvů souborů a adresářů
Jestli jsem zadani spravne pochopil, tak tenhle skript udela, co chces. "Nevalidni" polozky v adresari prejmenuje na validni, tak ze je zaradi za posledni (ciselne razeni) platnou.

Upozornuji, ze kod neni otestovany ani optimalizovany a doporucuji jej nastudovat nez ho vyzkousis pustit.
#!/usr/bin/env python

import glob
import re
import os

skip = set([".",".."])
valid_regexp = re.compile(r'^([1-9][0-9]*)\..+')
max_value = -1
to_rename = set()


for f in glob.glob("*") + glob.glob(".*"):
  if f in skip:
    continue
  match = valid_regexp.match(f)
  if match:
     value = int(match.group(1))
     if(value > max_value):
        max_value = value
     continue
  to_rename.add(f)

reg = re.compile(r'^0[0-9]*(\..+)')

for f in to_rename:
  max_value = max_value + 1
  match = reg.match(f)
  if match:
    new_name = str(max_value) + match.group(1)
  elif f[0] == '.':
    new_name = str(max_value) + f
  else:
    new_name = str(max_value) + "." + f

  #print f +" => " + new_name
  os.rename(f,new_name)

22.7.2015 20:50 NN
Rozbalit Rozbalit vše Re: Hromadná oprava názvů souborů a adresářů
Pokud bude položek 1 000 a jenom tyto dvě budou mít platný název, bude mít první položka (100) číslo 1 a druhá položka (101) číslo 2. Ostatní položky se špatným formátem budou již číslovány od čísla 3 (bez seřazení).
Pokud je toto pravda tak v prvni rade vyhledam vsechy platne soubory a seradim je(napriklad regexpem nad celym seznamem) a precisluji od 1. Zbyle soubory nahodne ocisluji(pseudokodem):
i=1
#najdu spravne a precisluji
for FILE in `find /dir -type f -regex '[0-9]+\..+' | sort`; do
mv FILE $i.${$FILE##*.}
i++
done
#najdu spatne a precisluji
for FILE in `find /dir -type f -regex '^([0-9]+\..+)'`; do
mv FILE $i.${$FILE##*.}
i++
done
V tom druhem kole budou chybet nejake filtry(vice tecek,spatne cislo..) ale to si dopises.. ;) ..
0000089.neco
Je neplatne? Proc?
23.7.2015 13:37 lertimir | skóre: 64 | blog: Par_slov
Rozbalit Rozbalit vše Re: Hromadná oprava názvů souborů a adresářů
Jak vidím v otázce "script v pythonu", tak mě okamžitě napadne "mám domácí úkol, vyřešte mi to". Protože normálně to je otázka jen: Chci tohle vyřešit! ne s podmínkou jakými prostředky. I podmínka nerozlišovat mezi složkami a adresáři je s praktického pohledu nesmysl, ale může být zajímavá na trening myšlení v zadané úloze. Mít adresáře očíslované 1,4,5,7 a vedle toho soubory s čísly 2,3,6,8,9 je v podstatě na hlavu. Navíc pokud do názvů se napíšou jen čísla, tak je třeba brát do uvahy, že výpis adresáře je podle stringu. Je takovéto pořádí to skutečně chcete? viz.
0.txt
1.txt
10.txt
100.txt
101.txt
102.txt
103.txt
104.txt
105.txt
106.txt
107.txt
108.txt
109.txt
11.txt
110.txt
111.txt
112.txt
113.txt
114.txt
115.txt
116.txt
117.txt
118.txt
119.txt
12.txt
120.txt
121.txt
122.txt
123.txt
124.txt
125.txt
126.txt
127.txt
128.txt
129.txt
13.txt

Když bych to řešil pro sebe, bez podmínek, tak Krename tohle udělá za pár minut. Regulárním výrazem omezím čeho se bude přejmenování týkat a pak výsledek přejmenuji. Nejdříve pro objekty s číslem, pak pro ostatní a ty možná na několikrát podle toho jaké operace před tečkou jsou správné. A nezapoměl bych na úvodní nuly v těch názvech. To číslo 0000089.neco je pro mně zcela legální.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.