abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    včera 16:44 | Nová verze

    Svobodný multiplatformní herní engine Bevy napsaný v Rustu byl vydán ve verzi 0.18. Díky 174 přispěvatelům.

    Ladislav Hagara | Komentářů: 2
    včera 15:11 | IT novinky

    Miliardy korun na digitalizaci služeb státu nestačily. Stát do ní v letech 2020 až 2024 vložil víc než 50 miliard korun, ale původní cíl se nepodařilo splnit. Od loňského února měly být služby státu plně digitalizované a občané měli mít právo komunikovat se státem digitálně. Do tohoto data se povedlo plně digitalizovat 18 procent agendových služeb státu. Dnes to uvedl Nejvyšší kontrolní úřad (NKÚ) v souhrnné zprávě o stavu digitalizace v Česku. Zpráva vychází z výsledků víc než 50 kontrol, které NKÚ v posledních pěti letech v tomto oboru uskutečnil.

    Ladislav Hagara | Komentářů: 6
    včera 13:55 | IT novinky

    Nadace Wikimedia, která je provozovatelem internetové encyklopedie Wikipedia, oznámila u příležitosti 25. výročí vzniku encyklopedie nové licenční dohody s firmami vyvíjejícími umělou inteligenci (AI). Mezi partnery encyklopedie tak nově patří Microsoft, Amazon a Meta Platforms, ale také start-up Perplexity a francouzská společnost Mistral AI. Wikimedia má podobnou dohodu od roku 2022 také se společností Google ze skupiny

    … více »
    Ladislav Hagara | Komentářů: 0
    včera 02:22 | Nová verze

    D7VK byl vydán ve verzi 1.2. Jedná se o fork DXVK implementující překlad volání Direct3D 5, 6 a 7 na Vulkan. DXVK zvládá Direct3D 8, 9, 10 a 11.

    Ladislav Hagara | Komentářů: 0
    včera 02:00 | Nová verze

    Byla vydána verze 12.0.0 knihovny libvirt (Wikipedie) zastřešující různé virtualizační technologie a vytvářející jednotné rozhraní pro správu virtuálních strojů. Současně byl ve verzi 12.0.0 vydán související modul pro Python libvirt-python. Přehled novinek v poznámkách k vydání.

    Ladislav Hagara | Komentářů: 0
    15.1. 19:22 | Humor

    CreepyLink.com je nový zkracovač URL adres, 'díky kterému budou vaše odkazy vypadat tak podezřele, jak je to jen možné'. Například odkaz na abclinuxu.cz tento zkracovač převádí do podoby 'https://netflix.web-safe.link/logger_8oIlgs_free_money.php'. Dle prohlášení autora je CreepyLink alternativou ke zkracovači ShadyURL (repozitář na githubu), který dnes již bohužel není v provozu.

    NUKE GAZA! 🎆 | Komentářů: 3
    15.1. 12:33 | IT novinky

    Na blogu Raspberry Pi byla představena rozšiřující deska Raspberry Pi AI HAT+ 2 s akcelerátorem Hailo-10 a 8 GB RAM. Na rozdíl od předchozí Raspberry Pi AI HAT+ podporuje generativní AI. Cena desky je 130 dolarů.

    Ladislav Hagara | Komentářů: 3
    15.1. 12:11 | Komunita

    Wikipedie slaví 25. výročí svého založení. Vznikla 15. ledna 2001 jako doplňkový projekt k dnes již neexistující encyklopedii Nupedia. Doména wikipedia.org byla zaregistrována 12. ledna 2001. Zítra proběhne v Praze Večer svobodné kultury, který pořádá spolek Wikimedia ČR.

    Ladislav Hagara | Komentářů: 1
    15.1. 04:44 | Nová verze

    Po více než dvou letech od vydání předchozí verze 2.12 byla vydána nová stabilní verze 2.14 systémového zavaděče GNU GRUB (GRand Unified Bootloader, Wikipedie). Přehled novinek v souboru NEWS a v aktualizované dokumentaci.

    Ladislav Hagara | Komentářů: 2
    15.1. 02:22 | Nová verze

    Google Chrome 144 byl prohlášen za stabilní. Nejnovější stabilní verze 144.0.7559.59 přináší řadu novinek z hlediska uživatelů i vývojářů. Podrobný přehled v poznámkách k vydání. Opraveno bylo 10 bezpečnostních chyb. Vylepšeny byly také nástroje pro vývojáře (YouTube).

    Ladislav Hagara | Komentářů: 4
    Které desktopové prostředí na Linuxu používáte?
     (14%)
     (5%)
     (0%)
     (9%)
     (19%)
     (3%)
     (6%)
     (3%)
     (11%)
     (42%)
    Celkem 462 hlasů
     Komentářů: 12, poslední 14.1. 21:12
    Rozcestník

    Dotaz: jak nahrát stovky souborů do databáze

    4.9.2018 09:44 urputnik
    jak nahrát stovky souborů do databáze
    Přečteno: 2108×
    Mám mnoho textových souborů, které budu potřebovat často prohledávat na základě zadaného regulárního výrazu. Rozhodl jsem se použít databázi. Slibuji si od toho, že prohledávání bude rychlejší než při použití ripgrepu. Zatím netuším jak efektivně nahrát stovky textových souborů do MySQL databáze z příkazového řádku nebo v shellu. Poradíte?

    Odpovědi

    4.9.2018 09:59 debian+
    Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
    To som nedavno riesil :D ... Mal som 1 priecinok a v nom takmer 2 milion priecinkov s asi 1 suborom v kazdom priecinku.

    Len generovanie SQL dotazu trvalo 24-48 hodin (povodne malo 2-3 tyzdne v cistom).

    Ako na to.

    Musis manualne nahodit data. Zo suborov vytvor jeden dotaz (alebo n dotazov, kde v kazdom dotaze vkladas 10000 insertov - aspon tak u mna to bolo). A tie potom hodis do databazy. Ak sa zmesti cele do ram, ukladaj do /dev/shm a vystup si skopiruj (kukni df pre /dev/shm). Alebo ukladaj na disk, ale generuj docastne do /dev/shm a po 100 napr. vkladani, z /dev/shm to uloz do na disk.

    Tabulku si vytvor v phpmyadmin (instalacnu verziu pouzi zo stranky - v debian testing my bola blba). Vloz 2 insert, aby si videl syntax pre insert viac-vkladanim naraz.

    A logiku si naprogramuj v php (ma funkciu mysqli_real_escape_string() na spravne konvertovanie na vkladanie). Php je ma aj prebrate syntax z bash.

    Ak zaplatis, do 0.5 - 1 hodiny to mas. Ak mozes poslat tie data, dak Ti mozem rovno vytvorit jeden sql prikaz, ktory Ti rovno nahodi databazu. A poslat aj s programom, ktory pri tom vytvorim (ak do buducna ak by si potrebol si pridat).
    4.9.2018 10:07 debian+
    Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
    Ak sa zmestia do RAM, pouzi ramFS. /dev/shm je nim.
    6.9.2018 15:20 lazywriter
    Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
    Jelikož se zmiňuje SQL, tak se nejspíš předpokládá _relační_ databáze. A ta má takový název proto, že dobře řeší vztahy (cizím slovem relace) mezi záznamy. Takže není dobrý nápad ji znasilňovat na něco jiného. Když už nestačí doporučené hledání na disku, tak by mohly připadat do úvahy nějaké databáze, ale rozhodně ne relační. Napadá mě třeba nějaká dokumentová nosql databáze, např. Elasticsearch apod.
    6.9.2018 15:21 lazywriter
    Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
    pardon, ukliknutí. Odpověď měla jít přímo na původní otázku.
    6.9.2018 17:28 Kit | skóre: 46 | Brno
    Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
    Relace je ten jeden záznam (n-tice) v tabulce.
    Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.
    7.9.2018 10:09 lazywriter
    Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
    Použít třeba Google přece není tak složité. Druhý odkaz na dotaz "relace databáze": https://office.lasakovi.com/access/tabulky/relace-vazby-v-databazich-teorie/

    Záznam se v relační teorii jmenuje entita. Proto se také schématu databáze někdy říká ER diagram od slov entita-relace (česky: záznam a jeho vztah k ostatním).
    4.9.2018 10:00 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
    A nebylo by lepší místo takové opičárny vyzkoušet sift?
    4.9.2018 10:04 debian+
    Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
    Ako to testovali/merali, lebo HDD a ani SD disk neda 30GB za 0.5s.

    Vid "Web log files search"
    4.9.2018 10:10 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
    Nevím jak to testovali oni, ale pokud bych chtěl obejít IO omezení HDD, tak bych ty data hodil do ramdisku.

    Jinak tazatel chce prohledávat stovky textových souborů. To je úplná sranda proti prohledávání milionů malých souborů. Neuvedl taky co s tím pak chce dělat. Já si většinou takový soubor chci přečíst, proto je pro mne optimální klasická kombinace grep + less. A pokud bych chtěl něco svižnějšího, tak bych nejspíš vyzkoušel ten sift. Pořád mi to přijde lepší než se drbat s nějakou databází. Bez rozumné indexace to stejně nedává smysl.
    4.9.2018 10:55 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
    Tak jsem to jen tak z legrace zkusil na svůj home. Obsahuje aktuálně 1044971 souborů (208GB). Co se mi líbilo, tj. že sift zvýrazňoval barevně cestu k souboru a nalezený vzorek. Sift také na rozdíl od grepu jel vícevláknově.

    Co jsem neošetřil, to bylo nastavení parametru aby nepřeskakoval příliš dlouhé řádky, takže 3130 souborů sift právě kvůli tomu přeskočil.
    sift
    real    17m12,227s
    user    2m28,896s
    sys     4m6,882s
    
    grep
    real    23m28,636s
    user    3m38,805s
    sys     3m57,037s
    
    4.9.2018 12:27 urputnik
    Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
    Tedy by mě zajímalo porovnání s prohledáváním v DB, ale to asi vyzkoušet nemůžete.
    4.9.2018 13:09 dustin | skóre: 63 | blog: dustin
    Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
    Nahrání do DB a indexace pro nějaký fulltext (který nezafunguje na regexp) je dost náročná operace. Samozřejmě pokud budeš hledat častěji (a bude možné použít nějaký index), přínos to mít může. Jinak bude varianta s mezikrokem do DB logicky delší, když dělá to samé a ještě mnoho navíc.
    4.9.2018 16:03 lertimir | skóre: 64 | blog: Par_slov
    Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
    Ano, souhlas. Podstatné je, že fultext index je sice mnohonásobně rychlejší, ale v podstatě je uvnitř jenom něco jako ekvivalent substringu. rozhodně to není regexp.
    4.9.2018 10:20 Kit | skóre: 46 | Brno
    Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
    Pokud ta data v souborech nejsou strukturována, tak ti konverze do databáze moc fungovat nebude a ztratíš pohodlí přímé editace. Jak dlouho tomu ripgrepu trvá, než nalezne výskyty vzorku?
    Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.
    4.9.2018 11:04 urputnik
    Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
    Strukturovana jsou, ale to bych v te db uz nejak vyresil. Treba tak, ze bych si cestu do adresare (strukturu) ukladal do tabulky vedle toho textu.

    Rychle to s tim ripgrepem je zatim dost, ale mam tech souboru jenom asi stovku. Brzy jich budou tisice.
    4.9.2018 11:10 debian+
    Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
    Strukturovana jsou, ale to bych v te db uz nejak vyresil. Treba tak, ze bych si cestu do adresare (strukturu) ukladal do tabulky vedle toho textu.
    To v ziadnom pripade!!!! ... Zvlast tabulka na nazvy a zvlast na data. A prepajas indexami.
    4.9.2018 11:22 Kit | skóre: 46 | Brno
    Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
    Je u všech souborů zachována stejná struktura sloupců nebo to má každý soubor jinak? Máš ty soubory v CSV nebo v jiném podobném formátu?
    Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.
    4.9.2018 12:23 urputnik
    Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
    Je to jen text, žádný formát to nemá.
    4.9.2018 12:51 Kit | skóre: 46 | Brno
    Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
    V tom případě nedává moc smysl takové nestrukturované údaje ukládat do databáze. Jak velké jsou ty soubory a co od toho databázového řešení očekáváš?
    Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.
    4.9.2018 13:32 Käyttäjä 11133 | skóre: 58 | blog: Ajattelee menneisyyttä
    Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
    On ElasticSearch je taky databáze, víme? :-)
    4.9.2018 13:46 urputnik
    Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
    V podstatě jde o to, jestli webový backend bude pracovat se strukturou souborů nebo s databází, ze které by se posléze vybraný text kopíroval do souboru, se kterým by se pracovalo -- překlad textového formátu do PDF a jiných formátů. Dneska už je běžné mít všechno v DB, je to rychlé a pohodlné a dobře rozšiřitelné. Na základě toho mě právě napadlo hrnout už to všechno přes DB, protože ta tam bude stejně, zejména pokud by to vyhledávání v DB mělo být rychlejší.
    4.9.2018 14:23 dustin | skóre: 63 | blog: dustin
    Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
    Nepřijde mi, že je dnes běžné mít všechno v DB. Je to vždy o konkrétních potřebách.

    Pokud potřebuješ fulltext (ne regexpy, které zmiňuješ), pak to nahraj do elasticsearche, jak tady již bylo řečeno. Nevím o DB indexu, který by uměl urychlit obecný regexp.

    Mysql žádný pořádný fulltext nemá, navíc s podporou různých jazyků.

    Nebo použij Postgresql https://postgres.cz/wiki/Instalace_PostgreSQL#Instalace_Fulltextu
    Josef Kufner avatar 7.9.2018 11:11 Josef Kufner | skóre: 70
    Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
    To, co chceš, je hlavně index. Pro obecné regexpy se indexovat nedá, ale pokud máš předem dané dotazy a přepíšeš je do jednoduchého hledání klíčových slov, tak už to půjde fulltextem.

    Na fulltext můžeš zkusit třeba Sphinx Search nebo již zmiňovaný Elastic Search. Fulltext v MySQL je dosti omezený.

    Import do databáze uděláš tak, že si napíšeš skript, který přečte soubor, sestaví SQL dotaz a pošle to do databáze. Je to na pár řádků. Doporučuju sáhnout po rozumném skriptovacím jazyce, např. Python nebo PHP. V shellu se z toho zblázníš.
    Hello world ! Segmentation fault (core dumped)

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.