abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
včera 23:15 | IT novinky
Firma Raptor Computing Systems, která stojí také za pracovní stanicí Talos II, představila levnější desku Blackbird s podporou jednoho 4-/8jádrového CPU POWER9 Sforza a formátem microATX; bližší specifikace jsou ve wiki výrobce.
Fluttershy, yay! | Komentářů: 0
včera 22:11 | Zajímavý projekt

Byla vydána verze 1.0 svobodné federalizované platformy pro sledování a sdílení videí, alternativy YouTube s podporou P2P, PeerTube (Wikipedie). Za vývojem PeerTube stojí nezisková organizace Framasoft snažící se mimo jiné nahradit svými svobodnými Frama službami služby společnosti Google (De-google-ify Internet).

Ladislav Hagara | Komentářů: 0
včera 19:44 | Zajímavý projekt

Společnost System76 prodávající počítače s Pop!_OS nebo Ubuntu plánuje prodej vlastního open source počítače s názvem Thelio. Informací je poskrovnu. Na Twitteru byla představena open source rozšířující deska (daughterboard), která by měla převzít funkce proprietárního softwaru na základní desce (motherboard).

Ladislav Hagara | Komentářů: 2
včera 00:22 | Nová verze

Google Chrome 70 byl prohlášen za stabilní (YouTube). Nejnovější stabilní verze 70.0.3538.67 tohoto webového prohlížeče přináší řadu oprav a vylepšení. Vylepšeny byly také nástroje pro vývojáře (YouTube). Opraveno bylo 23 bezpečnostních chyb.

Ladislav Hagara | Komentářů: 6
16.10. 22:44 | Komunita

Open source nástroj pro monitorování zabezpečení počítačových sítí Bro (Bro Network Security Monitor, Wikipedie) byl přejmenován na Zeek (Zeek Network Security Monitor). Nový název bez negativní konotace by měl být pro uživatele atraktivnější.

Ladislav Hagara | Komentářů: 13
16.10. 22:00 | Nová verze

Po dvou letech od vydání verze 0.4 byla vydána nová major verze 5 linuxové distribuce elementary OS (Wikipedie) vycházející z Ubuntu. Kódové jméno této nejnovější verze je Juno. Přehled novinek i s náhledy v příspěvku na Medium.

Ladislav Hagara | Komentářů: 0
16.10. 18:33 | Komunita

Svobodná decentralizovaná mikroblogovací platforma a sociální síť podobná Twitteru Mastodon (Wikipedie) slaví 2 roky. Krátkou historii a milníky shrnuje příspěvek na blogu.

Ladislav Hagara | Komentářů: 0
16.10. 11:11 | Zajímavý článek

Společnosti Microsoft, Google, Apple i Mozilla včera shodně oznámily, že z jejich webových prohlížečů Internet Explorer, Edge, Chrome, Safari a Firefox počátkem roku 2020 odstraní protokoly TLS 1.0 a TLS 1.1. Michal Špaček v článku Vypněte TLS 1.0 a 1.1 už dnes na svých stránkách informuje, že TLS 1.0 a 1.1 lze vypnout již dnes. Ověřit to lze například pomocí SSL Labs Server Testu.

Ladislav Hagara | Komentářů: 13
16.10. 05:55 | Humor

Banksy před několika dny šokoval umělecký svět svým obrazem, jenž se přímo v aukční síni po svém prodeji za více než 30 milionů korun sám částečně skartoval. Z obrazu Dívka s balónem vznikl obraz Láska v koši. Command Line Magic ukazuje, jak na podobného Banksyho z příkazového řádku.

Ladislav Hagara | Komentářů: 3
15.10. 16:55 | Komunita

Handshake, decentralizovaná certifikační autorita a peer-to-peer DNS aneb DNS v blockchainu, postupně rozděluje mezi svobodné a open source projekty celkově 10,2 milionu dolarů. V srpnu získalo 300 000 dolarů GNOME a 100 000 dolarů GIMP. Dnes oznámila nezisková organizace KDE e.V. zastupující komunitu kolem KDE v právních a finančních záležitostech, že od Handshake získala 300 000 dolarů, z čehož 100 000 dolarů je alokováno pro multiplatformní balík svobodných kancelářských a grafických aplikací Calligra.

Ladislav Hagara | Komentářů: 69
Přispíváte osobně k vývoji svobodného softwaru?
 (41%)
 (42%)
 (23%)
 (23%)
 (11%)
 (36%)
Celkem 231 hlasů
 Komentářů: 12, poslední včera 21:18
Rozcestník

Dotaz: jak nahrát stovky souborů do databáze

4.9. 09:44 urputnik
jak nahrát stovky souborů do databáze
Přečteno: 961×
Mám mnoho textových souborů, které budu potřebovat často prohledávat na základě zadaného regulárního výrazu. Rozhodl jsem se použít databázi. Slibuji si od toho, že prohledávání bude rychlejší než při použití ripgrepu. Zatím netuším jak efektivně nahrát stovky textových souborů do MySQL databáze z příkazového řádku nebo v shellu. Poradíte?

Odpovědi

4.9. 09:59 debian+
Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
To som nedavno riesil :D ... Mal som 1 priecinok a v nom takmer 2 milion priecinkov s asi 1 suborom v kazdom priecinku.

Len generovanie SQL dotazu trvalo 24-48 hodin (povodne malo 2-3 tyzdne v cistom).

Ako na to.

Musis manualne nahodit data. Zo suborov vytvor jeden dotaz (alebo n dotazov, kde v kazdom dotaze vkladas 10000 insertov - aspon tak u mna to bolo). A tie potom hodis do databazy. Ak sa zmesti cele do ram, ukladaj do /dev/shm a vystup si skopiruj (kukni df pre /dev/shm). Alebo ukladaj na disk, ale generuj docastne do /dev/shm a po 100 napr. vkladani, z /dev/shm to uloz do na disk.

Tabulku si vytvor v phpmyadmin (instalacnu verziu pouzi zo stranky - v debian testing my bola blba). Vloz 2 insert, aby si videl syntax pre insert viac-vkladanim naraz.

A logiku si naprogramuj v php (ma funkciu mysqli_real_escape_string() na spravne konvertovanie na vkladanie). Php je ma aj prebrate syntax z bash.

Ak zaplatis, do 0.5 - 1 hodiny to mas. Ak mozes poslat tie data, dak Ti mozem rovno vytvorit jeden sql prikaz, ktory Ti rovno nahodi databazu. A poslat aj s programom, ktory pri tom vytvorim (ak do buducna ak by si potrebol si pridat).
4.9. 10:07 debian+
Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
Ak sa zmestia do RAM, pouzi ramFS. /dev/shm je nim.
6.9. 15:20 lazywriter
Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
Jelikož se zmiňuje SQL, tak se nejspíš předpokládá _relační_ databáze. A ta má takový název proto, že dobře řeší vztahy (cizím slovem relace) mezi záznamy. Takže není dobrý nápad ji znasilňovat na něco jiného. Když už nestačí doporučené hledání na disku, tak by mohly připadat do úvahy nějaké databáze, ale rozhodně ne relační. Napadá mě třeba nějaká dokumentová nosql databáze, např. Elasticsearch apod.
6.9. 15:21 lazywriter
Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
pardon, ukliknutí. Odpověď měla jít přímo na původní otázku.
6.9. 17:28 Kit | skóre: 42 | Brno
Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
Relace je ten jeden záznam (n-tice) v tabulce.
Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.
7.9. 10:09 lazywriter
Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
Použít třeba Google přece není tak složité. Druhý odkaz na dotaz "relace databáze": https://office.lasakovi.com/access/tabulky/relace-vazby-v-databazich-teorie/

Záznam se v relační teorii jmenuje entita. Proto se také schématu databáze někdy říká ER diagram od slov entita-relace (česky: záznam a jeho vztah k ostatním).
4.9. 10:00 Aleš Kapica | skóre: 47 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
A nebylo by lepší místo takové opičárny vyzkoušet sift?
4.9. 10:04 debian+
Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
Ako to testovali/merali, lebo HDD a ani SD disk neda 30GB za 0.5s.

Vid "Web log files search"
4.9. 10:10 Aleš Kapica | skóre: 47 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
Nevím jak to testovali oni, ale pokud bych chtěl obejít IO omezení HDD, tak bych ty data hodil do ramdisku.

Jinak tazatel chce prohledávat stovky textových souborů. To je úplná sranda proti prohledávání milionů malých souborů. Neuvedl taky co s tím pak chce dělat. Já si většinou takový soubor chci přečíst, proto je pro mne optimální klasická kombinace grep + less. A pokud bych chtěl něco svižnějšího, tak bych nejspíš vyzkoušel ten sift. Pořád mi to přijde lepší než se drbat s nějakou databází. Bez rozumné indexace to stejně nedává smysl.
4.9. 10:55 Aleš Kapica | skóre: 47 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
Tak jsem to jen tak z legrace zkusil na svůj home. Obsahuje aktuálně 1044971 souborů (208GB). Co se mi líbilo, tj. že sift zvýrazňoval barevně cestu k souboru a nalezený vzorek. Sift také na rozdíl od grepu jel vícevláknově.

Co jsem neošetřil, to bylo nastavení parametru aby nepřeskakoval příliš dlouhé řádky, takže 3130 souborů sift právě kvůli tomu přeskočil.
sift
real    17m12,227s
user    2m28,896s
sys     4m6,882s

grep
real    23m28,636s
user    3m38,805s
sys     3m57,037s
4.9. 12:27 urputnik
Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
Tedy by mě zajímalo porovnání s prohledáváním v DB, ale to asi vyzkoušet nemůžete.
4.9. 13:09 dustin | skóre: 61 | blog: dustin
Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
Nahrání do DB a indexace pro nějaký fulltext (který nezafunguje na regexp) je dost náročná operace. Samozřejmě pokud budeš hledat častěji (a bude možné použít nějaký index), přínos to mít může. Jinak bude varianta s mezikrokem do DB logicky delší, když dělá to samé a ještě mnoho navíc.
4.9. 16:03 lertimir | skóre: 62 | blog: Par_slov
Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
Ano, souhlas. Podstatné je, že fultext index je sice mnohonásobně rychlejší, ale v podstatě je uvnitř jenom něco jako ekvivalent substringu. rozhodně to není regexp.
4.9. 10:20 Kit | skóre: 42 | Brno
Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
Pokud ta data v souborech nejsou strukturována, tak ti konverze do databáze moc fungovat nebude a ztratíš pohodlí přímé editace. Jak dlouho tomu ripgrepu trvá, než nalezne výskyty vzorku?
Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.
4.9. 11:04 urputnik
Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
Strukturovana jsou, ale to bych v te db uz nejak vyresil. Treba tak, ze bych si cestu do adresare (strukturu) ukladal do tabulky vedle toho textu.

Rychle to s tim ripgrepem je zatim dost, ale mam tech souboru jenom asi stovku. Brzy jich budou tisice.
4.9. 11:10 debian+
Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
Strukturovana jsou, ale to bych v te db uz nejak vyresil. Treba tak, ze bych si cestu do adresare (strukturu) ukladal do tabulky vedle toho textu.
To v ziadnom pripade!!!! ... Zvlast tabulka na nazvy a zvlast na data. A prepajas indexami.
4.9. 11:22 Kit | skóre: 42 | Brno
Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
Je u všech souborů zachována stejná struktura sloupců nebo to má každý soubor jinak? Máš ty soubory v CSV nebo v jiném podobném formátu?
Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.
4.9. 12:23 urputnik
Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
Je to jen text, žádný formát to nemá.
4.9. 12:51 Kit | skóre: 42 | Brno
Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
V tom případě nedává moc smysl takové nestrukturované údaje ukládat do databáze. Jak velké jsou ty soubory a co od toho databázového řešení očekáváš?
Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.
Mark Stopka avatar 4.9. 13:32 Mark Stopka | skóre: 58 | blog: Paranoidní blog | European Economic Area
Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
On ElasticSearch je taky databáze, víme? :-)
4.9. 13:46 urputnik
Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
V podstatě jde o to, jestli webový backend bude pracovat se strukturou souborů nebo s databází, ze které by se posléze vybraný text kopíroval do souboru, se kterým by se pracovalo -- překlad textového formátu do PDF a jiných formátů. Dneska už je běžné mít všechno v DB, je to rychlé a pohodlné a dobře rozšiřitelné. Na základě toho mě právě napadlo hrnout už to všechno přes DB, protože ta tam bude stejně, zejména pokud by to vyhledávání v DB mělo být rychlejší.
4.9. 14:23 dustin | skóre: 61 | blog: dustin
Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
Nepřijde mi, že je dnes běžné mít všechno v DB. Je to vždy o konkrétních potřebách.

Pokud potřebuješ fulltext (ne regexpy, které zmiňuješ), pak to nahraj do elasticsearche, jak tady již bylo řečeno. Nevím o DB indexu, který by uměl urychlit obecný regexp.

Mysql žádný pořádný fulltext nemá, navíc s podporou různých jazyků.

Nebo použij Postgresql https://postgres.cz/wiki/Instalace_PostgreSQL#Instalace_Fulltextu
Josef Kufner avatar 7.9. 11:11 Josef Kufner | skóre: 68
Rozbalit Rozbalit vše Re: jak nahrát stovky souborů do databáze
To, co chceš, je hlavně index. Pro obecné regexpy se indexovat nedá, ale pokud máš předem dané dotazy a přepíšeš je do jednoduchého hledání klíčových slov, tak už to půjde fulltextem.

Na fulltext můžeš zkusit třeba Sphinx Search nebo již zmiňovaný Elastic Search. Fulltext v MySQL je dosti omezený.

Import do databáze uděláš tak, že si napíšeš skript, který přečte soubor, sestaví SQL dotaz a pošle to do databáze. Je to na pár řádků. Doporučuju sáhnout po rozumném skriptovacím jazyce, např. Python nebo PHP. V shellu se z toho zblázníš.
Hello world ! Segmentation fault (core dumped)

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.