abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
dnes 15:11 | Komunita

Ubuntu 21.04 bude Hirsute Hippo.

Ladislav Hagara | Komentářů: 13
dnes 13:11 | Nová verze

Byla vydána verze 12.2 svobodného unixového operačního systému FreeBSD. Podrobný přehled novinek v poznámkách k vydání.

Ladislav Hagara | Komentářů: 2
dnes 07:00 | Nová verze

Byla vydána nová stabilní verze 20.09 linuxové distribuce NixOS (Wikipedie). Její kódové označení je Nightingale. Přehled novinek v poznámkách k vydání. O balíčky se v NixOS stará správce balíčků Nix.

Ladislav Hagara | Komentářů: 0
včera 15:55 | IT novinky

Na Indiegogo byla spuštěna kampaň na podporu mobilního telefonu s klávesnicí Pro1 X od společnosti F(x)tec. Na výběr je předinstalovaný LineageOS, Ubuntu Touch nebo Android.

Ladislav Hagara | Komentářů: 12
včera 15:11 | Nová verze

Bylo oznámeno (en) vydání Fedory 33. Ve finální verzi vycházejí tři oficiální edice: Workstation pro desktopové nasazení, Server pro serverové nasazení a IoT pro internet věcí. Vedle nich jsou k dispozici také vznikající edice Silverblue a alternativní desktopy, např. KDE Plasma, Xfce nebo LxQt, a k tomu laby – upravené vydání Fedory například pro designery, robotiku, vědecké použití atd. Stahovat lze z Get Fedora. Přehled novinek v

… více »
Ladislav Hagara | Komentářů: 17
včera 14:22 | Zajímavý článek

V Edici CZ.NIC vyšla kniha Data, čipy, procesory od Martina Malého. Koupit ji lze tištěnou nebo zdarma stáhnout ve formátech PDF (10 MB), EPUB (4,3 MB) a MOBI (11 MB). Jedná se o volné pokračování knih Hradla, volty, jednočipy a Porty, bajty, osmibity.

Ladislav Hagara | Komentářů: 0
včera 13:33 | IT novinky

Společnost AMD kupuje firmu Xilinx za 35 miliard dolarů. V září bylo oznámeno, že společnost Nvidia kupuje firmu Arm za 40 miliard dolarů.

Ladislav Hagara | Komentářů: 3
včera 07:00 | Komunita

Neziskové technologické konsorcium Linux Foundation rozšířilo seznam svých oficiálních projektů. Nejnovějším projektem je SDDI (Software Developer Diversity and Inclusion), jehož cílem je rozšiřování diverzity a inkluze v softwarovém inženýrství.

Ladislav Hagara | Komentářů: 60
včera 06:00 | Komunita

Greg Kroah-Hartman oznámil, že Linux 5.10 bude jádrem s prodlouženou upstream podporou (LTS, Long Term Support). Aktuální jádra s prodlouženou podporou jsou 4.4, 4.9, 4.14, 4.19 a 5.4.

Ladislav Hagara | Komentářů: 0
26.10. 18:22 | Komunita

Uživatelé linuxové distribuce Debian mají možnost hlasovat o výchozím grafickém motivu Debianu 11 aneb Bullseye.

Ladislav Hagara | Komentářů: 9
Které aspekty uživatelského rozhraní textového editoru považujete za důležité?
 (70%)
 (37%)
 (33%)
 (17%)
 (24%)
 (16%)
Celkem 227 hlasů
 Komentářů: 21, poslední 23.10. 17:33
Rozcestník

Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

16.10. 20:31 | Přečteno: 740× | Žumpa | Výběrový blog | poslední úprava: 17.10. 16:04

Pred viac ako rokom, som sa pokúšaľ naprogramovať eJileka pomocou GPT-2, naučil sa české slová, ale nič zaujímavé z neho neliezlo. Na 4-jadrovom Xeone som učenie nechal bežať 10dní. Potom som to celé prepísal do Keras LSTM, ale výsledky boli podobné.

Takže som to na čas dal bokom. Ak by si niekto chcel stiahnuť blogy mistra Jílka, tu je script.

Teraz som si hovoril, že zas niečo s textami vyskúšam, ale inak.

1. Stiahnutie názvov článkov zo slovenskej Wikipedie.

Ak by ste si to chceli vyskúšať, projekt nájdete tu.

Skript get_all_articles.py vám stiahne z Wikipedie všetky názvy slovenských článkov.

Ak si chcete vyskúšať stiahnuť články pre iný jazyk, tak stačí v skripte prepísať LANGUAGE = "sk" a do main_categories stačí vložiť názvy kategórí z hlavnej stránky Wikipedie v danom jazyku.

Mne osobne stiahlo 215128 názvov.
cat list/list.txt | wc -l
215128

Problém je v tom, že jeden článok je v X-kategóriach a podkategóriach. Keď sa pozrieme na štatistiku duplicity, uvidíme koľko krát sa ktorý článok v odkazoch opakuje:
sort list/list.txt | uniq -c | sort -nr | head
    545 Imagine_Peace_Tower
    189 Super_Jamato_(trieda_lodí)
    189 Rimava_(rieka)
    174 Slaná
    165 Sovetskij_Sojuz_(trieda_lodí)
    165 Scharnhorst_(trieda_lodí)
    165 Jamato_(trieda_lodí)
    165 Bismarck_(trieda_lodí)
    163 Šinano_(lietadlová_loď)
    157 Cirocha
Možno existuje nejaké elegantnejšie riešenie pre stiahnutie článkov z Wikipedie, ale neviem o ňom. Takže som si extrahoval len unikátne názvy:
awk '!seen[$0]++' list/list1.txt > list/list-uniq.txt
Počet jedinečných článkov je v skutočnosti 15723.
cat list/list-uniq.txt | wc -l
15723

2. Stiahnutie samotných článkov zo slovenskej Wikipedie.

Texty z článkov si stiahnete skriptom download.py. Všetky články sa sťahujú do priečinku articles. Ak sa z nejakého článku nepodarí extrahovať text, tak sa zaloguje do errors/error_save_article.txt. (články sa u mńa práve sťahujú)

3. Určenie slovných druhov

Toto je vec ktorú ešte neviem (asi pridám ďalší rozmer modelu) ako využijem, ale ukážeme si ako môžete každému slovo priradiť jeho slovný druh. Použil som softvér Majka z Masarykovej univerzity. Používa sa to tak, že si najskôr stiahnete slovník pre daný jazyk (je to vždy odkaz čo sa volá data), stiahnete Majku, z rovnakých stránok a môžete si vyskúšať vycucať údaje o nejakom slove.

Napríklad vyskúšame slovo Dom.
echo Dom | ./majka -f w-lt.sk.fsa
dom:k1gInSc1
dom:k1gInSc4
dom:k1gInSc5
dom:kA
To nám to vypľuje, že je to Substantivum, rod mužsḱý neživotný, číslo jednotné v páde 1, 4 a 5. Do ľudského jazyka si to dekódujete pomocou tejto nápovedy.

4. Ako to narvať do nejakej neurónky

Toto zas nemám momentálne premyslené :-) Ale napríklad sa dá vyskúšať miniature GPT , LSTM, alebo čo vás napadne. Najviac sa tešim, že by to mohlo celkom dobre fungovať, so slovnými druhmi + LSTM a nejaké hranie sa s tým. Momentálne mám v pláne iné veci, ale chcel som si pripraviť aspoň nejaké dáta.

O AI píšem na LOS, hlavne zatiaľ pre úplných začiatočníkov, tak napríklad prvý praktický príklad v rozpoznávaní obrazu


Prípadne si môžete vyskúšať aj niečo online.

UPDATE:

Napísal som nový skript pre stiahnutie všetkých názvov z Wikipedie podľa tohto komentára pod blogom. Skript sa vollá get_all_articles_special.py a stiahol 307149 názvov strániek. Na záver sa zacyklil , takže som skript musel vypnúť ručne. Nemajú to vyvhytané, pretože posledná stránka sa opakuje stále dookola. Teraz sa stánky sťahujú, mno kopec z nich sú obsahovo prázdne, ako je vidieť na obrázku nižšie.
       

Hodnocení: 60 %

        špatnédobré        

Anketa

Váš postoj k AI
 (5 %)
 (14 %)
 (19 %)
 (10 %)
 (52 %)
Celkem 21 hlasů

Obrázky

Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI, obrázek 1 Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI, obrázek 2

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

Komentáře

Vložit další komentář

cbrpnk avatar 16.10. 21:13 cbrpnk | skóre: 3 | blog: bl0gium
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI
AI programuje mńa...
Bedňa avatar 16.10. 21:24 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI
Berem to ako sťažnosť na akentu, že tam táto možnosť chýba :-)
KERNEL ULTRAS video channel >>>
17.10. 15:28 ?
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI
chyba v inteligenci?
16.10. 21:42 Špeciálne:VšetkyStránky
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI
Bedňa avatar 16.10. 21:48 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI
Pekné, ale maš otskúšané, že to naozaj funguje OK?
KERNEL ULTRAS video channel >>>
16.10. 22:04 Špeciálne:VšetkyStránky
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI
Ty máš rozpor. Ty tvrdíš, že slovenská wikipédia má 15723 jedinečných článkov. Na úvodnej stránke slovenskej wikipédie (vpravo hore) sa píše ich počet, ktorý je o dekádu väčší ako tvoj.
Bedňa avatar 16.10. 22:16 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI
Toto je fakt, ktorý som zabudol uviesť. Veľa článkov má len nejaké tabuľky, prípadne rozcestníky na nejaké odkazy a tie žiadne užitočné informácie pre AI neponúkajú. Uvediem príklad ktorých je ale na Wikipédié plno, plus to číslo čo odkazujú sa podobá na číslo čo mi vypadlo z kategórií. Netvrdím, že ja mám pravdu, skôr by som si nechal poradiť od nejakého zbehlého Wikipedistu.
KERNEL ULTRAS video channel >>>
17.10. 11:38 debian+
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI
Sporný máš aj ten nadpis. Ty nesťahuješ všetky stránky slovenskej wikipédie, ale iba tie, ktoré majú kategóriu. Prípadne ešte na ktoré si natrafil v článku (ak si to tak implementoval). Čo podľa toho tvojho vychádza, že ~6,75% všetkých stránok zo slovenskej wikipédia má nejakú kategóriu.
Bedňa avatar 17.10. 13:51 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI
Příloha:
Napísal som Ďalší skript a ten to podľa rady z https://sk.wikipedia.org/w/index.php?title=%C5%A0peci%C3%A1lne:V%C5%A1etkyStr%C3%A1nky&hideredirects=1

Ale kopu stránok je prázdnych, ako napr. toto.
KERNEL ULTRAS video channel >>>
17.10. 02:33 Špeciálne:VšetkyStránky
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
17.10. 07:22 JS1 | skóre: 2 | blog: intuition_pump
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Tak bys to delat nemel, viz Wikipedia:Database_download.

Taky je moznost stahnout si ZIM soubory pro Kiwix.
Lidstvo čelí v tomto století hrozbě civilizačního kolapsu. Podpořte hnutí klimatickakoalice.cz!
Bedňa avatar 17.10. 10:06 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Mno ja neviem, skúšal si ten softvér? Mne to dvakrát spadlo, na to nemám čas.
KERNEL ULTRAS video channel >>>
17.10. 11:19 Špeciálne:VšetkyStránky
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

To je najlepšie.

Stiahneš: stiahneš
Výpis a spracovanie (nič extra ťažké): wiki.openzim.org/wiki/Zimlib

17.10. 14:50 x
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
A proč neřekneš té AI, ať si to stáhne sama?

Asi to není tak uplně AI, že...
Bedňa avatar 17.10. 15:13 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
To bude vedieť až potom, keď sa to naučí.
KERNEL ULTRAS video channel >>>
Gréta avatar 17.10. 15:22 Gréta | skóre: 27 | blog: Grétin blogísek | Stockholm
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

bliká to jako když vomylem máčknu banner s čínskou reklamou :O :O :D ;D

17.10. 16:06 _
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
přítelkyně takhle bliká, když jí zmáčknu klitoris
Gréta avatar 18.10. 16:51 Gréta | skóre: 27 | blog: Grétin blogísek | Stockholm
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Bedňa avatar 17.10. 16:07 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
:-)

Spravil som UPDATE zápisku a skriptu podľa tohto komentára.
KERNEL ULTRAS video channel >>>
17.10. 16:35 Špeciálne:VšetkyStránky
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
k UPDATE:
Na záver sa zacyklil , takže som skript musel vypnúť ručne. Nemajú to vyvhytané, pretože posledná stránka sa opakuje stále dookola.
Majú vychytané. Viď poslednú stránku toho zoznamu.
Teraz sa stánky sťahujú, mno kopec z nich sú obsahovo prázdne, ako je vidieť na obrázku nižšie.
Ak dáš tie a la prázdne stránky editovať, tak zistíš, že nie sú prázdne. Máš označené, že prázdná stránka, ale tá stránka má a la užitočný text pre používateľa (myslený text vľavo v článku).
Viď.: 735_Marghanna 735 734_Benda 734 733_Mocia 7336_Saunders 733 732_pred_Kr. 732_Tjilaki 732 731_Sorga 730_Athanasia 72_Feronia 729_Watsonia 728_Leonisis.
Bedňa avatar 17.10. 16:40 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Texty kratšie ako 25 znakov zahadzujem, pretože to potom zbieralo bordel.
KERNEL ULTRAS video channel >>>
Bedňa avatar 17.10. 20:21 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Tak už chápem aj problém so zacyklením na konci, Odkaz na predchádzajúcu a ďalšiu stránku má rovnaký CLASS mw-allpages-nav.
KERNEL ULTRAS video channel >>>
17.10. 18:35 NO3
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Zkus to rozchodit na grafice. Rozdíl ve výkonu je drsnej.
Gréta avatar 18.10. 16:53 Gréta | skóre: 27 | blog: Grétin blogísek | Stockholm
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
18.10. 09:56 Aleš Kapica | skóre: 50 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Jedním z principů mediawiki je, že nabízí možnost přelití obsahu do jiné wiki. Já si tak kupř. kdysi přelil stránky nápovědy. Takže není nutné vymýšlet tyhle brykule.

A mimo jiné také existuje rozšíření pro git, které umožňovalo (nevím jak je tomu teď, protože to už nepoužívám) udržovat obsah wiki přes git - včetně předchozích verzí článků.
Bedňa avatar 18.10. 10:16 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
No tak mi daj link, kde si stiahnem slovenskú, alebo českú Wikipediu v HTML formáte, bez obrázkov.

Mne to beží od včera a už mám 130000 stránok, večer to mám hotové.
KERNEL ULTRAS video channel >>>
18.10. 13:28 j
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Mno jelikoz ses evidentne debil, kterej neumi stahnout databazi, a pripadne si ji nalejt do vlastni instance mediawiki, tak tobe pomoci neni. Zato pevne doufam, ze tebe a celyho tvyho ISP wiki brzo hodi na blacklist. Presne kvuli takovym hovadum pak sou problemy s vykonem.

A jeste k tomu debil, kterej prijde, a chlubi se tim, jak debilni je ...

---

Dete s tim guuglem dopice!
Bedňa avatar 18.10. 14:32 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Mno jelikoz ses evidentne debil, kterej neumi stahnout databazi, a pripadne si ji nalejt do vlastni instance mediawiki
Nechcem si inštalovať softvér ktorý nebudem používať. Uvítal by som klasické zipko všetkých stránok. Niečo som dal teraz sťahovať, ale netuším čo v ňom bude (https://dumps.wikimedia.org/backup-index.html).

Inak používam knižnicu, ktorá používa officiálne Wikipedia API, takže to robí trafic medzi 50 - 100kbit/s. To robím väčší DDOS, keď si pustím niečo na YT. 99% požiadaviek aj tak vybaví keš.
KERNEL ULTRAS video channel >>>
19.10. 12:50 JS1 | skóre: 2 | blog: intuition_pump
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Nenech si to od j zkazit, ja jsem rad, ze se tim zabyvas. Sam si chci v budoucnu hrat s reinforcement learningem, nicmene stale mam zatim co delat v P vs NP (v ankete jsem hlasovat nemohl, protoze moznost "delam na tom a znici to svet" tam nebyla ;-)).

Nicmene, porizeni/sestaveni vhodnych vstupnich dat je asi nejslozitejsi cast vsech AI projektu. Takze je jasne, ze na tom nejaky cas stravis.
Lidstvo čelí v tomto století hrozbě civilizačního kolapsu. Podpořte hnutí klimatickakoalice.cz!
Bedňa avatar 20.10. 04:12 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Ale v poho, ja beriem kritiku ako pozitívny nástroj.

Okrem zberu dát, sú potom ešte testy ako sa sieť učí, úpravy modelu a tak. To tiež vie zožrať času, hlavne keď čakáš pár hodín aby si sa dozvedel výsledok.
KERNEL ULTRAS video channel >>>
18.10. 17:25 Aleš Kapica | skóre: 50 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Link zde.
Bedňa avatar 18.10. 19:30 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
To isté ponúka API, nie?
KERNEL ULTRAS video channel >>>
18.10. 10:00 Aleš Kapica | skóre: 50 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
A všetečku, co by se podobným způsobem pokoušel stahovat mou wiki by nejspíš terminoval fail2ban.
18.10. 18:22 jiwopene | skóre: 24
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Wikipedie má nějaké API pro export včetně převodu do plaintextu.
.sig virus 3.2_cz: Prosím, okopírujte tento text do vaší patičky.
Bedňa avatar 18.10. 19:29 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Ja som použil Wikipedia API, ale upravil som čo chcem stiahnuť. Po prvé som vytiahol len texty uzatvorené v tagu <p>, ďalej sťahujem len riadky dlhšie ako 25 znakov, padali tam všelijaké divné veci (vzorce ...), rovnako som odstánil veci vložené medzi medzi zložené zátvorky a samozrejme prázdne riadky. Chcem len čisté texty, bez odkazov atď.
KERNEL ULTRAS video channel >>>

Založit nové vláknoNahoru

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.