Portál AbcLinuxu, 26. dubna 2024 20:31

Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

16.10.2020 20:31 | Přečteno: 1176× | Žumpa | Výběrový blog | poslední úprava: 17.10.2020 16:04

Pred viac ako rokom, som sa pokúšaľ naprogramovať eJileka pomocou GPT-2, naučil sa české slová, ale nič zaujímavé z neho neliezlo. Na 4-jadrovom Xeone som učenie nechal bežať 10dní. Potom som to celé prepísal do Keras LSTM, ale výsledky boli podobné.

Takže som to na čas dal bokom. Ak by si niekto chcel stiahnuť blogy mistra Jílka, tu je script.

Teraz som si hovoril, že zas niečo s textami vyskúšam, ale inak.

1. Stiahnutie názvov článkov zo slovenskej Wikipedie.

Ak by ste si to chceli vyskúšať, projekt nájdete tu.

Skript get_all_articles.py vám stiahne z Wikipedie všetky názvy slovenských článkov.

Ak si chcete vyskúšať stiahnuť články pre iný jazyk, tak stačí v skripte prepísať LANGUAGE = "sk" a do main_categories stačí vložiť názvy kategórí z hlavnej stránky Wikipedie v danom jazyku.

Mne osobne stiahlo 215128 názvov.
cat list/list.txt | wc -l
215128

Problém je v tom, že jeden článok je v X-kategóriach a podkategóriach. Keď sa pozrieme na štatistiku duplicity, uvidíme koľko krát sa ktorý článok v odkazoch opakuje:
sort list/list.txt | uniq -c | sort -nr | head
    545 Imagine_Peace_Tower
    189 Super_Jamato_(trieda_lodí)
    189 Rimava_(rieka)
    174 Slaná
    165 Sovetskij_Sojuz_(trieda_lodí)
    165 Scharnhorst_(trieda_lodí)
    165 Jamato_(trieda_lodí)
    165 Bismarck_(trieda_lodí)
    163 Šinano_(lietadlová_loď)
    157 Cirocha
Možno existuje nejaké elegantnejšie riešenie pre stiahnutie článkov z Wikipedie, ale neviem o ňom. Takže som si extrahoval len unikátne názvy:
awk '!seen[$0]++' list/list1.txt > list/list-uniq.txt
Počet jedinečných článkov je v skutočnosti 15723.
cat list/list-uniq.txt | wc -l
15723

2. Stiahnutie samotných článkov zo slovenskej Wikipedie.

Texty z článkov si stiahnete skriptom download.py. Všetky články sa sťahujú do priečinku articles. Ak sa z nejakého článku nepodarí extrahovať text, tak sa zaloguje do errors/error_save_article.txt. (články sa u mńa práve sťahujú)

3. Určenie slovných druhov

Toto je vec ktorú ešte neviem (asi pridám ďalší rozmer modelu) ako využijem, ale ukážeme si ako môžete každému slovo priradiť jeho slovný druh. Použil som softvér Majka z Masarykovej univerzity. Používa sa to tak, že si najskôr stiahnete slovník pre daný jazyk (je to vždy odkaz čo sa volá data), stiahnete Majku, z rovnakých stránok a môžete si vyskúšať vycucať údaje o nejakom slove.

Napríklad vyskúšame slovo Dom.
echo Dom | ./majka -f w-lt.sk.fsa
dom:k1gInSc1
dom:k1gInSc4
dom:k1gInSc5
dom:kA
To nám to vypľuje, že je to Substantivum, rod mužsḱý neživotný, číslo jednotné v páde 1, 4 a 5. Do ľudského jazyka si to dekódujete pomocou tejto nápovedy.

4. Ako to narvať do nejakej neurónky

Toto zas nemám momentálne premyslené :-) Ale napríklad sa dá vyskúšať miniature GPT , LSTM, alebo čo vás napadne. Najviac sa tešim, že by to mohlo celkom dobre fungovať, so slovnými druhmi + LSTM a nejaké hranie sa s tým. Momentálne mám v pláne iné veci, ale chcel som si pripraviť aspoň nejaké dáta.

O AI píšem na LOS, hlavne zatiaľ pre úplných začiatočníkov, tak napríklad prvý praktický príklad v rozpoznávaní obrazu


Prípadne si môžete vyskúšať aj niečo online.

UPDATE:

Napísal som nový skript pre stiahnutie všetkých názvov z Wikipedie podľa tohto komentára pod blogom. Skript sa vollá get_all_articles_special.py a stiahol 307149 názvov strániek. Na záver sa zacyklil , takže som skript musel vypnúť ručne. Nemajú to vyvhytané, pretože posledná stránka sa opakuje stále dookola. Teraz sa stánky sťahujú, mno kopec z nich sú obsahovo prázdne, ako je vidieť na obrázku nižšie.
       

Hodnocení: 60 %

        špatnédobré        

Anketa

Váš postoj k AI
 (9 %)
 (14 %)
 (18 %)
 (9 %)
 (50 %)
Celkem 22 hlasů

Obrázky

Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI, obrázek 1 Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI, obrázek 2

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

Komentáře

Nástroje: Začni sledovat (1) ?Zašle upozornění na váš email při vložení nového komentáře. , Tisk

Vložit další komentář

cbrpnk avatar 16.10.2020 21:13 cbrpnk | skóre: 8 | blog: bl0gium
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI
Odpovědět | Sbalit | Link | Blokovat | Admin
AI programuje mńa...
Bedňa avatar 16.10.2020 21:24 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI
Berem to ako sťažnosť na akentu, že tam táto možnosť chýba :-)
KERNEL ULTRAS video channel >>>
17.10.2020 15:28 ?
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI
chyba v inteligenci?
16.10.2020 21:42 Špeciálne:VšetkyStránky
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI
Odpovědět | Sbalit | Link | Blokovat | Admin
sk.wikipedia.org/wiki/Špeciálne:VšetkyStránky
Bedňa avatar 16.10.2020 21:48 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI
Pekné, ale maš otskúšané, že to naozaj funguje OK?
KERNEL ULTRAS video channel >>>
16.10.2020 22:04 Špeciálne:VšetkyStránky
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI
Ty máš rozpor. Ty tvrdíš, že slovenská wikipédia má 15723 jedinečných článkov. Na úvodnej stránke slovenskej wikipédie (vpravo hore) sa píše ich počet, ktorý je o dekádu väčší ako tvoj.
Bedňa avatar 16.10.2020 22:16 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI
Toto je fakt, ktorý som zabudol uviesť. Veľa článkov má len nejaké tabuľky, prípadne rozcestníky na nejaké odkazy a tie žiadne užitočné informácie pre AI neponúkajú. Uvediem príklad ktorých je ale na Wikipédié plno, plus to číslo čo odkazujú sa podobá na číslo čo mi vypadlo z kategórií. Netvrdím, že ja mám pravdu, skôr by som si nechal poradiť od nejakého zbehlého Wikipedistu.
KERNEL ULTRAS video channel >>>
17.10.2020 11:38 debian+
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI
Sporný máš aj ten nadpis. Ty nesťahuješ všetky stránky slovenskej wikipédie, ale iba tie, ktoré majú kategóriu. Prípadne ešte na ktoré si natrafil v článku (ak si to tak implementoval). Čo podľa toho tvojho vychádza, že ~6,75% všetkých stránok zo slovenskej wikipédia má nejakú kategóriu.
Bedňa avatar 17.10.2020 13:51 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI
Příloha:
Napísal som Ďalší skript a ten to podľa rady z https://sk.wikipedia.org/w/index.php?title=%C5%A0peci%C3%A1lne:V%C5%A1etkyStr%C3%A1nky&hideredirects=1

Ale kopu stránok je prázdnych, ako napr. toto.
KERNEL ULTRAS video channel >>>
17.10.2020 02:33 Špeciálne:VšetkyStránky
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Odpovědět | Sbalit | Link | Blokovat | Admin
sk.wikipedia.org/wiki/Špeciálne:ExportovaťStránky
17.10.2020 07:22 JS1 | skóre: 2 | blog: intuition_pump
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Odpovědět | Sbalit | Link | Blokovat | Admin
Tak bys to delat nemel, viz Wikipedia:Database_download.

Taky je moznost stahnout si ZIM soubory pro Kiwix.
Lidstvo čelí v tomto století hrozbě civilizačního kolapsu. Podpořte hnutí klimatickakoalice.cz!
Bedňa avatar 17.10.2020 10:06 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Mno ja neviem, skúšal si ten softvér? Mne to dvakrát spadlo, na to nemám čas.
KERNEL ULTRAS video channel >>>
17.10.2020 11:19 Špeciálne:VšetkyStránky
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

To je najlepšie.

Stiahneš: stiahneš
Výpis a spracovanie (nič extra ťažké): wiki.openzim.org/wiki/Zimlib

17.10.2020 14:50 x
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Odpovědět | Sbalit | Link | Blokovat | Admin
A proč neřekneš té AI, ať si to stáhne sama?

Asi to není tak uplně AI, že...
Bedňa avatar 17.10.2020 15:13 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
To bude vedieť až potom, keď sa to naučí.
KERNEL ULTRAS video channel >>>
Gréta avatar 17.10.2020 15:22 Gréta | skóre: 36 | blog: Grétin blogísek | 🇮🇱==❤️ , 🇵🇸==💩 , 🇪🇺==☭
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Odpovědět | Sbalit | Link | Blokovat | Admin

bliká to jako když vomylem máčknu banner s čínskou reklamou :O :O :D ;D

oslavná píseň na pana soudruha generalisima prezidentčíka Petra Pavla Pávka 🎶🫡🦚🎶
17.10.2020 16:06 _
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
přítelkyně takhle bliká, když jí zmáčknu klitoris
Gréta avatar 18.10.2020 16:51 Gréta | skóre: 36 | blog: Grétin blogísek | 🇮🇱==❤️ , 🇵🇸==💩 , 🇪🇺==☭
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Bedňa avatar 17.10.2020 16:07 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
:-)

Spravil som UPDATE zápisku a skriptu podľa tohto komentára.
KERNEL ULTRAS video channel >>>
17.10.2020 16:35 Špeciálne:VšetkyStránky
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Odpovědět | Sbalit | Link | Blokovat | Admin
k UPDATE:
Na záver sa zacyklil , takže som skript musel vypnúť ručne. Nemajú to vyvhytané, pretože posledná stránka sa opakuje stále dookola.
Majú vychytané. Viď poslednú stránku toho zoznamu.
Teraz sa stánky sťahujú, mno kopec z nich sú obsahovo prázdne, ako je vidieť na obrázku nižšie.
Ak dáš tie a la prázdne stránky editovať, tak zistíš, že nie sú prázdne. Máš označené, že prázdná stránka, ale tá stránka má a la užitočný text pre používateľa (myslený text vľavo v článku).
Viď.: 735_Marghanna 735 734_Benda 734 733_Mocia 7336_Saunders 733 732_pred_Kr. 732_Tjilaki 732 731_Sorga 730_Athanasia 72_Feronia 729_Watsonia 728_Leonisis.
Bedňa avatar 17.10.2020 16:40 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Texty kratšie ako 25 znakov zahadzujem, pretože to potom zbieralo bordel.
KERNEL ULTRAS video channel >>>
Bedňa avatar 17.10.2020 20:21 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Tak už chápem aj problém so zacyklením na konci, Odkaz na predchádzajúcu a ďalšiu stránku má rovnaký CLASS mw-allpages-nav.
KERNEL ULTRAS video channel >>>
17.10.2020 18:35 NO3
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Odpovědět | Sbalit | Link | Blokovat | Admin
Zkus to rozchodit na grafice. Rozdíl ve výkonu je drsnej.
Gréta avatar 18.10.2020 16:53 Gréta | skóre: 36 | blog: Grétin blogísek | 🇮🇱==❤️ , 🇵🇸==💩 , 🇪🇺==☭
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
18.10.2020 09:56 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Odpovědět | Sbalit | Link | Blokovat | Admin
Jedním z principů mediawiki je, že nabízí možnost přelití obsahu do jiné wiki. Já si tak kupř. kdysi přelil stránky nápovědy. Takže není nutné vymýšlet tyhle brykule.

A mimo jiné také existuje rozšíření pro git, které umožňovalo (nevím jak je tomu teď, protože to už nepoužívám) udržovat obsah wiki přes git - včetně předchozích verzí článků.
Bedňa avatar 18.10.2020 10:16 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
No tak mi daj link, kde si stiahnem slovenskú, alebo českú Wikipediu v HTML formáte, bez obrázkov.

Mne to beží od včera a už mám 130000 stránok, večer to mám hotové.
KERNEL ULTRAS video channel >>>
18.10.2020 13:28 j
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Mno jelikoz ses evidentne debil, kterej neumi stahnout databazi, a pripadne si ji nalejt do vlastni instance mediawiki, tak tobe pomoci neni. Zato pevne doufam, ze tebe a celyho tvyho ISP wiki brzo hodi na blacklist. Presne kvuli takovym hovadum pak sou problemy s vykonem.

A jeste k tomu debil, kterej prijde, a chlubi se tim, jak debilni je ...

---

Dete s tim guuglem dopice!
Bedňa avatar 18.10.2020 14:32 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Mno jelikoz ses evidentne debil, kterej neumi stahnout databazi, a pripadne si ji nalejt do vlastni instance mediawiki
Nechcem si inštalovať softvér ktorý nebudem používať. Uvítal by som klasické zipko všetkých stránok. Niečo som dal teraz sťahovať, ale netuším čo v ňom bude (https://dumps.wikimedia.org/backup-index.html).

Inak používam knižnicu, ktorá používa officiálne Wikipedia API, takže to robí trafic medzi 50 - 100kbit/s. To robím väčší DDOS, keď si pustím niečo na YT. 99% požiadaviek aj tak vybaví keš.
KERNEL ULTRAS video channel >>>
19.10.2020 12:50 JS1 | skóre: 2 | blog: intuition_pump
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Nenech si to od j zkazit, ja jsem rad, ze se tim zabyvas. Sam si chci v budoucnu hrat s reinforcement learningem, nicmene stale mam zatim co delat v P vs NP (v ankete jsem hlasovat nemohl, protoze moznost "delam na tom a znici to svet" tam nebyla ;-)).

Nicmene, porizeni/sestaveni vhodnych vstupnich dat je asi nejslozitejsi cast vsech AI projektu. Takze je jasne, ze na tom nejaky cas stravis.
Lidstvo čelí v tomto století hrozbě civilizačního kolapsu. Podpořte hnutí klimatickakoalice.cz!
Bedňa avatar 20.10.2020 04:12 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Ale v poho, ja beriem kritiku ako pozitívny nástroj.

Okrem zberu dát, sú potom ešte testy ako sa sieť učí, úpravy modelu a tak. To tiež vie zožrať času, hlavne keď čakáš pár hodín aby si sa dozvedel výsledok.
KERNEL ULTRAS video channel >>>
18.10.2020 17:25 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Link zde.
Bedňa avatar 18.10.2020 19:30 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
To isté ponúka API, nie?
KERNEL ULTRAS video channel >>>
18.10.2020 10:00 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Odpovědět | Sbalit | Link | Blokovat | Admin
A všetečku, co by se podobným způsobem pokoušel stahovat mou wiki by nejspíš terminoval fail2ban.
18.10.2020 18:22 jiwopene | skóre: 31 | blog: Od každého trochu…
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Odpovědět | Sbalit | Link | Blokovat | Admin
Wikipedie má nějaké API pro export včetně převodu do plaintextu.
.sig virus 3.2_cz: Prosím, okopírujte tento text do vaší patičky.
Bedňa avatar 18.10.2020 19:29 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
Ja som použil Wikipedia API, ale upravil som čo chcem stiahnuť. Po prvé som vytiahol len texty uzatvorené v tagu <p>, ďalej sťahujem len riadky dlhšie ako 25 znakov, padali tam všelijaké divné veci (vzorce ...), rovnako som odstánil veci vložené medzi medzi zložené zátvorky a samozrejme prázdne riadky. Chcem len čisté texty, bez odkazov atď.
KERNEL ULTRAS video channel >>>

Založit nové vláknoNahoru

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.