Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

napište » Zprávičky

Vývoj Zigu přesunut z GitHubu na Codeberg

dnes 04:55 | Komunita

Vývoj programovacího jazyka Zig byl přesunut z GitHubu na Codeberg. Sponzoring na Every.

dnes 04:44 | Komunita

Stejně jako GNOME i KDE Plasma končí s X11. KDE Plasma 6.8 poběží už pouze nad Waylandem. Aplikace pro X11 budou využívat XWayland.

Ladislav Hagara | Komentářů: 0

Europoslanci vyzvali k zákazu sociálních sítí pro osoby mladší 16 let

včera 14:55 | IT novinky

Poslanci Evropského parlamentu dnes vyzvali k výraznému zvýšení ochrany nezletilých na internetu, včetně zákazu vstupu na sociální sítě pro osoby mladší 16 let. Legislativně nezávazná zpráva, kterou dnes odsouhlasil Evropský parlament poměrem 493 hlasů pro ku 92 proti, kromě zavedení věkové hranice 16 let pro využívání sociálních sítí, platforem pro sdílení videí či společníků s umělou inteligencí (AI) vyzývá také k zákazu … více »

Ladislav Hagara | Komentářů: 22

Doom v KiCadu nebo na osciloskopu? Žádný problém

včera 14:11 | Humor

Doom v KiCadu nebo na osciloskopu? Žádný problém: KiDoom: Running DOOM on PCB Traces a ScopeDoom: DOOM on an Oscilloscope via Sound Card.

Ladislav Hagara | Komentářů: 3

Rocky Linux 10.1

včera 12:44 | Nová verze

Po AlmaLinuxu byl v nové stabilní verzi 10.1 vydán také Rocky Linux. Přehled novinek v poznámkách k vydání.

Ladislav Hagara | Komentářů: 0

TRX 1.0

včera 04:00 | Zajímavý software

Open source reimplementace počítačových her Tomb Raider I a Tomb Raider II spolu s dalšími vylepšeními a opravami chyb TRX byla vydána ve verzi 1.0. Jedná se o sloučení projektů / enginů TR1X a TR2X do jednoho TRX. Videoukázka na YouTube.

Ladislav Hagara | Komentářů: 1

Seznam.cz spouští Seznam Asistenta

25.11. 17:00 | IT novinky

Společnost Seznam.cz spouští konverzační nástroj založený na umělé inteligenci Seznam Asistent. Asistent využívá vlastní jazykový model SeLLMa a dočasně i komerční modely od OpenAI provozované v evropských datacentrech prostřednictvím Microsoft Azure. Dlouhodobým cílem Seznamu je provozovat Asistenta výhradně na interních jazykových modelech a ve vlastních datových centrech.

Ladislav Hagara | Komentářů: 8

LibrePods, sluchátka AirPods s Androidem a Linuxem

25.11. 11:55 | Zajímavý software

Software LibrePods osvobozuje bezdrátová sluchátka AirPods z ekosystému Applu. Exkluzivní funkce AirPods umožňuje využívat na Androidu a Linuxu. Díky zdokumentování proprietárního protokolu AAP (Apple Accessory Protocol).

Ladislav Hagara | Komentářů: 1

AlmaLinux OS 10.1

25.11. 05:00 | Nová verze

Byl vydán AlmaLinux OS 10.1 s kódovým názvem Heliotrope Lion. S podporou Btrfs. Podrobnosti v poznámkách k vydání.

Ladislav Hagara | Komentářů: 0

Služba Mozilla Monitor Plus bude 17. prosince ukončena

25.11. 04:33 | Komunita

Placená služba prohledávání zprostředkovatelů dat a automatického odstraňování uniklých osobních údajů Mozilla Monitor Plus bude 17. prosince ukončena. Bezplatná monitorovací služba Mozilla Monitor bude i nadále poskytovat okamžitá upozornění a podrobné pokyny k omezení rizik úniku dat. Služba Mozilla Monitor Plus byla představena v únoru loňského roku.

Ladislav Hagara | Komentářů: 0

Centrum | Napsat | Starší

navrhněte » Anketa

Jaké řešení používáte k vývoji / práci?

Github (35%)

Gitlab (46%)

Atlassian (19%)

Bitbucket (18%)

Gitea (22%)

Mercurial (15%)

jen git (24%)

jen svn (16%)

Jiné (uvedu v diskusi) (17%)

Celkem 407 hlasů

Komentářů: 17, poslední 19.11. 21:57

Rozcestník

AbcLinuxu

HDmag.cz

AbcLinuxu:/ Blogy / Žumpa / Žumpa / Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

Štítky: AbcLinuxu, AWK, bedňa, blogy, cat, články, data, DOM, download, GPT, jazyk, jeho, online, problém, projekt, skript, slovník, Ste, tom, Wikipedie

Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

16.10.2020 20:31 | Přečteno: 1287× | Žumpa | Výběrový blog | poslední úprava: 17.10.2020 16:04

Pred viac ako rokom, som sa pokúšaľ naprogramovať eJileka pomocou GPT-2, naučil sa české slová, ale nič zaujímavé z neho neliezlo. Na 4-jadrovom Xeone som učenie nechal bežať 10dní. Potom som to celé prepísal do Keras LSTM, ale výsledky boli podobné.

Takže som to na čas dal bokom. Ak by si niekto chcel stiahnuť blogy mistra Jílka, tu je script.

Teraz som si hovoril, že zas niečo s textami vyskúšam, ale inak.

1. Stiahnutie názvov článkov zo slovenskej Wikipedie.

Ak by ste si to chceli vyskúšať, projekt nájdete tu.

Skript get_all_articles.py vám stiahne z Wikipedie všetky názvy slovenských článkov.

Ak si chcete vyskúšať stiahnuť články pre iný jazyk, tak stačí v skripte prepísať LANGUAGE = "sk" a do main_categories stačí vložiť názvy kategórí z hlavnej stránky Wikipedie v danom jazyku.

Mne osobne stiahlo 215128 názvov.

cat list/list.txt | wc -l
215128

Problém je v tom, že jeden článok je v X-kategóriach a podkategóriach. Keď sa pozrieme na štatistiku duplicity, uvidíme koľko krát sa ktorý článok v odkazoch opakuje:

sort list/list.txt | uniq -c | sort -nr | head
    545 Imagine_Peace_Tower
    189 Super_Jamato_(trieda_lodí)
    189 Rimava_(rieka)
    174 Slaná
    165 Sovetskij_Sojuz_(trieda_lodí)
    165 Scharnhorst_(trieda_lodí)
    165 Jamato_(trieda_lodí)
    165 Bismarck_(trieda_lodí)
    163 Šinano_(lietadlová_loď)
    157 Cirocha

Možno existuje nejaké elegantnejšie riešenie pre stiahnutie článkov z Wikipedie, ale neviem o ňom. Takže som si extrahoval len unikátne názvy:

awk '!seen[$0]++' list/list1.txt > list/list-uniq.txt

Počet jedinečných článkov je v skutočnosti 15723.

cat list/list-uniq.txt | wc -l
15723

2. Stiahnutie samotných článkov zo slovenskej Wikipedie.

Texty z článkov si stiahnete skriptom download.py. Všetky články sa sťahujú do priečinku articles. Ak sa z nejakého článku nepodarí extrahovať text, tak sa zaloguje do errors/error_save_article.txt. (články sa u mńa práve sťahujú)

3. Určenie slovných druhov

Toto je vec ktorú ešte neviem (asi pridám ďalší rozmer modelu) ako využijem, ale ukážeme si ako môžete každému slovo priradiť jeho slovný druh. Použil som softvér Majka z Masarykovej univerzity. Používa sa to tak, že si najskôr stiahnete slovník pre daný jazyk (je to vždy odkaz čo sa volá data), stiahnete Majku, z rovnakých stránok a môžete si vyskúšať vycucať údaje o nejakom slove.

Napríklad vyskúšame slovo Dom.

echo Dom | ./majka -f w-lt.sk.fsa
dom:k1gInSc1
dom:k1gInSc4
dom:k1gInSc5
dom:kA

To nám to vypľuje, že je to Substantivum, rod mužsḱý neživotný, číslo jednotné v páde 1, 4 a 5. Do ľudského jazyka si to dekódujete pomocou tejto nápovedy.

4. Ako to narvať do nejakej neurónky

Toto zas nemám momentálne premyslené :-)

Ale napríklad sa dá vyskúšať miniature GPT , LSTM, alebo čo vás napadne. Najviac sa tešim, že by to mohlo celkom dobre fungovať, so slovnými druhmi + LSTM a nejaké hranie sa s tým. Momentálne mám v pláne iné veci, ale chcel som si pripraviť aspoň nejaké dáta.

O AI píšem na LOS, hlavne zatiaľ pre úplných začiatočníkov, tak napríklad prvý praktický príklad v rozpoznávaní obrazu

Prípadne si môžete vyskúšať aj niečo online.

UPDATE:

Napísal som nový skript pre stiahnutie všetkých názvov z Wikipedie podľa tohto komentára pod blogom. Skript sa vollá get_all_articles_special.py a stiahol 307149 názvov strániek. Na záver sa zacyklil , takže som skript musel vypnúť ručne. Nemajú to vyvhytané, pretože posledná stránka sa opakuje stále dookola. Teraz sa stánky sťahujú, mno kopec z nich sú obsahovo prázdne, ako je vidieť na obrázku nižšie.

Hodnocení: 60 %

špatné • dobré

Anketa

Obrázky

Tiskni Sdílej:

Komentáře

Nástroje: Začni sledovat (1) ? , Tisk

Vložit další komentář

16.10.2020 21:13 cbrpnk | skóre: 10 | blog: bl0gium
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI

Odpovědět | Sbalit | Link | Blokovat | Admin

AI programuje mńa...

16.10.2020 21:24 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI

Berem to ako sťažnosť na akentu, že tam táto možnosť chýba :-)

KERNEL ULTRAS video channel >>>

17.10.2020 15:28 ?
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI

chyba v inteligenci?

16.10.2020 21:42 Špeciálne:VšetkyStránky
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI

Odpovědět | Sbalit | Link | Blokovat | Admin

sk.wikipedia.org/wiki/Špeciálne:VšetkyStránky

16.10.2020 21:48 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI

Pekné, ale maš otskúšané, že to naozaj funguje OK?

KERNEL ULTRAS video channel >>>

16.10.2020 22:04 Špeciálne:VšetkyStránky
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI

Ty máš rozpor. Ty tvrdíš, že slovenská wikipédia má 15723 jedinečných článkov. Na úvodnej stránke slovenskej wikipédie (vpravo hore) sa píše ich počet, ktorý je o dekádu väčší ako tvoj.

16.10.2020 22:16 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI

Toto je fakt, ktorý som zabudol uviesť. Veľa článkov má len nejaké tabuľky, prípadne rozcestníky na nejaké odkazy a tie žiadne užitočné informácie pre AI neponúkajú. Uvediem príklad ktorých je ale na Wikipédié plno, plus to číslo čo odkazujú sa podobá na číslo čo mi vypadlo z kategórií. Netvrdím, že ja mám pravdu, skôr by som si nechal poradiť od nejakého zbehlého Wikipedistu.

KERNEL ULTRAS video channel >>>

17.10.2020 11:38 debian+
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI

Sporný máš aj ten nadpis. Ty nesťahuješ všetky stránky slovenskej wikipédie, ale iba tie, ktoré majú kategóriu. Prípadne ešte na ktoré si natrafil v článku (ak si to tak implementoval). Čo podľa toho tvojho vychádza, že ~6,75% všetkých stránok zo slovenskej wikipédia má nejakú kategóriu.

17.10.2020 13:51 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI

Příloha:

screenshot.jpg (191728 bytů)

Napísal som Ďalší skript a ten to podľa rady z https://sk.wikipedia.org/w/index.php?title=%C5%A0peci%C3%A1lne:V%C5%A1etkyStr%C3%A1nky&hideredirects=1

Ale kopu stránok je prázdnych, ako napr. toto.

KERNEL ULTRAS video channel >>>

17.10.2020 02:33 Špeciálne:VšetkyStránky
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

Odpovědět | Sbalit | Link | Blokovat | Admin

sk.wikipedia.org/wiki/Špeciálne:ExportovaťStránky

17.10.2020 07:22 JS1 | skóre: 2 | blog: intuition_pump
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

Odpovědět | Sbalit | Link | Blokovat | Admin

Tak bys to delat nemel, viz Wikipedia:Database_download.

Taky je moznost stahnout si ZIM soubory pro Kiwix.

Lidstvo čelí v tomto století hrozbě civilizačního kolapsu. Podpořte hnutí klimatickakoalice.cz!

17.10.2020 10:06 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

Mno ja neviem, skúšal si ten softvér? Mne to dvakrát spadlo, na to nemám čas.

KERNEL ULTRAS video channel >>>

17.10.2020 11:19 Špeciálne:VšetkyStránky
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

To je najlepšie.

Stiahneš: stiahneš
Výpis a spracovanie (nič extra ťažké): wiki.openzim.org/wiki/Zimlib

17.10.2020 14:50 x
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

Odpovědět | Sbalit | Link | Blokovat | Admin

A proč neřekneš té AI, ať si to stáhne sama?

Asi to není tak uplně AI, že...

17.10.2020 15:13 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

To bude vedieť až potom, keď sa to naučí.

KERNEL ULTRAS video channel >>>

17.10.2020 15:22 🇹🇬 | skóre: 37 | blog: Grétin blogísek | 🇮🇱==❤️ , 🇵🇸==💩 , 🇪🇺==☭
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

Odpovědět | Sbalit | Link | Blokovat | Admin

bliká to jako když vomylem máčknu banner s čínskou reklamou :O :O :D ;D

stasi se probouzí 🕵️🇩🇪 indové říděj🚚🇮🇳 plavba🍉🛶

17.10.2020 16:06 _
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

přítelkyně takhle bliká, když jí zmáčknu klitoris

18.10.2020 16:51 🇹🇬 | skóre: 37 | blog: Grétin blogísek | 🇮🇱==❤️ , 🇵🇸==💩 , 🇪🇺==☭
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

nóó tak vod nás angelinu pozdravuj :D ;D

stasi se probouzí 🕵️🇩🇪 indové říděj🚚🇮🇳 plavba🍉🛶

17.10.2020 16:07 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

Spravil som UPDATE zápisku a skriptu podľa tohto komentára.

KERNEL ULTRAS video channel >>>

17.10.2020 16:35 Špeciálne:VšetkyStránky
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

Odpovědět | Sbalit | Link | Blokovat | Admin

k UPDATE:

Na záver sa zacyklil , takže som skript musel vypnúť ručne. Nemajú to vyvhytané, pretože posledná stránka sa opakuje stále dookola.

Majú vychytané. Viď poslednú stránku toho zoznamu.

Teraz sa stánky sťahujú, mno kopec z nich sú obsahovo prázdne, ako je vidieť na obrázku nižšie.

Ak dáš tie a la prázdne stránky editovať, tak zistíš, že nie sú prázdne. Máš označené, že prázdná stránka, ale tá stránka má a la užitočný text pre používateľa (myslený text vľavo v článku).
Viď.: 735_Marghanna 735 734_Benda 734 733_Mocia 7336_Saunders 733 732_pred_Kr. 732_Tjilaki 732 731_Sorga 730_Athanasia 72_Feronia 729_Watsonia 728_Leonisis.

17.10.2020 16:40 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

Texty kratšie ako 25 znakov zahadzujem, pretože to potom zbieralo bordel.

KERNEL ULTRAS video channel >>>

17.10.2020 20:21 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

Tak už chápem aj problém so zacyklením na konci, Odkaz na predchádzajúcu a ďalšiu stránku má rovnaký CLASS mw-allpages-nav.

KERNEL ULTRAS video channel >>>

17.10.2020 18:35 NO3
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

Odpovědět | Sbalit | Link | Blokovat | Admin

Zkus to rozchodit na grafice. Rozdíl ve výkonu je drsnej.

18.10.2020 16:53 🇹🇬 | skóre: 37 | blog: Grétin blogísek | 🇮🇱==❤️ , 🇵🇸==💩 , 🇪🇺==☭
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

na nvidii nejlíp :D ;D

stasi se probouzí 🕵️🇩🇪 indové říděj🚚🇮🇳 plavba🍉🛶

18.10.2020 09:56 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

Odpovědět | Sbalit | Link | Blokovat | Admin

Jedním z principů mediawiki je, že nabízí možnost přelití obsahu do jiné wiki. Já si tak kupř. kdysi přelil stránky nápovědy. Takže není nutné vymýšlet tyhle brykule.

A mimo jiné také existuje rozšíření pro git, které umožňovalo (nevím jak je tomu teď, protože to už nepoužívám) udržovat obsah wiki přes git - včetně předchozích verzí článků.

18.10.2020 10:16 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

No tak mi daj link, kde si stiahnem slovenskú, alebo českú Wikipediu v HTML formáte, bez obrázkov.

Mne to beží od včera a už mám 130000 stránok, večer to mám hotové.

KERNEL ULTRAS video channel >>>

18.10.2020 13:28 j
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

Mno jelikoz ses evidentne debil, kterej neumi stahnout databazi, a pripadne si ji nalejt do vlastni instance mediawiki, tak tobe pomoci neni. Zato pevne doufam, ze tebe a celyho tvyho ISP wiki brzo hodi na blacklist. Presne kvuli takovym hovadum pak sou problemy s vykonem.

A jeste k tomu debil, kterej prijde, a chlubi se tim, jak debilni je ...

---

Dete s tim guuglem dopice!

18.10.2020 14:32 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

Mno jelikoz ses evidentne debil, kterej neumi stahnout databazi, a pripadne si ji nalejt do vlastni instance mediawiki

Nechcem si inštalovať softvér ktorý nebudem používať. Uvítal by som klasické zipko všetkých stránok. Niečo som dal teraz sťahovať, ale netuším čo v ňom bude (https://dumps.wikimedia.org/backup-index.html).

Inak používam knižnicu, ktorá používa officiálne Wikipedia API, takže to robí trafic medzi 50 - 100kbit/s. To robím väčší DDOS, keď si pustím niečo na YT. 99% požiadaviek aj tak vybaví keš.

KERNEL ULTRAS video channel >>>

19.10.2020 12:50 JS1 | skóre: 2 | blog: intuition_pump
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

Nenech si to od j zkazit, ja jsem rad, ze se tim zabyvas. Sam si chci v budoucnu hrat s reinforcement learningem, nicmene stale mam zatim co delat v P vs NP (v ankete jsem hlasovat nemohl, protoze moznost "delam na tom a znici to svet" tam nebyla ;-)

Nicmene, porizeni/sestaveni vhodnych vstupnich dat je asi nejslozitejsi cast vsech AI projektu. Takze je jasne, ze na tom nejaky cas stravis.

Lidstvo čelí v tomto století hrozbě civilizačního kolapsu. Podpořte hnutí klimatickakoalice.cz!

20.10.2020 04:12 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

Ale v poho, ja beriem kritiku ako pozitívny nástroj.

Okrem zberu dát, sú potom ešte testy ako sa sieť učí, úpravy modelu a tak. To tiež vie zožrať času, hlavne keď čakáš pár hodín aby si sa dozvedel výsledok.

KERNEL ULTRAS video channel >>>

18.10.2020 17:25 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

Link zde.

18.10.2020 19:30 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

To isté ponúka API, nie?

KERNEL ULTRAS video channel >>>

18.10.2020 10:00 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

Odpovědět | Sbalit | Link | Blokovat | Admin

A všetečku, co by se podobným způsobem pokoušel stahovat mou wiki by nejspíš terminoval fail2ban.

18.10.2020 18:22 jiwopene | skóre: 31 | blog: Od každého trochu…
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

Odpovědět | Sbalit | Link | Blokovat | Admin

Wikipedie má nějaké API pro export včetně převodu do plaintextu.

.sig virus 3.2_cz: Prosím, okopírujte tento text do vaší patičky.

18.10.2020 19:29 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

Ja som použil Wikipedia API, ale upravil som čo chcem stiahnuť. Po prvé som vytiahol len texty uzatvorené v tagu <p>, ďalej sťahujem len riadky dlhšie ako 25 znakov, padali tam všelijaké divné veci (vzorce ...), rovnako som odstánil veci vložené medzi medzi zložené zátvorky a samozrejme prázdne riadky. Chcem len čisté texty, bez odkazov atď.

KERNEL ULTRAS video channel >>>

Založit nové vlákno • Nahoru