abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 12:55 | IT novinky

    Byly vyhlášeni vítězové a zveřejněny vítězné zdrojové kódy (YouTube, GitHub) již 29. ročníku soutěže International Obfuscated C Code Contest (IOCCC), tj. soutěže o nejnepřehlednější (nejobfuskovanější) zdrojový kód v jazyce C.

    Ladislav Hagara | Komentářů: 0
    dnes 12:44 | IT novinky

    Evropská komise předložila evropský balíček pro technologickou suverenitu, tedy soubor opatření, která mají posílit kapacity EU v oblasti polovodičů, umělé inteligence, cloudu a open source. To Evropě pomůže stát se lídrem v oblasti umělé inteligence, posílit její digitální autonomii a vytvářet podmínky pro udržitelnější digitální budoucnost.

    Ladislav Hagara | Komentářů: 3
    dnes 04:44 | Nová verze

    OpenCV (Open Source Computer Vision, Wikipedie), tj. open source multiplatformní knihovna pro zpracování obrazu a počítačové vidění, byla vydána v nové major verzi 5.

    Ladislav Hagara | Komentářů: 0
    5.6. 22:22 | Nová verze

    Byla vydána nová verze 9.7 multiplatformní digitální pracovní stanice pro práci s audiem (DAW) Ardour. Přehled novinek, vylepšení a oprav v poznámkách k vydání.

    Ladislav Hagara | Komentářů: 0
    5.6. 18:22 | Komunita

    Vývojáři webového prohlížeče Ladybird dnes oznámili, že mění způsob vývoje. S blížícím se vydáním alfa verze přestávají přijímat veřejné pull requesty. Všechny otevřené veřejné pull requesty budou uzavřeny. Tým nedokáže garantovat bezpečnost AI generovaných pull requestů.

    Ladislav Hagara | Komentářů: 2
    5.6. 17:33 | Zajímavý software

    OpenLogi (GitHub) je open source náhrada aplikace Logi Options+ pro přizpůsobení myší od společnosti Logitech. Zatím běží pouze na macOS.

    Ladislav Hagara | Komentářů: 1
    5.6. 04:33 | Nová verze

    Na čem pracují vývojáři webového prohlížeče Ladybird (GitHub)? Byl publikován přehled vývoje za květen (YouTube).

    Ladislav Hagara | Komentářů: 9
    4.6. 11:22 | Bezpečnostní upozornění

    Úřad pro ochranu osobních údajů řeší desítky stížností na jednotné měsíční hlášení zaměstnavatele, které stát spustil počátkem dubna. Systém, jenž má firmám odlehčit od desítek formulářů, nejenže výrazně zatížil jejich účetní oddělení, ale docházelo v něm i k únikům osobních dat zaměstnanců k firmám, kde nepracovali. Podle ministerstva práce a sociálních věcí stála za problémem technická chyba. „Incident se týkal několika stovek

    … více »
    Ladislav Hagara | Komentářů: 23
    4.6. 10:46 | Nová verze

    Byla vydána (𝕏, Bluesky) nová verze 22.0.0 open source webového aplikačního frameworku Angular (Wikipedie). Přehled novinek v příspěvku na blogu.

    Ladislav Hagara | Komentářů: 0
    4.6. 04:33 | Nová verze

    Vim Classic byl vydán ve verzi 8.3. Drew DeVault oznámil tento fork editoru Vim (verze 8.2.0148, tj. těsně před zavedením Vim9 skriptování) v březnu letošního roku. Důvodem forku bylo, že vývojáři editorů Vim a Neovim začali při vývoji využívat LLM.

    Ladislav Hagara | Komentářů: 9
    Které desktopové prostředí na Linuxu používáte?
     (12%)
     (8%)
     (2%)
     (15%)
     (31%)
     (3%)
     (6%)
     (3%)
     (15%)
     (26%)
    Celkem 1850 hlasů
     Komentářů: 30, poslední 3.4. 20:20
    Rozcestník

    Zabili Kennyho bastardi!

    2.2.2014 22:14 | Přečteno: 1539× | Stunome | poslední úprava: 3.2.2014 12:55

    Aneb malé povídání o n-gramech a Rku. Honzíkovi slibuji, že to bude mít větší hodnotu a lepší formátovaní než minule!

    Analyzuji, tedy jsem

    O co nám dnes půjde? Na vstupu máme titulky (anglické) z kompletní první série seriálu Southpark a budeme zjišťovat, jestli se v textu neobjevují nějaké opakující se patterny. K analýze nám poslouží tradičně jazyk R a jeho knihovny textcat, tau a k zobrazení výsledků pak wordcloud.

    Zdrojový kód

    Jako první si někde obstaráme textové soubory s titulky, které budeme analyzovat. Ty umístíme do jednoho adresáře, v našem případě nazvaném "southpark", a s tím již pracujeme v R. Dále načteme potřebné knihovny a vytvoříme korpus, který bude obsahovat náš adresář.

    library(textcat)
    library(tau)
    library(wordcloud)
    
    korpus <- Corpus(DirSource("southpark", encoding="UTF-8"), readerControl = list(language = "en"))
    

    Dále si do proměnné ngramy uložíme výsledek funkce textcnt, které předáváme v parametru n řád n-gramu. Postupně jsem to provedl pro n=1, 2, 3 a 4.

    ngramy <- textcnt(korpus, method = "string",n=3)
    

    Abychom mohli výsledek zobrazit jako wordcloud, musíme jej převézt z formátu textcnt na dataframe. To řeší následující příkaz:

    df <- data.frame(word = names(ngramy), freq=unclass(ngramy))
    

    Zbytek již je opakování z minula:

    pal2 <- brewer.pal(8,"Dark2")
    png("wordcloud_ngram.png", width=1024,height=768)
    wordcloud(df$word,df$freq, scale=c(10,.2),min.freq=3,
    max.words=150, random.order=FALSE, rot.per=.15, colors=pal2)
    dev.off()
    

    Výsledek

    V prvním kroku nám vyjde úplně normální wordcloud, který je dosti nevypovídající - nebyla použita žádná stopwords, a tak převládají členy "a" a "the".

    V dalším kroku pro n=2 je výsledek již zajímavější. Mezi nejčastějšími spojeními dvou slov se nám již objeví "south park", ale pořád to hyzdí nicneříkající "have to", "are you" a podobné.

    U n=3 začíná být výsledek již opravdu zajímavý. Mezi nejčastějšími tříslovnými výrazy se objevují věci jako "oh my god", což je klasická Cartmanovská hláška, popřípadě "Terrance and Phillip" podle které Southpark zcela jistě identifikujeme a "Kathie Lee Gifford", která prostě musí zemřít!

    A máme tady zlatý hřeb večera - n=4! Zde dominuje především asi nejvíce WTF věta "hut hut hut hut", u které doteď nevím co znamená. Southpark se dá rozeznat podle "my god they killed" a "a big fat ass". Pro n-gram pro čtyři slova je problematická především malá délka vstupního textu, kvůli čemuž máme velmi málo výsledků a nejsou příliš reprezentativní.

    Bonus

    Jako bonus jsem spočítal a vykreslil do grafu vzdálenost slov "killed", "kenny" a "bastards" v jednotlivých epizodách. Výsledek zde:

    Závěr

    Měření dopadlo úspěšně a nebyl při něm nikdo zraněn. Na pár příkladech jsme si předvedli, jak analyzovat text z pohledu výskytů sousloví. Největší smysl dávají asi 3-gramy, u kterých jde relativně dobře poznat, jaký text byl analyzován. U kratších spojení narážíme na přílišnou obecnost, zde by bylo potřeba implementovat zakázaná slova. U delších je pak problém v krátkosti textu. Pokud byste si chtěli něco podobného zkusit a nechtěli si při tom složitě instalovat R a hledat, které RStudio je nejlepší, vyzkoušejte online Voyant-tools. O kostičku se hlaste v komentářích!

           

    Hodnocení: 88 %

            špatnédobré        

    Obrázky

    Zabili Kennyho bastardi!, obrázek 1 Zabili Kennyho bastardi!, obrázek 2 Zabili Kennyho bastardi!, obrázek 3 Zabili Kennyho bastardi!, obrázek 4 Zabili Kennyho bastardi!, obrázek 5

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    Komentáře

    Vložit další komentář

    Bedňa avatar 2.2.2014 23:01 Bedňa | skóre: 34 | blog: Žumpa | Horňany
    Rozbalit Rozbalit vše Re: Zabili Kennyho bastardi!
    Čakal by som že vyhrá "Zabili Kennyho parchanti", ale ako vidím tak táto hláška sa drží dosť bokom, hoci je v každom diely. Si si istý že analýza prebehla korektne?
    KERNEL ULTRAS video channel >>>
    2.2.2014 23:41 mich | skóre: 16
    Rozbalit Rozbalit vše Re: Zabili Kennyho bastardi!
    Pro n=3 máš: "oh my god", "killed kenny you" a "god they killed".
    Pro n=4: "oh my go they" a "my god they killed".
    Ta hláška je v originále: "Oh my god they killed Kenny. You bastards!"
    je to teď v módě, na žive o tom furt píšou
    Bedňa avatar 2.2.2014 23:58 Bedňa | skóre: 34 | blog: Žumpa | Horňany
    Rozbalit Rozbalit vše Re: Zabili Kennyho bastardi!
    To mi jasné, ale ten výskyt podľa grafov nedáva za pravdu tomu čo som si myslel.
    KERNEL ULTRAS video channel >>>
    Bedňa avatar 3.2.2014 00:10 Bedňa | skóre: 34 | blog: Žumpa | Horňany
    Rozbalit Rozbalit vše Re: Zabili Kennyho bastardi!
    A jasne, trojslovné súvetia, tak sorry :)
    KERNEL ULTRAS video channel >>>
    |🇵🇸 avatar 3.2.2014 11:02 |🇵🇸 | skóre: 94 | blog:
    Rozbalit Rozbalit vše Re: Zabili Kennyho bastardi!
    Jenom ve starších sériích.

    Screw you guys, I'm going home. >_<
    🇵🇸Touch grass🇺🇦 ✊ ani boha, ani pána
    AsciiWolf avatar 2.2.2014 23:50 AsciiWolf | skóre: 41 | blog: Blog
    Rozbalit Rozbalit vše Re: Zabili Kennyho bastardi!
    Já chci kostičku!
    3.2.2014 09:55 Honz
    Rozbalit Rozbalit vše Re: Zabili Kennyho bastardi!
    Radši ani nechci vědět, co znamená u vás v klubu "analizuji"...
    pools avatar 3.2.2014 10:03 pools | skóre: 19 | blog: Svědek Damdogův | Opava/Praha
    Rozbalit Rozbalit vše Re: Zabili Kennyho bastardi!
    To znamená píšu to v noci a nečtu to po sobě ty jedna fašistická svině!
    Vivre libre ou mourir!
    3.2.2014 10:49 Asdasdasdad
    Rozbalit Rozbalit vše Re: Zabili Kennyho bastardi!
    Daj si diazepamový čípok - najprv dole a potom do nosa!
    3.2.2014 11:33 Luboš L.
    Rozbalit Rozbalit vše Re: Zabili Kennyho bastardi!
    Anál lížu jí?
    Agent avatar 3.2.2014 21:22 Agent | blog: Life_in_Pieces | HC city
    Rozbalit Rozbalit vše Re: Zabili Kennyho bastardi!
    Tak si to přeslabikuj nahlas třeba celej článek a zkus to uhádnout z kontextu. Možná budeš překvapen.
    Nevěděl zpočátku, co si počít, jak žít, co dělat, ale brzy se vpravil do role samotáře.
    3.2.2014 11:47 vyskocil
    Rozbalit Rozbalit vše Re: Zabili Kennyho bastardi!
    A Kednedyho zabili Sionsiticki Bastardi
    grubber avatar 5.2.2014 09:44 grubber | skóre: 6 | blog: grubber | Břeclav / Brno
    Rozbalit Rozbalit vše Re: Zabili Kennyho bastardi!
    Zde dominuje především asi nejvíce WTF věta "hut hut hut hut", u které doteď nevím co znamená.
    Že by More crap?
    pools avatar 5.2.2014 17:04 pools | skóre: 19 | blog: Svědek Damdogův | Opava/Praha
    Rozbalit Rozbalit vše Re: Zabili Kennyho bastardi!
    Díky!
    Vivre libre ou mourir!

    Založit nové vláknoNahoru

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.