Zabili Kennyho bastardi!

Přihlášení | Registrace

napište » Zprávičky

Botnet Aisuru prolomil další "rekord". DDoS útok dosáhl 29,7 Tbps

dnes 13:22 | IT novinky

Nájemný botnet Aisuru prolomil další "rekord". DDoS útok na Cloudflare dosáhl 29,7 Tbps. Aisuru je tvořený až čtyřmi miliony kompromitovaných zařízení.

Ladislav Hagara | Komentářů: 0

Iced 0.14.0

dnes 12:11 | Nová verze

Iced, tj. multiplatformní GUI knihovna pro Rust, byla vydána ve verzi 0.14.0.

Ladislav Hagara | Komentářů: 2

FEX 2512. Vývoj FEXu sponzorován společností Valve

dnes 05:22 | Komunita

FEX, tj. open source emulátor umožňující spouštět aplikace pro x86 a x86_64 na architektuře ARM64, byl vydán ve verzi 2512. Před pár dny FEX oslavil sedmé narozeniny. Hlavní vývojář FEXu Ryan Houdek v oznámení poděkoval společnosti Valve za podporu. Pierre-Loup Griffais z Valve, jeden z architektů stojících za SteamOS a Steam Deckem, v rozhovoru pro The Verge potvrdil, že FEX je od svého vzniku sponzorován společností Valve.

Ladislav Hagara | Komentářů: 0

Flowblade 2.24

dnes 03:22 | Nová verze

Byla vydána nová verze 2.24 svobodného video editoru Flowblade (GitHub, Wikipedie). Přehled novinek v poznámkách k vydání. Videoukázky funkcí Flowblade na Vimeu. Instalovat lze také z Flathubu.

Ladislav Hagara | Komentářů: 0

Proton Sheets v Proton Drive

včera 15:11 | IT novinky

Společnost Proton AG stojící za Proton Mailem a dalšími službami přidala do svého portfolia online tabulky Proton Sheets v Proton Drive.

Ladislav Hagara | Komentářů: 1

EmacsConf 2025

6.12. 15:55 | Komunita

O víkendu (15:00 až 23:00) probíha EmacsConf 2025, tj. online konference vývojářů a uživatelů editoru GNU Emacs. Sledovat ji lze na stránkách konference. Záznamy budou k dispozici přímo z programu.

Ladislav Hagara | Komentářů: 0

Wikipedia jedná s technologickými giganty o zpoplatnění dat pro AI

6.12. 15:44 | Komunita

Provozovatel internetové encyklopedie Wikipedia jedná s velkými technologickými firmami o uzavření dohod podobných té, kterou má s Googlem. Snaží se tak zpeněžit rostoucí závislost firem zabývajících se umělou inteligencí (AI) na svém obsahu. Firmy využívají volně dostupná data z Wikipedie k trénování jazykových modelů, což zvyšuje náklady, které musí nezisková organizace provozující Wikipedii sama nést. Automatické programy

… více »

Ladislav Hagara | Komentářů: 28

Unijní pokuta pro síť X je útok na americký lid, řekl ministr zahraničí

6.12. 15:22 | IT novinky

Evropská komise obvinila síť 𝕏 z porušení unijních pravidel, konkrétně nařízení Evropské unie o digitálních službách (DSA). Vyměřila jí za to pokutu 120 milionů eur (2,9 miliardy Kč). Pokuta je podle názoru amerického ministra zahraničí útokem zahraničních vlád na americký lid. K pokutě se vyjádřil i americký viceprezident: „EU by měla podporovat svobodu projevu, a ne útočit na americké společnosti kvůli nesmyslům“.

Ladislav Hagara | Komentářů: 26

Jolla Phone

5.12. 17:11 | IT novinky

Společnost Jolla spustila kampaň na podporu svého nového telefonu Jolla Phone se Sailfish OS. Dodání je plánováno na první polovinu příštího roku. Pokud bude alespoň 2 000 zájemců. Záloha na telefon je 99 €. Cena telefonu v rámci kampaně je 499 €.

Ladislav Hagara | Komentářů: 30

Netflix kupuje Warner Bros. včetně HBO Max a HBO

5.12. 15:11 | IT novinky

Netflix kupuje Warner Bros. včetně jejích filmových a televizních studií HBO Max a HBO. Za 72 miliard dolarů (asi 1,5 bilionu korun).

Ladislav Hagara | Komentářů: 2

Centrum | Napsat | Starší

navrhněte » Anketa

Jaké řešení používáte k vývoji / práci?

Github (34%)

Gitlab (48%)

Atlassian (19%)

Bitbucket (17%)

Gitea (22%)

Mercurial (15%)

jen git (24%)

jen svn (16%)

Jiné (uvedu v diskusi) (18%)

Celkem 440 hlasů

Komentářů: 18, poslední 2.12. 18:34

Rozcestník

AbcLinuxu

HDmag.cz

pools - Svědek Damdogův

Sem tam mě něco(někdo) napadne, nebo nasere tak to sem postnu, no...

Aktuální zápisy

? Archív

? Současný desktop

? Navigace

Nej blogů na AbcLinuxu

Nejčtenější za poslední měsíc

Nejkomentovanější za poslední měsíc

AbcLinuxu:/ Blogy / Svědek Damdogův / Stunome / Zabili Kennyho bastardi!

Štítky: adresář, data, délka, digital humanities, jazyk, měření, NAS, online, problém, spojení, titulky, WTF

Zabili Kennyho bastardi!

2.2.2014 22:14 | Přečteno: 1500× | Stunome | poslední úprava: 3.2.2014 12:55

Aneb malé povídání o n-gramech a Rku. Honzíkovi slibuji, že to bude mít větší hodnotu a lepší formátovaní než minule!

Analyzuji, tedy jsem

O co nám dnes půjde? Na vstupu máme titulky (anglické) z kompletní první série seriálu Southpark a budeme zjišťovat, jestli se v textu neobjevují nějaké opakující se patterny. K analýze nám poslouží tradičně jazyk R a jeho knihovny textcat, tau a k zobrazení výsledků pak wordcloud.

Zdrojový kód

Jako první si někde obstaráme textové soubory s titulky, které budeme analyzovat. Ty umístíme do jednoho adresáře, v našem případě nazvaném "southpark", a s tím již pracujeme v R. Dále načteme potřebné knihovny a vytvoříme korpus, který bude obsahovat náš adresář.

library(textcat)
library(tau)
library(wordcloud)

korpus <- Corpus(DirSource("southpark", encoding="UTF-8"), readerControl = list(language = "en"))

Dále si do proměnné ngramy uložíme výsledek funkce textcnt, které předáváme v parametru n řád n-gramu. Postupně jsem to provedl pro n=1, 2, 3 a 4.

ngramy <- textcnt(korpus, method = "string",n=3)

Abychom mohli výsledek zobrazit jako wordcloud, musíme jej převézt z formátu textcnt na dataframe. To řeší následující příkaz:

df <- data.frame(word = names(ngramy), freq=unclass(ngramy))

Zbytek již je opakování z minula:

pal2 <- brewer.pal(8,"Dark2")
png("wordcloud_ngram.png", width=1024,height=768)
wordcloud(df$word,df$freq, scale=c(10,.2),min.freq=3,
max.words=150, random.order=FALSE, rot.per=.15, colors=pal2)
dev.off()

Výsledek

V prvním kroku nám vyjde úplně normální wordcloud, který je dosti nevypovídající - nebyla použita žádná stopwords, a tak převládají členy "a" a "the".

V dalším kroku pro n=2 je výsledek již zajímavější. Mezi nejčastějšími spojeními dvou slov se nám již objeví "south park", ale pořád to hyzdí nicneříkající "have to", "are you" a podobné.

U n=3 začíná být výsledek již opravdu zajímavý. Mezi nejčastějšími tříslovnými výrazy se objevují věci jako "oh my god", což je klasická Cartmanovská hláška, popřípadě "Terrance and Phillip" podle které Southpark zcela jistě identifikujeme a "Kathie Lee Gifford", která prostě musí zemřít!

A máme tady zlatý hřeb večera - n=4! Zde dominuje především asi nejvíce WTF věta "hut hut hut hut", u které doteď nevím co znamená. Southpark se dá rozeznat podle "my god they killed" a "a big fat ass". Pro n-gram pro čtyři slova je problematická především malá délka vstupního textu, kvůli čemuž máme velmi málo výsledků a nejsou příliš reprezentativní.

Bonus

Jako bonus jsem spočítal a vykreslil do grafu vzdálenost slov "killed", "kenny" a "bastards" v jednotlivých epizodách. Výsledek zde:

Závěr

Měření dopadlo úspěšně a nebyl při něm nikdo zraněn. Na pár příkladech jsme si předvedli, jak analyzovat text z pohledu výskytů sousloví. Největší smysl dávají asi 3-gramy, u kterých jde relativně dobře poznat, jaký text byl analyzován. U kratších spojení narážíme na přílišnou obecnost, zde by bylo potřeba implementovat zakázaná slova. U delších je pak problém v krátkosti textu. Pokud byste si chtěli něco podobného zkusit a nechtěli si při tom složitě instalovat R a hledat, které RStudio je nejlepší, vyzkoušejte online Voyant-tools. O kostičku se hlaste v komentářích!

Hodnocení: 88 %

špatné • dobré

Obrázky

Tiskni Sdílej:

Komentáře

Nástroje: Začni sledovat (1) ? , Tisk

Vložit další komentář

2.2.2014 23:01 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Zabili Kennyho bastardi!

Odpovědět | Sbalit | Link | Blokovat | Admin

Čakal by som že vyhrá "Zabili Kennyho parchanti", ale ako vidím tak táto hláška sa drží dosť bokom, hoci je v každom diely. Si si istý že analýza prebehla korektne?

KERNEL ULTRAS video channel >>>

2.2.2014 23:41 mich | skóre: 16
Rozbalit Rozbalit vše Re: Zabili Kennyho bastardi!

Pro n=3 máš: "oh my god", "killed kenny you" a "god they killed".
Pro n=4: "oh my go they" a "my god they killed".
Ta hláška je v originále: "Oh my god they killed Kenny. You bastards!"

je to teď v módě, na žive o tom furt píšou

2.2.2014 23:58 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Zabili Kennyho bastardi!

To mi jasné, ale ten výskyt podľa grafov nedáva za pravdu tomu čo som si myslel.

KERNEL ULTRAS video channel >>>

3.2.2014 00:10 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Zabili Kennyho bastardi!

A jasne, trojslovné súvetia, tak sorry :)

KERNEL ULTRAS video channel >>>

3.2.2014 11:02 |🇵🇸 | skóre: 93 | blog:
Rozbalit Rozbalit vše Re: Zabili Kennyho bastardi!

Jenom ve starších sériích.

Screw you guys, I'm going home. >_<

🇵🇸 ✊ Touch grass ✊ 🇺🇦 ✊ ani boha, ani pána

2.2.2014 23:50 AsciiWolf | skóre: 41 | blog: Blog
Rozbalit Rozbalit vše Re: Zabili Kennyho bastardi!

Odpovědět | Sbalit | Link | Blokovat | Admin

Já chci kostičku!

3.2.2014 09:55 Honz
Rozbalit Rozbalit vše Re: Zabili Kennyho bastardi!

Odpovědět | Sbalit | Link | Blokovat | Admin

Radši ani nechci vědět, co znamená u vás v klubu "analizuji"...

3.2.2014 10:03 pools | skóre: 19 | blog: Svědek Damdogův | Opava/Praha
Rozbalit Rozbalit vše Re: Zabili Kennyho bastardi!

To znamená píšu to v noci a nečtu to po sobě ty jedna fašistická svině!

Vivre libre ou mourir!

3.2.2014 10:49 Asdasdasdad
Rozbalit Rozbalit vše Re: Zabili Kennyho bastardi!

Daj si diazepamový čípok - najprv dole a potom do nosa!

3.2.2014 11:33 Luboš L.
Rozbalit Rozbalit vše Re: Zabili Kennyho bastardi!

Anál lížu jí?

3.2.2014 21:22 Agent | blog: Life_in_Pieces | HC city
Rozbalit Rozbalit vše Re: Zabili Kennyho bastardi!

Tak si to přeslabikuj nahlas třeba celej článek a zkus to uhádnout z kontextu. Možná budeš překvapen.

Nevěděl zpočátku, co si počít, jak žít, co dělat, ale brzy se vpravil do role samotáře.

3.2.2014 11:47 vyskocil
Rozbalit Rozbalit vše Re: Zabili Kennyho bastardi!

Odpovědět | Sbalit | Link | Blokovat | Admin

A Kednedyho zabili Sionsiticki Bastardi

5.2.2014 09:44 grubber | skóre: 6 | blog: grubber | Břeclav / Brno
Rozbalit Rozbalit vše Re: Zabili Kennyho bastardi!

Odpovědět | Sbalit | Link | Blokovat | Admin

Zde dominuje především asi nejvíce WTF věta "hut hut hut hut", u které doteď nevím co znamená.

Že by More crap?

5.2.2014 17:04 pools | skóre: 19 | blog: Svědek Damdogův | Opava/Praha
Rozbalit Rozbalit vše Re: Zabili Kennyho bastardi!

Díky!

Vivre libre ou mourir!

Založit nové vlákno • Nahoru

Píšeme jinde

ISSN 1214-1267 www.czech-server.cz

Redakce | Inzerce | Podmínky použití | Osobní údaje