abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
včera 23:33 | Zajímavý projekt

Na Humble Bundle byla spuštěna akce Humble Book Bundle: Web Programming by O'Reilly. Za 1 dolar a více lze koupit 5 elektronických knih, za 8 dolarů a více lze koupit 11 elektronických knih a za 15 dolarů a více lze koupit 17 elektronických knih věnovaných webovému programování od nakladatelství O'Reilly Media. Část ceny lze určit charitě.

Ladislav Hagara | Komentářů: 0
včera 23:00 | Pozvánky

Spolek OpenAlt zve příznivce otevřených řešení a přístupu na 162. brněnský sraz, který proběhne v pátek 22. března od 18:00 v restauraci Slatinský šenk na adrese Zlínská 12.

Ladislav Hagara | Komentářů: 0
včera 16:22 | Nová verze

Jonathan Thomas oznámil vydání nové verze 2.4.4 video editoru OpenShot (Wikipedie). Přehled novinek na YouTube. Zdrojové kódy OpenShotu jsou k dispozici na GitHubu. Ke stažení je také balíček ve formátu AppImage. Stačí jej stáhnout, nastavit právo na spouštění a spustit.

Ladislav Hagara | Komentářů: 0
včera 15:22 | Zajímavý článek

Mozilla.cz informuje, že Firefox bude mít nového správce hesel Lockbox. Lockbox bude integrován s Firefox Monitorem – službou pro varování při únicích dat.

Ladislav Hagara | Komentářů: 0
včera 11:33 | Nová verze

Webový prohlížeč Falkon založený na QtWebEngine (Blink) byl vydán ve verzi 3.1. Podle seznamu změn zlepšuje integraci v rámci KDE, opravuje několik chyb a stabilizuje podporu rozšíření v Python a přidává podporu QML.

Fluttershy, yay! | Komentářů: 2
včera 11:22 | Komunita

Česká Wikipedie je dnes vypnuta. Na protest proti evropské reformě autorského práva.

Ladislav Hagara | Komentářů: 14
20.3. 18:11 | Nová verze

Po půl roce vývoje od vydání verze 7.0.0 byla vydána verze 8.0.0 překladačové infrastruktury LLVM (Wikipedie). Přehled novinek v poznámkách k vydání: LLVM, Clang, clang-tools-extra, LLD a Libc++.

Ladislav Hagara | Komentářů: 0
20.3. 17:44 | Nová verze

Bylo vydáno Eclipse IDE 2019-03 aneb Eclipse 4.11. Nově vychází toto vývojové prostředí čtvrtletně. Představení novinek na YouTube.

Ladislav Hagara | Komentářů: 0
20.3. 01:11 | IT novinky

V říjnu loňského roku společnost Google představila hráčům počítačových her Project Stream umožňující streamování AAA her do webového prohlížeče Chrome. Včera na konferenci GDC 2019 (Game Developers Conference) společnost Google oficiálně představila (YouTube) pokračování projektu – herní platformu Stadia. V Česku a na Slovensku je služba Stadia zatím nedostupná.

Ladislav Hagara | Komentářů: 25
19.3. 23:11 | Nová verze

Byla vydána Java 12 / JDK 12. Nových vlastností (JEP - JDK Enhancement Proposal) je 8. Nová Java / JDK vychází každých 6 měsíců.

Ladislav Hagara | Komentářů: 2
Kolik balíčků (v tisících) máte nainstalovaných na svém systému?
 (4%)
 (13%)
 (33%)
 (30%)
 (20%)
 (3%)
 (2%)
 (1%)
 (3%)
Celkem 224 hlasů
 Komentářů: 21, poslední včera 23:40
Rozcestník

Wordcloud z dat z Facebooku

24.11.2013 14:50 | Přečteno: 1473× | Stunome | poslední úprava: 24.11.2013 14:53

Dneska si jako správné novomediální *** ukážeme, jak jednoduše udělat naprosto zbytečný (ale vypadá to fakt pěkně) word cloud s pomocí programu R project.

Co k tomu potřebujeme:

Stažení potřebných dat

Jako první si pustíme R konzoli a nainstalujeme potřebné balíčky.

# instalace knihoven
install.packages("Rfacebook")
install.packages("tm")
install.packages("wordcloud")

# nacteni knihoven
library(Rfacebook)
library(tm)
library(wordcloud)

Načtení dat

Jakmile si seženeme facebook token, ze stránky https://developers.facebook.com/tools/explorer, můžeme se zvesela pustit do načítání dat z Facebooku pomocí R. Nám bude stačit načíst 300 komentářů z jakékoliv Facebook stránky. A trochu si je předpřipravíme.

# nacteni tokenu do promenne
token <- "token_pro_graph_api"

# nacteni prispevku stranky do promenne
page <- getPage("biooo.cz", token=token, n=300)

# vytvoreni korpusu, ktery bude obsahovat pouze sloupec se zpravami
corpus <- Corpus(VectorSource(page$message))

# slova z korpusu zmenšíme, odstraníme interpunkci a čísla
corpus <- tm_map(corpus, tolower)
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, removeNumbers)

Vytvoření matice slov

V další fázi vytvoříme z předpřipraveného korpusu matici slov a spočteme jejich frekvenci.

ap.tdm <- TermDocumentMatrix(corpus)
ap.m <- as.matrix(ap.tdm)
ap.v <- sort(rowSums(ap.m), decreasing=TRUE)
ap.d <- data.frame(word = names(ap.v), freq=ap.v)

Vykreslení

Již se zdárně blížíme k cíli, teď si načteme do proměnné předpřipravenou paletu barev:

require(RColorBrewer)
pal <- brewer.pal(8,"Dark2")

Nyní stačí již jen nastavit soubor výstupu a spustit samotné vytvoření word cloudu!

png("wordcloud.png",width=1024,height=1024)
wordcloud(ap.d$word,ap.d$freq, scale=c(10,.2),min.freq=3,max.words=150, random.order=FALSE, rot.per=.15, colors=pal)
dev.off()

TADÁ! Máme náš první word cloud.

Co by se dalo zlepšit?

Spousta věcí! Především:

A k čemu je to dobré?

Přece absolutně k ničemu! ;-) P.S. Hlavně to neukazujte markeťákům, nebo vám utrhají ruce!

Zdroj: https://gist.github.com/josefslerka/2344144

       

Hodnocení: 92 %

        špatnédobré        

Obrázky

Wordcloud z dat z Facebooku, obrázek 1

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

Komentáře

Vložit další komentář

Bystroushaak avatar 24.11.2013 17:54 Bystroushaak | skóre: 35 | blog: Bystroushaakův blog | Praha
Rozbalit Rozbalit vše Re: Wordcloud z dat z Facebooku
R se mi začíná líbit, je to takové docela pěkné a jednoduché.
Bedňa avatar 24.11.2013 23:01 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Wordcloud z dat z Facebooku
V čom je R lepšie ako Q, alebo S?
KERNEL ULTRAS video channel >>>
pools avatar 25.11.2013 09:12 pools | skóre: 19 | blog: Svědek Damdogův | Opava/Praha
Rozbalit Rozbalit vše Re: Wordcloud z dat z Facebooku
Q je sfině, to ví každý, a S je moc nacistický - ještě ti přileze jedno a jsi v prdeli...
Vivre libre ou mourir!
26.11.2013 17:49 frdrx | skóre: 29 | blog: frdrx
Rozbalit Rozbalit vše Re: Wordcloud z dat z Facebooku
R je to co se dnes skutečně používá.
Patička mi slouží k tomu, abych si lépe poznal svoje příspěvky.

Založit nové vláknoNahoru

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.