abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 02:33 | Nová verze

    Po více než roce vývoje od vydání verze 5.40 byla vydána nová stabilní verze 5.42 programovacího jazyka Perl (Wikipedie). Do vývoje se zapojilo 64 vývojářů. Změněno bylo přibližně 280 tisíc řádků v 1 500 souborech. Přehled novinek a změn v podrobném seznamu.

    Ladislav Hagara | Komentářů: 0
    dnes 01:33 | Nová verze

    Byla vydána nová stabilní verze 7.5 webového prohlížeče Vivaldi (Wikipedie). Postavena je na Chromiu 138. Přehled novinek i s náhledy v příspěvku na blogu.

    Ladislav Hagara | Komentářů: 0
    včera 16:33 | Zajímavý software

    Sniffnet je multiplatformní aplikace pro sledování internetového provozu. Ke stažení pro Windows, macOS i Linux. Jedná se o open source software. Zdrojové kódy v programovacím jazyce Rust jsou k dispozici na GitHubu. Vývoj je finančně podporován NLnet Foundation.

    Ladislav Hagara | Komentářů: 0
    včera 12:33 | Nová verze

    Byl vydán Debian Installer Trixie RC 2, tj. druhá RC verze instalátoru Debianu 13 s kódovým názvem Trixie.

    Ladislav Hagara | Komentářů: 0
    včera 03:33 | Komunita

    Na čem pracují vývojáři webového prohlížeče Ladybird (GitHub)? Byl publikován přehled vývoje za červen (YouTube).

    Ladislav Hagara | Komentářů: 0
    včera 02:33 | Nová verze

    Libreboot (Wikipedie) – svobodný firmware nahrazující proprietární BIOSy, distribuce Corebootu s pravidly pro proprietární bloby – byl vydán ve verzi 25.06 "Luminous Lemon". Přidána byla podpora desek Acer Q45T-AM a Dell Precision T1700 SFF a MT. Současně byl ve verzi 25.06 "Onerous Olive" vydán také Canoeboot, tj. fork Librebootu s ještě přísnějšími pravidly.

    Ladislav Hagara | Komentářů: 0
    včera 01:33 | Komunita

    Licence GNU GPLv3 o víkendu oslavila 18 let. Oficiálně vyšla 29. června 2007. Při té příležitosti Richard E. Fontana a Bradley M. Kuhn restartovali, oživili a znovu spustili projekt Copyleft-Next s cílem prodiskutovat a navrhnout novou licenci.

    Ladislav Hagara | Komentářů: 0
    2.7. 16:55 | Nová verze

    Svobodný nemocniční informační systém GNU Health Hospital Information System (HIS) (Wikipedie) byl vydán ve verzi 5.0 (Mastodon).

    Ladislav Hagara | Komentářů: 0
    2.7. 16:22 | Komunita

    Open source mapová a navigační aplikace OsmAnd (OpenStreetMap Automated Navigation Directions, Wikipedie, GitHub) oslavila 15 let.

    Ladislav Hagara | Komentářů: 1
    2.7. 11:55 | Zajímavý software

    Vývojář Spytihněv, autor počítačové hry Hrot (Wikipedie, ProtonDB), pracuje na nové hře Brno Transit. Jedná se o příběhový psychologický horor o strojvedoucím v zácviku, uvězněném v nejzatuchlejším metru východně od všeho, na čem záleží. Vydání je plánováno na čtvrté čtvrtletí letošního roku.

    Ladislav Hagara | Komentářů: 38
    Jaký je váš oblíbený skriptovací jazyk?
     (59%)
     (28%)
     (7%)
     (2%)
     (0%)
     (1%)
     (3%)
    Celkem 347 hlasů
     Komentářů: 16, poslední 8.6. 21:05
    Rozcestník

    Wordcloud z dat z Facebooku

    24.11.2013 14:50 | Přečteno: 1751× | Stunome | poslední úprava: 24.11.2013 14:53

    Dneska si jako správné novomediální *** ukážeme, jak jednoduše udělat naprosto zbytečný (ale vypadá to fakt pěkně) word cloud s pomocí programu R project.

    Co k tomu potřebujeme:

    Stažení potřebných dat

    Jako první si pustíme R konzoli a nainstalujeme potřebné balíčky.

    # instalace knihoven
    install.packages("Rfacebook")
    install.packages("tm")
    install.packages("wordcloud")
    
    # nacteni knihoven
    library(Rfacebook)
    library(tm)
    library(wordcloud)
    

    Načtení dat

    Jakmile si seženeme facebook token, ze stránky https://developers.facebook.com/tools/explorer, můžeme se zvesela pustit do načítání dat z Facebooku pomocí R. Nám bude stačit načíst 300 komentářů z jakékoliv Facebook stránky. A trochu si je předpřipravíme.

    # nacteni tokenu do promenne
    token <- "token_pro_graph_api"
    
    # nacteni prispevku stranky do promenne
    page <- getPage("biooo.cz", token=token, n=300)
    
    # vytvoreni korpusu, ktery bude obsahovat pouze sloupec se zpravami
    corpus <- Corpus(VectorSource(page$message))
    
    # slova z korpusu zmenšíme, odstraníme interpunkci a čísla
    corpus <- tm_map(corpus, tolower)
    corpus <- tm_map(corpus, removePunctuation)
    corpus <- tm_map(corpus, removeNumbers)
    

    Vytvoření matice slov

    V další fázi vytvoříme z předpřipraveného korpusu matici slov a spočteme jejich frekvenci.

    ap.tdm <- TermDocumentMatrix(corpus)
    ap.m <- as.matrix(ap.tdm)
    ap.v <- sort(rowSums(ap.m), decreasing=TRUE)
    ap.d <- data.frame(word = names(ap.v), freq=ap.v)
    

    Vykreslení

    Již se zdárně blížíme k cíli, teď si načteme do proměnné předpřipravenou paletu barev:

    require(RColorBrewer)
    pal <- brewer.pal(8,"Dark2")
    

    Nyní stačí již jen nastavit soubor výstupu a spustit samotné vytvoření word cloudu!

    png("wordcloud.png",width=1024,height=1024)
    wordcloud(ap.d$word,ap.d$freq, scale=c(10,.2),min.freq=3,max.words=150, random.order=FALSE, rot.per=.15, colors=pal)
    dev.off()
    

    TADÁ! Máme náš první word cloud.

    Co by se dalo zlepšit?

    Spousta věcí! Především:

    A k čemu je to dobré?

    Přece absolutně k ničemu! ;-) P.S. Hlavně to neukazujte markeťákům, nebo vám utrhají ruce!

    Zdroj: https://gist.github.com/josefslerka/2344144

           

    Hodnocení: 92 %

            špatnédobré        

    Obrázky

    Wordcloud z dat z Facebooku, obrázek 1

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    Komentáře

    Vložit další komentář

    Bystroushaak avatar 24.11.2013 17:54 Bystroushaak | skóre: 36 | blog: Bystroushaakův blog | Praha
    Rozbalit Rozbalit vše Re: Wordcloud z dat z Facebooku
    R se mi začíná líbit, je to takové docela pěkné a jednoduché.
    Bedňa avatar 24.11.2013 23:01 Bedňa | skóre: 34 | blog: Žumpa | Horňany
    Rozbalit Rozbalit vše Re: Wordcloud z dat z Facebooku
    V čom je R lepšie ako Q, alebo S?
    KERNEL ULTRAS video channel >>>
    pools avatar 25.11.2013 09:12 pools | skóre: 19 | blog: Svědek Damdogův | Opava/Praha
    Rozbalit Rozbalit vše Re: Wordcloud z dat z Facebooku
    Q je sfině, to ví každý, a S je moc nacistický - ještě ti přileze jedno a jsi v prdeli...
    Vivre libre ou mourir!
    26.11.2013 17:49 frdrx | skóre: 29 | blog: frdrx
    Rozbalit Rozbalit vše Re: Wordcloud z dat z Facebooku
    R je to co se dnes skutečně používá.
    Patička mi slouží k tomu, abych si lépe poznal svoje příspěvky.

    Založit nové vláknoNahoru

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.