Wordcloud z dat z Twitteru

Přihlášení | Registrace

napište » Zprávičky

Botnet Aisuru prolomil další "rekord". DDoS útok dosáhl 29,7 Tbps

dnes 13:22 | IT novinky

Nájemný botnet Aisuru prolomil další "rekord". DDoS útok na Cloudflare dosáhl 29,7 Tbps. Aisuru je tvořený až čtyřmi miliony kompromitovaných zařízení.

Ladislav Hagara | Komentářů: 0

Iced 0.14.0

dnes 12:11 | Nová verze

Iced, tj. multiplatformní GUI knihovna pro Rust, byla vydána ve verzi 0.14.0.

Ladislav Hagara | Komentářů: 2

FEX 2512. Vývoj FEXu sponzorován společností Valve

dnes 05:22 | Komunita

FEX, tj. open source emulátor umožňující spouštět aplikace pro x86 a x86_64 na architektuře ARM64, byl vydán ve verzi 2512. Před pár dny FEX oslavil sedmé narozeniny. Hlavní vývojář FEXu Ryan Houdek v oznámení poděkoval společnosti Valve za podporu. Pierre-Loup Griffais z Valve, jeden z architektů stojících za SteamOS a Steam Deckem, v rozhovoru pro The Verge potvrdil, že FEX je od svého vzniku sponzorován společností Valve.

Ladislav Hagara | Komentářů: 0

Flowblade 2.24

dnes 03:22 | Nová verze

Byla vydána nová verze 2.24 svobodného video editoru Flowblade (GitHub, Wikipedie). Přehled novinek v poznámkách k vydání. Videoukázky funkcí Flowblade na Vimeu. Instalovat lze také z Flathubu.

Ladislav Hagara | Komentářů: 0

Proton Sheets v Proton Drive

včera 15:11 | IT novinky

Společnost Proton AG stojící za Proton Mailem a dalšími službami přidala do svého portfolia online tabulky Proton Sheets v Proton Drive.

Ladislav Hagara | Komentářů: 1

EmacsConf 2025

6.12. 15:55 | Komunita

O víkendu (15:00 až 23:00) probíha EmacsConf 2025, tj. online konference vývojářů a uživatelů editoru GNU Emacs. Sledovat ji lze na stránkách konference. Záznamy budou k dispozici přímo z programu.

Ladislav Hagara | Komentářů: 0

Wikipedia jedná s technologickými giganty o zpoplatnění dat pro AI

6.12. 15:44 | Komunita

Provozovatel internetové encyklopedie Wikipedia jedná s velkými technologickými firmami o uzavření dohod podobných té, kterou má s Googlem. Snaží se tak zpeněžit rostoucí závislost firem zabývajících se umělou inteligencí (AI) na svém obsahu. Firmy využívají volně dostupná data z Wikipedie k trénování jazykových modelů, což zvyšuje náklady, které musí nezisková organizace provozující Wikipedii sama nést. Automatické programy

… více »

Ladislav Hagara | Komentářů: 28

Unijní pokuta pro síť X je útok na americký lid, řekl ministr zahraničí

6.12. 15:22 | IT novinky

Evropská komise obvinila síť 𝕏 z porušení unijních pravidel, konkrétně nařízení Evropské unie o digitálních službách (DSA). Vyměřila jí za to pokutu 120 milionů eur (2,9 miliardy Kč). Pokuta je podle názoru amerického ministra zahraničí útokem zahraničních vlád na americký lid. K pokutě se vyjádřil i americký viceprezident: „EU by měla podporovat svobodu projevu, a ne útočit na americké společnosti kvůli nesmyslům“.

Ladislav Hagara | Komentářů: 26

Jolla Phone

5.12. 17:11 | IT novinky

Společnost Jolla spustila kampaň na podporu svého nového telefonu Jolla Phone se Sailfish OS. Dodání je plánováno na první polovinu příštího roku. Pokud bude alespoň 2 000 zájemců. Záloha na telefon je 99 €. Cena telefonu v rámci kampaně je 499 €.

Ladislav Hagara | Komentářů: 30

Netflix kupuje Warner Bros. včetně HBO Max a HBO

5.12. 15:11 | IT novinky

Netflix kupuje Warner Bros. včetně jejích filmových a televizních studií HBO Max a HBO. Za 72 miliard dolarů (asi 1,5 bilionu korun).

Ladislav Hagara | Komentářů: 2

Centrum | Napsat | Starší

navrhněte » Anketa

Jaké řešení používáte k vývoji / práci?

Github (34%)

Gitlab (48%)

Atlassian (19%)

Bitbucket (17%)

Gitea (22%)

Mercurial (15%)

jen git (24%)

jen svn (16%)

Jiné (uvedu v diskusi) (18%)

Celkem 440 hlasů

Komentářů: 18, poslední 2.12. 18:34

Rozcestník

AbcLinuxu

HDmag.cz

pools - Svědek Damdogův

Sem tam mě něco(někdo) napadne, nebo nasere tak to sem postnu, no...

Aktuální zápisy

? Archív

? Současný desktop

? Navigace

Nej blogů na AbcLinuxu

Nejčtenější za poslední měsíc

Nejkomentovanější za poslední měsíc

AbcLinuxu:/ Blogy / Svědek Damdogův / Stunome / Wordcloud z dat z Twitteru

Štítky: ano, api, bez, certifikat, CSV, cURL, data, děti, digital humanities, download, Facebook, chyby, Internet, měření, NAS, nastavení, návod, pole, problém, převod, přihlášení, síť, společnost, token, Twitter, Windows

Wordcloud z dat z Twitteru

10.2.2014 10:25 | Přečteno: 701× | Stunome

Dnes si zopakujeme základy z blogu Wordcloud z dat z Facebooku, tentokráte se ale podíváme na právě probíhající olympiádu a stáhneme si z Twitteru nějaká ta data o hashtagu #zoh2014! A aby toho nebylo málo, použijeme na vykreslení místo tradičního Rka Tagul.

Twittere kde tě mám

Jestli někdo tvrdí, že Facebook je evil, pravděpodobně nic neví o Twitteru. Sociální síť, která je podle mnohých spíše protokol, vznikla na otevřenosti a podpoře stovek neoficiálních klientů. A copak se nestalo po tom co měla dostatečný market share? Ano děti, hádáte správně - s příchodem API v 1.1 byl konec s jakoukoliv otevřeností, místo toho přišlo strašlivé přihlašování přes OAUth a konec většiny neoficiálních klientů a Twitter tím podle mého překonal i tak "evil" společnost jakou je Facebook.

K přístupu do Twitter API je nyní tedy potřeba vytvořit si aplikaci s pokud možno co nejvyšším oprávněním. Tu vytvoříme na adrese apps.twitter.com, pod tlačítkem Create New App. Vyplňte jen povinné pole, rozhodně nevyplňujte Callback adresu. Occess level doporučuji "Read, write, and direct messages" < při slabším mi většina dotazů házela Not Authorized, ale je možné, že sem měl chybu i někde jinde. S tím jak se Twitter API mění je takřka nemožné najít na internetu na 100 % funkční návod.

Po vytvoření aplikace nás zajímá především záložka API keys a hodnoty API key a API secret, které použijeme v Rku pro generování přístupového tokenu.

R, R, R!

Potřebné balíčky nejprve nainstalujeme a následně načteme:

install.packages("ROAuth")
install.packages("twitteR")
install.packages("wordcloud")
install.packages("tm")
 
library("ROAuth")
library("twitteR")
library("wordcloud")
library("tm")

Pro ty z vás, kteří nedejbože používají Rko na Windows je nezbytné stáhnout certifikát, a jelikož mi CUrl házel nějaké neurčité chyby ohledně přístupu k /etc/ssl/certs, tak jsem byl tento postup nucen také použít:

download.file(url="http://curl.haxx.se/ca/cacert.pem", destfile="cacert.pem")

Teď jedna z nejdůležitějších částí, vytvoření OAuthFactory a její nastavení. Zde byl problém především v tom, že ve většině návodů byly cesty bez https, pouze jako http, což nyní nefunguje, ale vrací po handshaku neurčitou chybu "Unauthorized". Nezapomeňte nahradit API_key a API_secret za vaše hodnoty:

cred <- OAuthFactory$new(consumerKey='API_key',
consumerSecret='API_secret',
requestURL='https://api.twitter.com/oauth/request_token',
accessURL='https://api.twitter.com/oauth/access_token',
authURL='https://api.twitter.com/oauth/authorize')

A teď to příjde, handshake:

cred$handshake(cainfo="cacert.pem")

Tento příkaz vygeneruje url s access_tokenem, která vám vrátí PIN, který musíte napsat do Rka. Jakmile přihlášení projde, uložte si token na horší časy:

save(cred, file="twitter_auth.Rdata")

Poté stačí už jen zaregistrovat OAuth, což vypíše něco jako TRUE:

registerTwitterOAuth(cred)

A můžeme se směle vrhnout na tahání dat, což je to jediné co nás zajímá, že. Budeme chtít stáhnout všechny twíty například z 8. 2. obsahující hashtag #zoh2014. Bude tedy třeba vyplnit parametry od, do - ty se vyplňují jako since a until, since nastaveníme na 8. 2., until pak na 9. 2. (který tam pak nebude):

r_stats <- searchTwitter("#zoh2014", n=3000, cainfo="cacert.pem", since='2014-02-08', until='2014-02-09')

A teď už jen převod na corpus, čištění a spočtení frekvence:

r_stats_text <- sapply(r_stats, function(x) x$getText())
r_stats_text_corpus <- Corpus(VectorSource(r_stats_text))
r_stats_text_corpus <- tm_map(r_stats_text_corpus, tolower)
r_stats_text_corpus <- tm_map(r_stats_text_corpus, removePunctuation)
r_stats_text_corpus <- tm_map(r_stats_text_corpus, function(x)removeWords(x,stopwords()))

ap.tdm <- TermDocumentMatrix(r_stats_text_corpus)
ap.m <- as.matrix(ap.tdm)
ap.v <- sort(rowSums(ap.m), decreasing=TRUE)
ap.d <- data.frame(word = names(ap.v), freq=ap.v)
write.table(ap.d, file="zoh2014.csv", append=FALSE, sep= "\t")

V tomto bodě opustíme R a vydáme se do Tagulu.

Proč Tagul?

Tagul je jendoduchý nástroj na wordcloudy, který má jednu zajímavou vlastnost: dokáže vyplnit wordcloudem obrázek, který mu připravíte. Zvládá od jednoduchých tvarů přes jakkoliv složité obrysy a má tu vlastnost, že používá barvu pozadí obrázku, který mu předhodíte. Z vygenerovaného CSV z posledního kroku v Rku si tedy zkopírujeme třeba posledních 150 slov a vložíme je do Tagulu. Dále si seženeme nějakou fotku, u kterou si podle potřeby upravíme. V našem případě to byly Olympijské kruhy, které jsem zvektorizoval a nastavil jednolitou barvu všech kruhů. Po vykreslení tedy dostaneme toto: