Öppen twitterdata för studier och experiment kring exempelvis #metoo

twitternätverk

Under åren 2015-2017 samlades tweets löpande in från drygt 200.000 svenska Twitterkonton via Twitters öppna API. Syftet var att följa en och samma population användare och skapa ett laboratorium för studier av hur kulturella fenomen sprider sig mellan grupper av människor över tid. Under tidsperioden inträffade framförallt flyktingkrisen 2015, det amerikanska presidentvalet och #metoo. Nu finns datan tillgänglig under fri licens på Open Science Framework respektive på NLP-verktyget Korp från Språkbanken vid Göteborgs Universitet.

Nätverksgrafer

Den som vill göra experiment, analyser eller vidare forskning kan nu ladda ner färdiga nätverk i form av picklade networkx-nätverk bestående av riktade omnämnanden mellan konton brutet per månad från januari 2015 till december 2017.

Ordvektorer (word embeddings)

Med hjälp av Python-biblioteket Gensim byggdes även två ordrymder (word embeddings) upp baserat på tweets. Totalt används över 40 miljoner tweets innehållande över 440 miljoner ord, varav drygt 7 miljoner ord var unika. Hashtags, URL:ar och omnämnanden av andra twitterkonton togs bort innan ordrymderna skapades.

Träningsdata för psykologisk textanalys

Datan från drygt 22.000 enkätsvar från Typealyzer.com med Myers-Briggs typ tillsammans med en blogg-URL kan också laddas ner och användas fritt. Texterna är på engelska och körda genom LIWC 2007 och uppbrutna på Jungianska kognitiva funktioner. En förenklad version finns även publicerad på Kaggle.com.

Utöver detta finns manuellt utvalda bloggtexter på engelska för träning av klassificering av humör/sinnestillstånd att ladda ner. Träningsdatan utgörs av knappt 150 exempel på vardera klass ”öppen/uppåt” respektive ”stängd/nerstämd”.

För att kunna använda de klassificerare du bygger på ovanstående material på svenska texter rekommenderar jag att du använder uClassifys översättnings-API som är prisvärt och fungerat bra för mig i mina experiment. Särskilt användbart har det varit för att kunna köra orden i LIWC 2007 på svenska texter, en metod jag blev rekommenderad av James W. Pennebaker själv! Enligt honom behålls det som han och hans forskarkollegor betecknar som funktionsord väl i automatisk översättning, vilket är grunden för deras psykologiska arbete.

Tack

Ett stort tack till Mikael Huss och Jon Kågström för råd och dåd genom åren. Ni är föredömen! Stort tack även till alla som deltagit på ett eller annat sätt i Svenska Metamemetiska Sällskapet (f.d. Sv. Memetiska Sällsk.). Ni är fint bildade och humanistiskt sinnade hedersknyfflar allihopa! Även den late utvecklaren Råbärt som i över 5 års tid skrivit oanvänd kåd, bland annat i Erlang (!) för att räkna ord i detta syfte förtjänar ett varmt tack, framförallt för att du varnade mig för hur eländig tillvaron kan vara som programmerare för pengar.

Alternativ Twitterranking visar att massmedia-eliten dominerar även på Twitter

Twitter mätt som samtalsnätverk visar tydligt att den absoluta toppen av twittereliten också är medieelit, särskilt den delen som ger sin åsikt om politiska nyheter.  Men det finns några intressanta undantag, såsom författaren och bloggaren Lars Wilderäng som för ett års sedan i en bloggkommentar till forskning om Twitter och allmän opinion att ”Twitter innebär samma mediestrukturer som annars”. Om det ligger nåt i nätverksanalys kan han alltså vara en av ett intressant fåtal individer som har ett inflytande jämförbart med massmedier, åtminstone på Twitter.

Fortsätt läsa ”Alternativ Twitterranking visar att massmedia-eliten dominerar även på Twitter”