Öppen twitterdata för studier och experiment kring exempelvis #metoo

twitternätverk

Under åren 2015-2017 samlades tweets löpande in från drygt 200.000 svenska Twitterkonton via Twitters öppna API. Syftet var att följa en och samma population användare och skapa ett laboratorium för studier av hur kulturella fenomen sprider sig mellan grupper av människor över tid. Under tidsperioden inträffade framförallt flyktingkrisen 2015, det amerikanska presidentvalet och #metoo. Nu finns datan tillgänglig under fri licens på Open Science Framework respektive på NLP-verktyget Korp från Språkbanken vid Göteborgs Universitet.

Nätverksgrafer

Den som vill göra experiment, analyser eller vidare forskning kan nu ladda ner färdiga nätverk i form av picklade networkx-nätverk bestående av riktade omnämnanden mellan konton brutet per månad från januari 2015 till december 2017.

Ordvektorer (word embeddings)

Med hjälp av Python-biblioteket Gensim byggdes även två ordrymder (word embeddings) upp baserat på tweets. Totalt används över 40 miljoner tweets innehållande över 440 miljoner ord, varav drygt 7 miljoner ord var unika. Hashtags, URL:ar och omnämnanden av andra twitterkonton togs bort innan ordrymderna skapades.

Träningsdata för psykologisk textanalys

Datan från drygt 22.000 enkätsvar från Typealyzer.com med Myers-Briggs typ tillsammans med en blogg-URL kan också laddas ner och användas fritt. Texterna är på engelska och körda genom LIWC 2007 och uppbrutna på Jungianska kognitiva funktioner. En förenklad version finns även publicerad på Kaggle.com.

Utöver detta finns manuellt utvalda bloggtexter på engelska för träning av klassificering av humör/sinnestillstånd att ladda ner. Träningsdatan utgörs av knappt 150 exempel på vardera klass ”öppen/uppåt” respektive ”stängd/nerstämd”.

För att kunna använda de klassificerare du bygger på ovanstående material på svenska texter rekommenderar jag att du använder uClassifys översättnings-API som är prisvärt och fungerat bra för mig i mina experiment. Särskilt användbart har det varit för att kunna köra orden i LIWC 2007 på svenska texter, en metod jag blev rekommenderad av James W. Pennebaker själv! Enligt honom behålls det som han och hans forskarkollegor betecknar som funktionsord väl i automatisk översättning, vilket är grunden för deras psykologiska arbete.

Tack

Ett stort tack till Mikael Huss och Jon Kågström för råd och dåd genom åren. Ni är föredömen! Stort tack även till alla som deltagit på ett eller annat sätt i Svenska Metamemetiska Sällskapet (f.d. Sv. Memetiska Sällsk.). Ni är fint bildade och humanistiskt sinnade hedersknyfflar allihopa! Även den late utvecklaren Råbärt som i över 5 års tid skrivit oanvänd kåd, bland annat i Erlang (!) för att räkna ord i detta syfte förtjänar ett varmt tack, framförallt för att du varnade mig för hur eländig tillvaron kan vara som programmerare för pengar.

Så kan medie- och kommunikationsvetenskap utvecklas med memetik

theres always a bigger fish

Richard Dawkins begrepp memetik som han presenterade i boken The Selfish Gene år 1976 möttes inte av någon entusiasm i akademiska kretsar. Inte ens han själv tycks ha varit någon större entusiast genom åren.  På Richard Dawkins Foundations webbplats finns en text som träffsäkert beskriver hur memetik mottagits: Fortsätt läsa ”Så kan medie- och kommunikationsvetenskap utvecklas med memetik”

Språkklassificering av Myers-Briggs del 5: Slutsats; Jung var nåt på spåren, men…

Del 1:  Kan man förutsäga Myers-Briggs personlighetstyp från bloggtexter?

Del 2:  En lömsk bugg och stora förbättringar!

Del 3: Toppresultat med två klasser!

Del 4 : För bra för att vara sant, tyvärr

Del 6: Postmodern kritik

Det är mycket svårt att dra några långtgående slutsatser av resultaten bortom det uppenbara, det vill säga att för just detta dataset, bearbetat på just detta sätt, insamlat på just detta sätt och klassificerat med just uClassify.coms konstfullt tweakade Naiva-Bayesiska klassificerare så fick vi ut dessa mätvärden. Den tråkiga, men nödvändiga, delen av vetenskaplighet. Min tolkning av de faktiska resultaten är de visar att det faktiskt ligger något i Jungs teori om personlighetstyper. 57-58% pricksäkerhet att förutspå kognitiv funktion är trots allt bättre än den 50% slumpen. Det finns en signal i bruset, om än svag. Fortsätt läsa ”Språkklassificering av Myers-Briggs del 5: Slutsats; Jung var nåt på spåren, men…”