Kan man förutsäga Myers-Briggs personlighetstyp från bloggtexter?

Detta är del 1 i en serie experiment jag publicerar löpande. 

Del 2: en lömsk bugg och stora förbättringar!

Del 3: Toppresultat med två klasser!

Del 4: För bra för att vara sant, tyvärr

Del 5: Jung var nåt på spåren, men...

Del 6: Postmodern kritik

2008 skapade jag och Jon Kågström en gratistjänst för automatisk klassificering av Myers-Briggs typ av bloggar som heter typealyzer.com. Sedan starten har sidan haft närmare en halv miljon unika besökare. I Augusti 2012 införde vi möjligheten för besökarna att berätta om den automatiska klassificeringen stämde genom att uppge sin Myers-Briggstyp. Nyligen laddade jag ner den survey-datan och det visade sig att 27,959 svar hade inkommit! Jag hade klentroget sagt till Jon att vi väntar tills vi fått in 2000 svar, en siffra som verkade helt osannolik när vi började – sen gick åren och jag mer eller mindre glömde bort filen. Tills nu.

Efter lite programmatisk datatvätt och städ av orginaldatan kunde jag publicera ett fritt dataset med 20,708 bloggtexter annoterade med Jungs psykologiska funktioner från användarens uppgivna Myers-Briggs personlighetstyp. Det är de grundläggande beståndsdelarna i personlighetstypen, de som utgör bokstäverna S,N,T,F i exempelvis personlighetstyperna INTJ eller ESFP.

Här är ett första inledande experiment för att se om det går att förutsäga personlighetstyp baserat på texterna i datasetet.

Stegen i experimentet:

  • Kolla hur många texter det fanns för varje kognitiv funktion/kategori
  • Sampla/välja ut ett jämnt antal (3000) slumpmässiga texter från varje kategori
  • Skapa en klassificerare med hjälp av uClassify.coms API.
  • Träna klassificeraren att känna igen de fyra kategorierna med 2100 exempel från vardera kategori.
  • Låta klassificeraren klassificera de resterande 900 texterna
  • Utvärdera hur bra klassificeraren fungerade genom att jämföra vad användaren uppgett för dominant kognitiv funktion i de 900 texterna i varje kategori respektive vad klassificeraren kom fram till baserat på språkstilen.

Hur gick det?

Resultatrapporten visar att klassificeraren inte lyckades så bra alls på att förutsäga användaren kognitiva funktioner.

Att det inte gick så bra för klassificeraren kan dels bero på att det enligt Jungs teori ska vara två klassificerare. En för dikotomin sensing (s) vs intuition (n) respektive en för dikotomin thinking (t) vs feeling (f). Det behöver också prövas.

Utöver det har ingen som helst förbehandling av texterna gjorts ännu för att försöka ta bort brus och urskilja meningsfulla signaler i språkbruket. Det är också ett rimligt nästa steg.

Den kanske mest intressanta möjliga förklaringen är att de som skickat in sin (eller personen som skrivit bloggen och som de känner till) inte har ett bra grepp om sin (dennes) faktiska personlighetstyp. Personlighetstyps-tester, särskilt sådana som en finner på nätet, är notoriskt svåra att svara enhetligt på. En bra sammanfattning av problematiken kan ni läsa om på bloggen Thought Catalogue. I så fall är det möjligt att det är bättre att analysera en persons språk sett över en längre tid än att denne gör ett personlighetstest. Då faller idén med att träna på dataset som detta.

Istället bör en då utgå från psykologiska ordlistor såsom exempelvis den främsta psykologiska ordlistan, kallad LIWC, som är skapad av James W. Pennebakers team vid University of Austin, Texas. Metoden att utgå från generella och på förhand definierade mönster för språk ligger till grund för en, relativt den helt data-drivna maskininlärningen, relativt  stor del av dagens forskning  om dataanalys av språkstil för personlighetsbedömning.

Även metodiken att analysera korrelation mellan befintliga psykologiska ordlistor såsom LIWC och de uppgivna kognitiva funktionerna bör alltså testas.

Här kan ni ta del av experimentet

Ett svar på ”Kan man förutsäga Myers-Briggs personlighetstyp från bloggtexter?”

Kommentarer kan inte lämnas på detta inlägg.