Vinnaren i pepparkakshustävlingen!
2007-12-27, 16:34
  #1
Medlem
lone_wolfs avatar
Hej,

Finns det någon algoritm eller metod så att man kan jämföra två anonyma svenska texter och dra en slutsats om hur sannolikt de har samma författare?

Vi har besvär med troll på ett forum och skulle vilja ha en "early warning" metod för se när de reggar sig och börjar skriva med nya nick.

Den hör frågan kanske går under matematik/vetenskap, men testar här först ifall det finns lingvistiska metoder.

/lone_wolf
Citera
2007-12-29, 03:41
  #2
Medlem
Kärlekskranks avatar
Jag skulle tippa att alla tänkbara lingvistiska metoder är rätt omständliga, men om du har ett stort textunderlag att luta dig mot borde resultaten bli goda. Om textunderlaget dessutom är foruminlägg, skrivna i stundens hetta, är det än bättre. Dessa kommer då troligen att innehålla en mängd återkommande språkliga egenheter.

Om vi tänker oss att någon skribent (XXX) vanhedrar dig bakom anonymitetens slöja, och om vi också tänker oss att du misstänker vem det är och har tillgång till några texter som den misstänkte skrivit under sitt riktiga namn (YYY), skulle en rudimentär analys kunna gå till så här:

1. Langa in alla, eller i vart fall en ansenlig mängd, av XXXs inlägg i ett Word-dokument – räkna med att du behöver minst 20 000 ord. Detta är ditt referensmaterial. Sök sedan igenom YYYs texter på jakt efter lingvistiska fingeravtryck. Alla skribenter lämnar drivor av sådana, det handlar bara om att hålla ögonen öppna. Tänkbara fingeravtryck är exempelvis att denne har en tendens att regelbundet (över)använda sig av särskilda ord, uttryck eller ordkombinationer (”tattare”, ”bögeri”, ”PK”, ”sjukt”, ”soft”, ”utomordentligt”, ”anmärkningsvärt” – dåliga exempel, men du fattar). Varje sådant fingeravtryck du hittar söker du slutligen efter i referensmaterialet med hjälp av Words sökfunktion. Alla ord som återfinns i båda källorna för dig ett steg närmare målet, såvida du har valt dem med omsorg förstås.

2. Undersök om kommateringen uppvisar några särdrag och om dessa återfinns i båda källorna. Undersök återkommande egenheter som inte går att söka efter enligt (1.) (”de” istället för ”det”, ”dom” istället för ”de/dem”, etc.).

3. (Ej för vanliga dödliga.) Gå ännu mer på djupet: undersök om det finns tendenser att placera exempelvis adverben på ett visst sätt, om meningarna ofta följer ett visst mönster i uppbyggnaden, etc.

Det var nog allt! Det skulle vara grymt intressant att få reda på hur FBIs experter och andra går till väga. Var det inte just lingvistisk analys de använde sig av när de ringade in UNA-bombaren?
Citera

Stöd Flashback

Flashback finansieras genom donationer från våra medlemmar och besökare. Det är med hjälp av dig vi kan fortsätta erbjuda en fri samhällsdebatt. Tack för ditt stöd!

Stöd Flashback