Faktiskt skulle det fungera hyffsat. Speciellt med den mängd data (trådar/inlägg) som flashback får in.
Det fungerar helt enkelt såhär:
Man skapar en bot som har "buckets". Hinkar där regelbrott och tillåtna inlägg läggs. Givetvis kommer hinken för tillåtna inlägg bli full på nolltid.
Detta kan fungera genom att mod måste då välja om inlägget är ett regelbrott eller inte och sedan läggs inlägget i den hinken.
Det fungerar såhär, att om 9 inlägg med ordet "piratkort" klassificeras som regelbrott enligt 1.02, och 1 inlägg med ordet "piratkort" klassificeras som regelbrott enligt 0.00 (inget regelbrott).
så kan chansen för att ett inlägg som innehåller ordet "piratkort", att det skulle vara ett regelbrott enligt 1.02, räknas ut enligt följande formel:
C = S/T
där S är antal inlägg som klassificerats som regelbrott mot 1.02 av moderator, som innehåller ordet "piratkort", och T är totala antalet inlägg på forumet.
C skullle i så fall i detta fall bli 0.9
Detta räknas ut för varje ord, och multipliceras ihop (C1 * C2 * C3 * CN .... )
Givetvis måste inlägget normaliseras först, det betyder att man gör alla bokstäver gemener, tar bort alla tecken som inte är a-ö och mellanrum, och även gör lite replaces, tex 0 till o, vissa skiljetecken byts mot mellanrum m.m. som användare kan använda för att kringgå filtret.
Även dubletter av ord måste tas bort.
Det normaliserade inlägget publiceras aldrig, utan det normaliserade inlägget används bara för klassificeringen.
Det betyder att, i databasen, för varje ord måste man ha en rad som innehåller siffervärden för alla regler samt alla subforum.
-----
Slutvärdet är ett värde mellan 0 till 1, för varje inlägg och för varje regel. Den regel som har högst värde, är det regelbrott inlägget faller inom. (0.00 = ej regelbrott)
Tex om ett inlägg får värdet 0.1 för 0.00, 0.8 för 1.02, och 0.3 för 1.03 så är inlägget ett regelbrott mot 1.02 och man kan autobanna användaren
Samma med forumval. Detta skulle tillochmed leda till att man inte behöver välja vilket forum man vill lägga tråden i, utan man bara skriver tråden i en ruta på flashbacks förstasida så hamnar tråden rätt automatiskt.
Som sagt, detta system skulle då kunna vara självlärande, genom att moderatorer i moderatorpanelen väljer vad man vill klassificera inlägget som. Sedan efter tid så lär sig systemet (genom att uppdatera siffervärderna i databasen) vad som är regelbrott och inte.
I runda slängar krävs ungefär 10 000 inlärda trådar/inlägg i varje hink för att det ska bli tillräckligt exakt.
Vill man ha precisare moderering, så kan man istället lagra ordpar. Men då krävs i stort sett 100 000 inlärda trådar/inlägg per hink. Ju fler ju bättre.
Om boten modererar fel så kan moderator lätt korrigera boten varefter ordvärderna i databasen uppdateras.
Det är heller inget större extrajobb för moderator. Mod behöver bara, när dem har lite tråkigt, gå runt och klicka på knappar som markerar att inlägget ej är regelbrott och ej är felplacerat. (så att värderna för forumval och hink 0.00 kan uppdateras med orden som finns i det inlägget)
När mod låser för regelbrott eller flyttar felplacerad tråd, så behöver mod bara fylla i 2 listrutor för vilket regelbrott och vilken forum tråden hör hemma i.
Efter sisådär 6 månader är boten sedan fulltränad, man kan sjösätta boten försiktigt och övervaka noga vad för varningar/avstängningar boten ger ut och vad för inlägg boten petar på.
Ser det bra ut i ytterligare 6 månader säger man "adjöss" till alla mods. forumet blir sedan självmodererande.
Enda gången mods behöver sättas in igen är vid regeländringar, då måste man tömma (nolla) hela den hinken för just den regeln som ändrades, och sedan träna upp hinken för regeln igen.
Lite mer om hur just denna maskininlärningsalgoritm fungerar kan man läsa här:
http://en.wikipedia.org/wiki/Bayesian_spam_filtering
Skulle vara utmärkt. Det är också 100% rättvist då det är moderatorerna som talar om för boten hur den ska moderera genom att klassificera inlägg, och sedan har boten lärt sig på egen hand.
Boten med andra ord, är stendum månad 0 och skulle varna hejvilt, men när boten fått cruncha lite data i 6 månader så kommer boten vara typ lika smart som 2 moderatorer tillsammans. (Därför sjösätter man inte boten, dvs aktiverar dess modfunktioner - förrens boten är tillräckligt lärd)
OT kan till exempel fixas genom att man klassificerar in trådar och inlägg i ett specifikt ämne (datorer, bilar, hus, lås, programvara, datorer, säkerhet m.fl. - krävs flera hundra ämnen) etc. och om trådstartens klassificerade ämne inte matchar det postade inläggets ämne är det OT.
Samma med passande rubrikval.