https://spraakbanken.gu.se/swe/forskning/infrastruktur/korp/meningsmangder
Citat:
Meningarna har kastats om av upphovsrättsliga skäl. Det betyder att meningarna har en slumpmässig ordning för att originaltexterna inte ska gå att återskapa.
Det stämmer att meningarna är omkastade, men för varje mening har också ett unikt id sparats som avslöjar vilket inlägg och vilken tråd varje mening tillhör. Det går att återskapa alla inlägg genom att gå igenom alla filer och samla meningar som har samma id. Meningarna kommer att vara i fel ordning i varje enskilt inlägg, men all text är där. Det går att söka i texten, efter ord och användarnamn.
Information som har sparats för varje mening och inlägg är bl.a användarnamn, användar id, forum namn, forum id, tråd namn, tråd id, tid och datum.
Det här är förstås information som redan är öppet tillgängligt för alla, alla kan ju redan läsa allt det här på forumet. Men de har alltså laddat ner alla inlägg, över 50gb med texter och delar med sig av det här. Alla som vill ha en kopia på alla inlägg på forumet kan nu ladda ner det här från Göteborgs Universitet.
Filerna är i xml.bz2 format.