Vinnaren i pepparkakshustävlingen!
2017-12-03, 14:33
  #1
Medlem
https://spraakbanken.gu.se/swe/forskning/infrastruktur/korp/meningsmangder
Citat:
Meningarna har kastats om av upphovsrättsliga skäl. Det betyder att meningarna har en slumpmässig ordning för att originaltexterna inte ska gå att återskapa.
Det stämmer att meningarna är omkastade, men för varje mening har också ett unikt id sparats som avslöjar vilket inlägg och vilken tråd varje mening tillhör. Det går att återskapa alla inlägg genom att gå igenom alla filer och samla meningar som har samma id. Meningarna kommer att vara i fel ordning i varje enskilt inlägg, men all text är där. Det går att söka i texten, efter ord och användarnamn.

Information som har sparats för varje mening och inlägg är bl.a användarnamn, användar id, forum namn, forum id, tråd namn, tråd id, tid och datum.

Det här är förstås information som redan är öppet tillgängligt för alla, alla kan ju redan läsa allt det här på forumet. Men de har alltså laddat ner alla inlägg, över 50gb med texter och delar med sig av det här. Alla som vill ha en kopia på alla inlägg på forumet kan nu ladda ner det här från Göteborgs Universitet.

Filerna är i xml.bz2 format.
Citera
2017-12-03, 14:38
  #2
Medlem
Blir julpyssel för våldsvänstern att spåra upp enskilda användare baserat på små fragment av information och kännetecknande stavfel och meningsbyggnadar som lämnas i varje inlägg. Vad är annars syftet?
Citera
2017-12-03, 14:48
  #3
Medlem
Citat:
Ursprungligen postat av mitt-namn
Blir julpyssel för våldsvänstern att spåra upp enskilda användare baserat på små fragment av information och kännetecknande stavfel och meningsbyggnadar som lämnas i varje inlägg. Vad är annars syftet?

Precis, maskininlärning... man vill skapa en signatur/tumavtryck på varje användare, man kan med viss sannolikhet identifiera inlägg på andra forum utifrån detta.

Med tanke på omfattningen ett ganska seriöst projekt. Frågan är vad de skall träna sitt nät mot, kan det vara användarna som avslöjades för ett tag sedan?

Lärdom: posta aldrig i eget namn, mejladress eller annan information som kan identifiera dig.

Att kritisera EU och privilegierna för dess politiker och tjänstemannakår kan exempelvis vara belagt med dödsstraff i framtiden...
__________________
Senast redigerad av obisvenkanobi 2017-12-03 kl. 14:56.
Citera
2017-12-03, 15:02
  #4
Medlem
Citat:
Ursprungligen postat av obisvenkanobi
Precis, maskininlärning... man vill skapa en signatur/tumavtryck på varje användare, man kan med viss sannolikhet identifiera inlägg på andra forum utifrån detta.

Med tanke på omfattningen ett ganska seriöst projekt. Frågan är vad de skall träna sitt nät mot, kan det vara användarna som avslöjades för ett tag sedan?

Lärdom: posta aldrig i eget namn, mejladress eller annan information som kan identifiera dig.

Att kritisera EU och privilegierna för dess politiker och tjänstemannakår kan exempelvis vara belagt med dödsstraff i framtiden...

Det här är målet, verifierat mot face book. sedan kunna spåra allt du skriver på nätet.
Citera
2017-12-03, 16:15
  #5
Medlem
Citat:
Ursprungligen postat av mitt-namn
Det här är målet, verifierat mot face book. sedan kunna spåra allt du skriver på nätet.

Identifikationen kan nog bli bra men inte 100%, mer ett hjälpmedel att rikta tyngre övervakningsinsatser...
__________________
Senast redigerad av obisvenkanobi 2017-12-03 kl. 16:21.
Citera
2017-12-03, 16:25
  #6
Medlem
Tror man misstar sig om man tror att detta ska ha någon verkan. Är man värd att spåra är man förmodligen redan indentifierad och spårad av åtminstone en underrättelsetjänst. Tvivlar inte heller på att Google, Facebook, Microsoft, NSA etc. tillsammans kartlagt de flesta av oss, och detta utan att ens behöva använda någon djupinlärning av meningsuppbyggnad osv.
Citera
2017-12-03, 16:28
  #7
Medlem
Klassisk statistisk åsiktsregistrering -
Citera
2017-12-03, 16:34
  #8
Medlem
Citat:
Ursprungligen postat av mitt-namn
Blir julpyssel för våldsvänstern att spåra upp enskilda användare baserat på små fragment av information och kännetecknande stavfel och meningsbyggnadar som lämnas i varje inlägg. Vad är annars syftet?
Och? Sådant ser man ändå om man inte är en krukväxt. Men sedan tillfaller såklart också språk som kulturell yttring vilket exempelvis Flashback skapar. Jag kan ofta avläsa allt oftare Flashbackare på Facebook.

Är ni så otroligt dumma att ni bryr er om er anonymitet och inte har ändrat allt från språk till annat?

Jag gjorde ett medvetet val 2013 när jag gick med att inte rubba något och då har jag mängder med egenheter som borde synas för den som inte är helt bakom, att känna igen. Ja bortsett från all utelämnande information också iofs.

Kul om många av er kommer på och tänker på sådant nu. Det bör man göra redan innan man öppnar konton.
Citera
2017-12-03, 17:04
  #9
Medlem
Citat:
Ursprungligen postat av makullerad
Och?
Vi noterar och kommenterar nyheten. Exakt vad är problemet?

Citat:
Ursprungligen postat av makullerad
Sådant ser man ändå om man inte är en krukväxt. Men sedan tillfaller såklart också språk som kulturell yttring vilket exempelvis Flashback skapar. Jag kan ofta avläsa allt oftare Flashbackare på Facebook.

Jag tror gemene man skiter fullständigt i vad du ser och inte ser. Vi pratar om en systematisk scanning av över 1,1 miljoner konton och konsekvenser av detta (ev. uthängning i media osv). Att du lyckas koppla ihop någon användare med dess indentitet är av liten betydelse. Vi kan ta en sak som t.ex. otrohet. Låt säga att du vet vem det är. Det betyder ju inte per automatik att den drabbade vet, eller hens kompisar. Tror du förstår vart jag vill komma.

Citat:
Ursprungligen postat av makullerad
Är ni så otroligt dumma att ni bryr er om er anonymitet och inte har ändrat allt från språk till annat?

Jag gör inget olagligt så jag skiter i vilket. Säkert är det många som glider på sanningen av nämnda skäl men jag tror att väldigt få personer ändrar sitt säregna sätt att skriva längre texter.

Citat:
Ursprungligen postat av makullerad
Jag gjorde ett medvetet val 2013 när jag gick med att inte rubba något och då har jag mängder med egenheter som borde synas för den som inte är helt bakom, att känna igen. Ja bortsett från all utelämnande information också iofs.

kul för dig

Citat:
Ursprungligen postat av makullerad
Kul om många av er kommer på och tänker på sådant nu. Det bör man göra redan innan man öppnar konton.

Vi har inte kommit på någonting. Det är en nyhet som diskuteras.
Citera
2017-12-03, 17:25
  #10
Medlem
XaoqcHs avatar
Om korpuset används i för AI-forskning kommer vi få se världens första efterblivna AI med aggressionsproblem och paranoid personlighet. Grattis oss, antar jag.
Citera
2017-12-03, 17:45
  #11
Avslutad
Citat:
Ursprungligen postat av mitt-namn
Vi noterar och kommenterar nyheten.

Spelar förvisso ingen större roll här, men det är väl egentligen ingen "nyhet"? Sidan som länkas uppdaterades eller skapades 2017-04-27, och mig veterligen har de haft flashback sökbar på Spraakbanken i flera år. (Kanske dock inte så du kan ladda ner den -- jag är ingen dataperson, så jag kanske missar några viktiga nyanser här.)
Citera
2017-12-03, 18:19
  #12
Moderator
Allaballawallas avatar
Det är garanterat ingen fara.

Det finns inget i språkbanken som inte finns på Flashback men det finns saker på Flashback som inte finns i språkbanken... Om man inte är intresserad av att kolla språkstatistik eller motsvarande och inte heller har något direkt grepp om hur "Korp" fungerar eller används till har man ingen direkt glädje av att materialet även finns där...

Jag har använt det där en hel del själv och ser det snarare som något som stärker Flashback Forum än något annat (Visar tydligt på bredden och massan av text som finns här.).
Citera
  • 1
  • 2

Skapa ett konto eller logga in för att kommentera

Du måste vara medlem för att kunna kommentera

Skapa ett konto

Det är enkelt att registrera ett nytt konto

Bli medlem

Logga in

Har du redan ett konto? Logga in här

Logga in