Jag indexerar lagligt åtkomna upphovsrättsskyddade böcker i en RAG-databas för en öppen AI-chattbot. Användaren ser bara korta chunks på 500 tecken per fråga. Ingen kan rekonstruera hela verket.
OpenAI tränade sina modeller på hela internet utan tillåtelse – datan inbakad i vikter. Men RAG lagrar faktiska chunkar av copyrightskyddad text.
Är det här ens lagligt? Citaträtt? Eller är det kopiering oavsett exponering?
Någon som har koll på svensk/EU-rätt i praktiken?