Citat:
Ursprungligen postat av
-dev
Det var väl en del som frågade om varför alla serverhallar byggs så jag förklarar, för det är så lätt att ha sin egen lokala AI. Många företag väljer att ha lokala installationer för det är mer eller mindre vansinne att använda molnet eftersom AI där tar all information den får.
Det fungerar liksom inte på något plan
Fast så är det väl inte riktigt? Ja det går köra AI modeller lokalt men det är få företag och än mindre privatpersoner som har utrustning att driva de största modellerna på marknaden, det är hundratusentals kronor i bara hårdvara sen en löpande driftkostnad med allt vad det innebär.
De allra flesta köper inferens det är helt enkelt enda realistiska vägen att drifta någon produkt eller labba runt med AI på egen hand.
Men du har rätt att integritet osv är en faktor som många ignorerar helt och medan jag inte tror det görs någon större insamling på just API endpoints (för varför ska man? Det är inte direkt kvalitetsdata vare sig in eller ut) men däremot alla som betalar för ChatGPT, Claude, Gemini osv kan ju känna sig rätt blåsta för här har du riktig strukturerad konversationsunderlag att träna på och är användaren dessutom extra dum så har den också tryckt "tumme upp" eller "tumme ner" på svaren så det direkt går sila ut mänskligt bedömd "kvalitetsdata".
Edit:
Kanske borde gjort det tydligt också att beräkningskapacitet som behövs för modeller ökar linjärt med modellens storlek och storleken gör det snabbt väldigt kostsamt också. Används dense modeller så behövs det beräknas på varenda vikt i modellen så det blir en enorm minnestrafik och enda sättet att överhuvudtaget få någon hastighet i detta är att alla vikter ligger i grafikkortetsminne.
Titta vad RTX 5090 osv kostar och de har ändå bara 32GB minne, vilket i bästa fall räcker till en relativt liten 27b modell eller något med kanske 256k kontext fönster som i sig behöver massvis med minne.
För väldigt specifika produkter kan det kanske gå träna/finetuna mindre modeller men det i sig, alltså finetuning/träning kräver än värre hårdvara, där ökar det kvadratiskt med modellstorleken.