Citat:
Ursprungligen postat av
Cheddarjoe
När de släpper ny modell är den cp bra. Sen sänker dom outputen pga kostar för mkt för dom.
Jag tror det finns helt sinnessjuka modeller som de inte släpper pga kostar för mkt i drift. Så ja, enligt min uppfattning, är det ett energi och kostnadsbesvär som står i vägen för kraften av AI och detta försöker man mitigera genom att göra modellerna smartare för man har nått en flaskhals i tekniken för chip + energi.
Vad får dig att tro att storlek på en modell är samma sak som att den är bättre?
Känner du till ML (Machine Learning)? Modellerna där är inte i närheten, där kan man göra en egen modell till och med. De är så små men ändå bra (om de gjort rätt).
Orsaken till att ML är så mycket enklare är beror på att det finns ett rätt svar. Det handlar alltså inte om subjektiv information utan man vet det rätta svaret.
Ungefär som att 1 + 1 = 2. Det kan aldrig bli något annat än 2
Machine Learning kan ofta producera egen träningsdata just på grund av att de vet det korrekta svaret. Ta schack, det går lätt att träna upp en modell och få den att vinna över varenda schackspelare eftersom de bara kan slumpa ut nya positioner och spela spelet om och om igen samtidigt som de tränar upp modellen. Det finns ett slutligt facit. Någon vinner baserat på specifika regler precis som det finns regler i matte och därför är alltid 1 + 1 = 2.
Deep learning, där vet du inte rätt svar så därför försöker de kompensera med mycket data. Problemet med det är att du får ett genomsnitt. Inom programmering var de första modellerna som kom mycket bra faktiskt, det tror jag beror på en sajt som heter stack overflow. De kunde via den sajten få väldigt bra kvalitet på träningsdata. De gick helt enkelt in och snodde informationen. Efter det har det kommit några sämre alternativ innan det vart bättre igen och vad de kämpar med är kvaliteten på träningsdata.
Finns några mindre modeller som är väldigt bra inom programmering, vet att en modell har ett speciellt rankingsystem för github där de går in och använder data för att träna upp modellen. De behöver därför inte speciellt mycket träningsdata men de behöver jobba en del med att ranka olika projekt på github gissar jag.
Men bara för att en modell är stor så är inte det samma sak som att den måste vara bra