Citat:
Ursprungligen postat av
BästeHrMongolid
Att du befinner dig på den sidan som klankar ner på en intressant innovation men samtidigt på något sätt kan lägga band på dig när tråden översvämmas av dumma inlägg i övrigt gör väl att du lätt hamnar i en viss kategori som inte är så smickrande, ja.

Mitt inlägg var inte bara att "klankade ner" utan jag motiverade också varför. Du har helt rätt i att tråden översvämmas av dumheter, vad nu det har med saken att göra. Detsamma gäller även för artikeln du länkade.
Citat:
Ursprungligen postat av
BästeHrMongolid
Vill du ha en diskussion så får du höja dig ett par snäpp. Välj nivå och jag är där.

Nej, det som krävs för en diskussion med dig är att du kommer med någonting intressantare än vad du gjort hittills i vår lilla "tråd" (d.v.s. inlägg helt utan meningsfull substans).
Men nu är jag på gott humör så jag skall själv fylla på lite mer.
Citat:
This allows the training system to perform "random access" reads. Instead of scanning through a file to find a specific moment in time, the processor reads the header, calculates exactly where that data lives on the disk, and "skips" directly to that memory position. It effectively allows the processor to "teleport" through the data, skipping over gigabytes of irrelevant information.
Detta är inget genombrott. Det är hur indexerade databaser fungerar. Det är hur videofiler med 'MOOV' block fungerar för snabb sökning. Det är fullständigt grundläggande. Att överhuvudtaget söka igenom en fil från början för att hitta rätt är ineffektivt, det är givet. Det är ju visserligen bra att de implementerat detta, men någon ny uppfinning är det inte.
Citat:
This creates a massive inefficiency for AI training: if a supercomputer needs to grab a random batch of 50 frames to train a model, it cannot simply view "Frame 50" in isolation. It often has to find "Frame 1" and mathematically reconstruct frames 2 through 49 just to figure out what Frame 50 looks like. This is wasted computational effort, spending 98% of the GPU's power decoding data it will immediately throw away.
Detta har att göra med skillnaden mellan I-frames och P-frames. En I-frame är en komplett bildruta (vilket motsvaras av Frame 1 i exemplet) medans P konstrueras av tidigare bild + ett slags komprimerat delta. Det gör att man kan behöva processa flera frames. Detta är också anledningen till att det kan ta tid att söka i en videofil (om det är glest mellan dessa I-frames).
Citat:
Tesla's format eliminates both problems by treating video and sensor data like a "Look-Up Table", or a cheat sheet. Because the header contains the exact "Byte Offset" (address) of every data row, the read operation is deterministic. The system doesn't need to scan for newlines or reconstruct previous video frames; it reads the address from the header, jumps instantly to that specific byte on the hard drive, and grabs a perfectly self-contained "bundle" of data.
Oavsett om du har adressen till den specifika bildrutan så kommer man inte undan att göra dekodningen från tidigare frames. Om man nu inte sparar varje bildruta självständigt, men det kommer att ta mer lagringsutrymme, vilket motsägs av att det beskrivs som en 10% besparing.
Man misstänker att de kanske indexerar I-frames istället, vilket inte heller är någonting nytt eller revolutionerande. Här handlar det om att välja olika kompromisser efter behov, men det finns ingenting av substans här som man skulle kunna kalla innovativt.
Citat:
Text-based formats like CSV suffer from a similar "parsing penalty" due to variable row widths. Because the number "100" takes up more characters than "1", every row in a dataset has a different physical length on the disk.
If you tell a computer to "go to Row 1,000,000", it cannot simply teleport there. It is forced to start at Row 1 and scan every single comma and newline character for the first 999,999 rows just to locate where the millionth row begins. This turns a simple retrieval task into a heavy processing job.
Det finns överhuvudtaget ingen som skulle sätta sig och bygga ett system där man parsar igenom en fil med miljontals rader varje gång man vill hitta en särskild rad. Förutom Tesla kanske, eftersom problemet tas upp här

Man slänger in datan i en databas istället och har det indexerat och klart, vilket är precis vad de beskriver.
Bara en absolut nybörjare inom programmering skulle få för sig att koda rad-för-rad parsning av en jättelik CSV om man återkommande behöver hämta specifika rader. Med tanke på hur fantastiska Teslas ingenjörer framställs som av vissa i tråden är det förbluffande att ens läsa om någonting dylikt.
Har man ens en minsta lilla grundläggande kunskap inom algoritmer och tidskomplexitet ser man problemet. Här beskrivs skillnaden mellan linjär sökning O(n) och direkt uppslag O(1). Det här är absolut grundkurs för nybörjare.
Det här är inget nytt, det är första exemplet i första kapitlet i en bok om algoritmer och datastrukturer.
Citat:
This shift from sequential to random access doesn't just look good on paper; it fundamentally changes the physical relationship between the computer's components.
Som sagt, bara någon som aldrig öppnade boken blir förvånad.

. Water is wet.
Citat:
The patent details a clever "columnar" organization strategy within the data rows to further optimize read speeds. Within the data file, different types of data (columns) are not just thrown in randomly; they are strictly arranged based on their data size, from smallest to largest.
Grundläggande. Den stora vinsten här är förbättrad cache-utnyttjande.
Citat:
A unique characteristic of this file format is its strict "read-only" nature (immutability). The patent explains that once these files are generated, they are effectively sealed—never to be edited, appended, or modified again.
Det vore jävligt konstigt ifall de skulle behöva ändra i träningsdata om den nu består av inspelad data. Det går inte ändra på en vinylskiva heller (som de tagit upp som exempel). Data man loggar ändrar man inte i, det är också någonting som är självklart, men här lyfts det som något nyskapande. Hjärnan ruttnar när man läser det.
TLDR
Det är ju jättebra att de optimerat sina system, men det finns ingenting nytt här. Det är sida upp och ner med självklarheter. Det må vara innovativt inom Tesla om de nu aldrig tänkt i de här banorna förut, men det är inte direkt något bidrag till datavetenskapen

. Men jag kan köpa det om nu AI scriptkidsen aldrig tagit sig en funderare förut på hur man får ut bra prestanda ur sina system.