En väldigt förenklad förklaring är att det fungerar så här.
1. Användaren skriver in text
2. Texten tokenizeras (av en vanlig algorithm, tokenisering är alltså att texten delas upp i mindre delar, tex alla mellanslag tas bort "Detta är min mening" skulle kunna resultera i att den delar upp meningen (i programmeringstermer heter det en sträng, till substrängar) "Detta", "är", "min", "mening" sedan slår den upp varje ord i en tabell som innehåller ett numeriskt id (det finns oftast id's för separatorer, start/slut på mening, okända tokens osv också), denna tabell skapas som ett försteg innan man börjar tränar modellen baserat på frekvensanalys utifrån all data man har och exakt hur många och vilka som får ID:n beror på hur stort man vill göra vokabulär osv men låt anta att det redan finns nu..)
3. token sekvensen är nu alltså siffror tex 5,3,2,6 (för sekvensen ovan)
4. Nu positions encodar man och word embeddar sekvensen (detta är vad som kopplar token till vektor representationen)
5. Först nu kommer Transformern in i bilden, token strömmen skickas in till transformern.
6. Varje attention huvud på sitt underliggande "token" (egentligen representationen) för beräknas hur viktiga kringliggande tokens är, detta mer avancerat än det är men vad det egentligen gör är att det fungerar som ett filter. (Det lilla nätverket som vad du frågade om finns här för att vikta filtreringen, det tränas också vid träning av modellen)
7. Resultatet från attention huvudena summeras och skickas genom det stora FNN för att få ut nästa vektor.
8. Och tillslut passas det genom en dekoder för att få det förutspådda tokenet och tillslist så slås token mot tabellen för att få ut vad det motsvarar i mänskligtext
1. Användaren skriver in text
2. Texten tokenizeras (av en vanlig algorithm, tokenisering är alltså att texten delas upp i mindre delar, tex alla mellanslag tas bort "Detta är min mening" skulle kunna resultera i att den delar upp meningen (i programmeringstermer heter det en sträng, till substrängar) "Detta", "är", "min", "mening" sedan slår den upp varje ord i en tabell som innehåller ett numeriskt id (det finns oftast id's för separatorer, start/slut på mening, okända tokens osv också), denna tabell skapas som ett försteg innan man börjar tränar modellen baserat på frekvensanalys utifrån all data man har och exakt hur många och vilka som får ID:n beror på hur stort man vill göra vokabulär osv men låt anta att det redan finns nu..)
3. token sekvensen är nu alltså siffror tex 5,3,2,6 (för sekvensen ovan)
4. Nu positions encodar man och word embeddar sekvensen (detta är vad som kopplar token till vektor representationen)
5. Först nu kommer Transformern in i bilden, token strömmen skickas in till transformern.
6. Varje attention huvud på sitt underliggande "token" (egentligen representationen) för beräknas hur viktiga kringliggande tokens är, detta mer avancerat än det är men vad det egentligen gör är att det fungerar som ett filter. (Det lilla nätverket som vad du frågade om finns här för att vikta filtreringen, det tränas också vid träning av modellen)
7. Resultatet från attention huvudena summeras och skickas genom det stora FNN för att få ut nästa vektor.
8. Och tillslut passas det genom en dekoder för att få det förutspådda tokenet och tillslist så slås token mot tabellen för att få ut vad det motsvarar i mänskligtext
