โ 'Il modello ha 397 miliardi di parametri ma solamente 17 miliardi vengono attivati per ogni forward pass'. Probabilmente avrete sentito frasi di questo tipo nel corso degli ultimi mesi, ma qual รจ il motivo per cui solamente una parte dei miliardi di parametri di un LLM viene attivato? ๐ฅ In questa puntata cerchiamo di dare una risposta alla domanda precedente, spiegandovi cosa sono e come funzionano i modelli Mixture of Experts e per quale motivo sono diventati popolari nel corso dell'ultimo periodo. ๐ต Prima di concludere, abbiamo lasciato spazio ad una discussione riguardante Lyria 3, il nuovo servizio di generazione di musica di Google, che Alessandro ha testato e di cui ci fornisce un feedback.