Kidobjuk a soha-nem-használt szakértőket? Egy MoE-prune kísérlet otthon
Egy 35 milliárd paraméteres MoE-modellből kivágjuk azokat az 'experteket', amiket a fejlesztős-projektmenedzsmentes-családi nyaralós munkám során alig használok. Spoiler: 25%-kal kisebb modell, 1.13%-kal magasabb perplexitás — és egy egész éjszakányi gotcha-vadászat útközben.