Todos los experimentos son hechos con un modelos MoE 1.3B/13B, al interpolar deberiamos usar el numero total de parametros, porque en el paper entran con minimo 204B token y continuan viendo mejoras, mientras que nosotros entrenamos con 11B tokens totales (18.5 veces menos).
Por lo obserbado mergear mas de 6 modelos no mejora el performance considerablemente, podemos empezar con N=6
![[Pasted image 20260114165813.png]]
![[Pasted image 20260114170913.png]]
![[Pasted image 20260114170859.png]]
Para este experimento se utilizo N=6
Aqui vemos que cuando los intervalos empiezan a usar punto de menos del 60% de los tokenes empiza a haber una caida.
![[Pasted image 20260114172653.png]]
En este caso vemos que el minimo de espacio optimo entre los pasos es de aproximadamente 3% de total de los tokenes. (452B a 1607B tokens)
## Consideraciones para V
- No queremos que el modelo mas viejo tenga menos de 65% de tokenes de entrenamiento
- Aproximadamente 3% de disntancia entre los tokenes totales es optimo.
11B x 3%= 330M tokenes
Podemos guardar cada 115M para tener mas flexibilidad
Con esto guardamos 12 modelos
12x 19.4gb= 232.8gb