Notas sobre determinar los hyper parametros V y N

Todos los experimentos son hechos con un modelos MoE 1.3B/13B, al interpolar deberiamos usar el numero total de parametros, porque en el paper entran con minimo 204B token y continuan viendo mejoras, mientras que nosotros entrenamos con 11B tokens totales (18.5 veces menos). Por lo obserbado mergear mas de 6 modelos no mejora el performance considerablemente, podemos empezar con N=6 ![[Pasted image 20260114165813.png]] ![[Pasted image 20260114170913.png]] ![[Pasted image 20260114170859.png]] Para este experimento se utilizo N=6 Aqui vemos que cuando los intervalos empiezan a usar punto de menos del 60% de los tokenes empiza a haber una caida. ![[Pasted image 20260114172653.png]] En este caso vemos que el minimo de espacio optimo entre los pasos es de aproximadamente 3% de total de los tokenes. (452B a 1607B tokens) ## Consideraciones para V - No queremos que el modelo mas viejo tenga menos de 65% de tokenes de entrenamiento - Aproximadamente 3% de disntancia entre los tokenes totales es optimo. 11B x 3%= 330M tokenes Podemos guardar cada 115M para tener mas flexibilidad Con esto guardamos 12 modelos 12x 19.4gb= 232.8gb