Lion EvoLved Sign Momentum: El nuevo optimizador descubierto por Google Brain

📌 Según los autores del artículo, una tasa de aprendizaje adecuada para Lion es generalmente 3-10 veces menor que la utilizada con Adam(w). Dado que la decadencia efectiva del peso (weight decay) es lr * λ, el valor de la decadencia del peso desacoplada λ utilizada para Lion es 3-10 veces mayor que la utilizada con Adam(w) para mantener una fuerza similar.

📌 El valor inicial, el valor pico y el valor final en la programación de tasa de aprendizaje (learning rate) deben cambiar simultáneamente con la misma relación respecto a Adam(w).

📌 Programación de tasa de aprendizaje: los autores utilizan la misma programación de tasa de aprendizaje para Lion que para Adam(w) en el artículo. Sin embargo, observaron una mayor ganancia al utilizar un programa de decrecimiento coseno (cosine decay) para entrenar ViT, en comparación con un programa de decremento recíproco cuadrático (square-root).

📌 β1 y β2: Los valores predeterminados para β1 y β2 en Adam(w) se establecen en 0.9 y 0.999, respectivamente, con un ε de 1e−8, mientras que en Lion, los valores predeterminados para β1 y β2 se descubren a través del proceso de búsqueda de programas y se establecen en 0.9 y 0.99, respectivamente.

📌 Al igual que las personas reducen β2 a 0.99 o menor y aumentan ε a 1e-6 en Adam(w) para mejorar la estabilidad, utilizar β1=0.95, β2=0.98 en Lion también puede ser útil para mitigar la inestabilidad durante el entrenamiento, según sugieren los autores. Esto fue corroborado por un investigador.


Comments

Leave a Reply

Your email address will not be published. Required fields are marked *