Forwarded from Machinelearning
This media is not supported in your browser
    VIEW IN TELEGRAM
  Модель намеренно поощряется за настойчивость — если она делает retry и улучшает результат, это считается успехом.
Использует синтетические поисковые движки, которые заставляют модель перезапрашивать и улучшать свои ответы.
Обучается с помощью усиленного обучения (RL) — формируя привычку "не сдаваться".
@ai_machinelearning_big_data
#LLM #Search #RL #AI #Meta #ReZero #NeverGiveUp #Llama3
Please open Telegram to view this post
    VIEW IN TELEGRAM
  ❤17👍5🔥4
  