Попробуй использовать GRU. Хотя LSTM, как и GRU, основан на вентилях (gates), GRU обычно работает быстрее из-за меньшего количества параметров. Кстати, механизм внимания часто бывает бесполезен (и даже иногда вреден), во всяком случае если метрики на валидации/тестовых данных не говорят обратного. Во всяком случае в нашем конкретном случае (Sloth 1 Pro) он ничего не привнёс, хотя надо учитывать что задачи несколько разные.
Трансформеры это наверное самое худшее что можно использовать для решения данной задачи, даже деревья решений и те лучше будут.
Также проблема всех ротаций (в том числе и AI, в список которых и входят те самые псевдо "нейро" ротации) это в том что они всё же очень не скоро станут неотличимыми от людьми (если станут), так что в этом плане мы, как разработчики Sloth, не беспокоимся.
Нам много (очень много) раз говорили что вот после фикса именно нашей ротации античит начнёт фолсить каждого первого легита, и вообще растворится в небытии. Разумеется, этого не произошло.
Ну а по поводу производительности, а если точнее по поводу "для real time они не очень подходят" - не знаю что у тебя там за модель (хотя не удивительно если трансформер, хотя даже так она не должна быть очень сложной для real-time), но на тех экспериментах что конкретно я проводил всё было прекрасно, и скорость была достаточной. Возможно дело в том что ты используешь для инференса.
Кстати в следующем нашем эксперименте мы планируем вновь использовать GAN (генеративно-состязательные сети), как минимум потому что у нас уже есть модель Sloth, которая в теории может помочь обмануть дискриминатор.