Подписывайтесь на наш Telegram и не пропускайте важные новости! Перейти

Гайд Про архитектуры нейросетей (нейро киллаур)

Никто и не спорит что GRU вычислительно менее затратная чем LSTM, это даже в её архитектуре ячеек заложено.

Тут вопрос:
1. Почему, исходя из твоей логики, ты называешь LSTM "ресурсоёмкой" для данной задачи? Ты не LLM на миллиарды параметров обучаешь, а модель для ауры. Для неё разницы практически нет, если у тебя конечно не пентиум первый. У тебя ну в лучшем случае будет может быть 1-3 миллиона параметров (и это я сильно завышаю, к примеру текущая модель Sloth сейчас использует 700 тысяч параметров. И этого достаточно, и можно даже меньше делать спокойно, при этом даже подняв качество модели.)
2. И даже на этом ресурсе видно что выигрыш в производительности В ЛУЧШЕМ случае это 25%, а там и того меньше (11-12%). Это далеко не кратно. Кратно это в 2, 5, 10 раз, но уж точно не 11%.

Я могу сделать вывод что ты просто галлюцинаций ChatGPT начитался, где он говорит о том что LSTM больше ресурсоёмкая (и да, это факт), и теперь при каждом удобном случае говоришь о том что она невероятно ресурсоёмкая. Да нет в целом ни у кого столько данных ни под чит, ни под античит чтобы даже приблизиться к ёмкости модели в хотя бы миллиард параметров.
Признаю что она не кратна, но все равно когда ты делаешь чит и если ты его делаешь для продажи да и впринципе будешь распространять оптимизация там важна потому что бывают люди которые будут сидеть на довольно слабом железе и в статье я это упомянул ради этой цели что есть LSTM и GRU и что одна будет менее ресурсоемкой при +- тех же показателях
 
Признаю что она не кратна, но все равно когда ты делаешь чит и если ты его делаешь для продажи да и впринципе будешь распространять оптимизация там важна потому что бывают люди которые будут сидеть на довольно слабом железе и в статье я это упомянул ради этой цели что есть LSTM и GRU и что одна будет менее ресурсоемкой при +- тех же показателях
Да нечего там оптимизировать, это и так минимальная нагрузка с учётом количества параметров используемых в таких аурах. В 90% читах визуалы x20 больше жрут чем такая аура

Несомненно что если выбирать между GRU и LSTM, то я бы выбрал GRU (собственно говоря поэтому эта архитектура до сих пор используется во всех моделях Sloth)

Но говорить что "но есть один существенный минус это то сколько она потребляет ресурсов." неправильно, это даёт неправильную информацию тем кто читает этот чудесный максимально поверхностный гайд
Вообще в гайде очень много ошибок, но пожалуй не стану тратить время на то чтобы их все расписать
 
Последнее редактирование:
Назад
Сверху Снизу