чи можна дати оцінку великим правилам щодо розміру нейронних мереж, які можна відстежувати на загальних споживчих графічних процесорах ? Наприклад:
Папір « Поява локомоції» (посилення) тренує мережу за допомогою активації нейронів. Вони мають 3 шари NN з 300,200,100 одиниць для більш Planar Walker . Але вони не повідомляють про обладнання та час ...
Але чи можна було б розробити правило? Також просто на основі поточних емпіричних результатів, наприклад:
X Одиниці, що використовують активацію сигмоїдів, можуть запускати Y ітерації навчання за годину на 1060.
Або використання функції активації a замість b призводить до зниження продуктивності в рази.
Якщо студент / дослідник / цікавий розум збирається придбати GPU для гри з цими мережами, як ви вирішите, що ви отримаєте? 1060 - це, мабуть, варіант бюджету початкового рівня, але як ви можете оцінити, чи не розумніше просто отримати шалений нетбук замість побудови робочого столу з високою потужністю та витратити заощаджені долари на хмарну інфраструктуру на вимогу.
Мотивація запитання: Я щойно придбав 1060 і (розумний, щоб потім поставити запитання, так), задаюся питанням, чи варто було б я просто зберегти $ і створити обліковий запис Google Cloud. І якщо я можу запустити симуляцію магістерської роботи в GPU.