Хороший теоретичний аналіз схем заміни із та без них у контексті ітеративних алгоритмів, заснованих на випадкових малюнках (на скільки навчаються дискримінаційні глибокі нейронні мережі (ДНН)), можна знайти тут
Коротше кажучи, виявляється, що вибірка без заміни призводить до більш швидкої конвергенції, ніж вибірка з заміною.
Я дам тут короткий аналіз на основі прикладу іграшки, який вони надають: Скажімо, ми хочемо оптимізувати наступну цільову функцію:
xopt=argminx12∑i=1N(x−yi)2
де ціль . У цьому прикладі ми намагаємось вирішити для оптимального x , враховуючи N міток y i, очевидно.yi∼N(μ,σ2)xNyi
Гаразд, так якби ми вирішили для оптимального у вищенаведеному безпосередньо, то ми взяли б тут похідну функції втрати, встановимо її 0 і вирішимо для x . Отже, для нашого прикладу вище, втрата єxx
L=12∑i=1N(x−yi)2
і її першою похідною буде:
δLδx=∑i=1N(x−yi)
Встановлення до 0 і розв'язуючи дляx, виходить:δLδxx
xopt=1N∑i=1Nyi
Іншими словами, оптимальне рішення - це не що інше, як середнє значення вибірки для всіх зразків y .Ny
Тепер, якщо ми не могли б виконати вищезазначені обчислення відразу, нам доведеться це робити рекурсивно за допомогою рівняння оновлення градієнта спуску нижче:
xi=xi−1−λi∇(f(xi−1))
а просто вставляючи наші умови сюди, це дає:
xi=xi−1−λi(xi−1−yi)
Якщо ми запустимо вище для всіх , тоді ми ефективно виконуємо це оновлення без заміни. Тоді виникає питання, чи можемо ми отримати таким чином оптимальне значення x ? (Пам'ятайте, що оптимальне значення x - це не що інше, як середнє значення вибірки y ). Відповідь - так, якщо дозволити λ i = 1 / i . Щоб побачити, це ми розширюємо:i∈1,2,...Nxxyλi=1/i
xi=xi−1−λi(xi−1−yi) xi=xi−1−1i(xi−1−yi) xi=ixi−1−(xi−1−yi)i xi=(i−1)xi−1+yii ixi=(i−1)xi−1+yi
Однак останнє рівняння - це не що інше, як формула для середнього показника! Таким чином, коли ми перебираємо множину з , i = 2 і т. Д., Аж до i = N , ми б виконували свої оновлення без заміни, і наша формула оновлення дає нам оптимальне рішення x , яке є зразок середнього!i=1i=2i=Nx
NxN=(N−1)xN−1+yN==>xN=1N∑i=1Nyi=μ
xNμ
E{(xN−μ)2}
що буде позитивним значенням, і цей простий іграшковий приклад можна поширити на більш високі розміри. Це призводить до того, що ми б хотіли виконувати вибірку без заміни як більш оптимальне рішення.
Сподіваюся, це ще більше пояснює це!