Які існують важливі напрямки генерації випадкових чисел у обчислювальній статистиці?


15

Як і чому важливі генератори випадкових чисел (RNG) в обчислювальній статистиці?

Я розумію, що випадковість важлива при виборі зразків для багатьох статистичних тестів, щоб уникнути упередженості до будь-якої гіпотези, але чи є інші сфери обчислювальної статистики, де важливі генератори випадкових чисел?


4
Тісно пов’язані: stats.stackexchange.com/q/135665/35989
Тім

1
Про що ви питаєте? Ваше запитання насправді не має великого сенсу.
Карл Віттофт

2
Можливо, буде краще запитати сфери, в яких вони не важливі. Мабуть, це буде коротший список.
Джон Коулман

2
Питання є широким, але назва приваблива, і відповідь Метью - хороший огляд. Я проголосував за повторне відкриття!
Бенуа Санчес

3
Це, очевидно, занадто широке за звичайними стандартами SE, і означає питання "великого списку", яке, ймовірно, налічує безліч дрібних, ледве розроблених відповідей, які часто повторюють відповіді. Однак тут, мабуть, є якась реальна цінність. Компроміс - це захист від CW та захисту. Надалі відповіді, які згадують про щось без розробки та / або що вже згадані дублікати використання, будуть видалені негайно та без коментарів.
gung - Відновіть Моніку

Відповіді:


17

Прикладів багато, багато. Шлях занадто багато, щоб перелічити, і, мабуть, занадто багато, щоб хто-небудь знав повністю (крім, можливо, @whuber, якого ніколи не варто недооцінювати).

Як ви зазначали, у контрольованих експериментах ми уникаємо вибірки зміщення шляхом випадкового розподілу суб'єктів на групи лікування та контролю.

Під час завантаження даних ми наближаємо повторний відбір з популяції шляхом випадкового відбору з заміною фіксованого зразка. Це дозволяє нам оцінити відмінність наших оцінок, серед іншого.

Під час перехресної перевірки ми оцінюємо помилку вибірки оцінки, випадковим чином розподіляючи наші дані на фрагменти та збираючи випадкові набори для навчання та тестування.

Під час тестування перестановки ми використовуємо випадкові перестановки для вибірки під нульовою гіпотезою, що дозволяє виконувати непараметричні тести гіпотез у найрізноманітніших ситуаціях.

У мішкуванні ми контролюємо дисперсію оцінки, багаторазово виконуючи оцінку на зразках завантажувальних даних навчальних даних, а потім усереднюючи результати.

У випадкових лісах ми додатково контролюємо дисперсію оцінки, шляхом вибіркового вибірки з наявних прогнозів у кожній точці прийняття рішення.

Під час моделювання ми просимо підходящу модель для випадкового генерування нових наборів даних, які ми можемо порівняти з навчанням або тестуванням даних, допомагаючи перевірити відповідність та припущення в моделі.

У ланцюзі Маркова Монте-Карло ми беремо вибірку з розподілу, досліджуючи простір можливих результатів, використовуючи ланцюг Маркова (завдяки цьому @Ben Bolker для цього прикладу).

Це лише звичайні, повсякденні програми, які приходять на думку негайно. Якби я копав глибоко, я міг би подвоїти довжину цього списку. Випадковість є і важливим об'єктом вивчення, і важливим інструментом для управління.


Це все правда, але не вирішує основної проблеми: PRNG з будь-якою структурою або передбачуваністю в послідовності призведе до відмови моделювання.
Карл Віттофт

3
Одне з речей, яке заслуговує на згадку, - це обчислювальні та пам’ятні витрати на генерацію великої кількості випадкових чи псевдовипадкових чисел. Для деяких застосувань RNG в статистиці потрібні сотні до мільйонів випадкових чисел, але деякі вимагають на багато порядків більше, що несе обидві ці витрати.
Олексій

5

Це все правда, але не вирішує головної проблеми: PRNG з будь- якою структурою або передбачуваністю послідовності призведе до відмови моделювання. Карл Віттофт 31 січня о 15:51

Якщо це вас хвилює, можливо, назву питання слід змінити на "Вплив вибору RNG на результати Монте-Карло" або щось подібне. У цьому випадку, вже розглянуті на перехресній валідації SE , ось деякі напрямки

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.