Мій досвід походить з експериментів в режимі онлайн / в Інтернеті, де питання, як правило, є недостатнім дослідженням або вимірюванням неправильних речей. Але мені здається, що проведене дослідження забезпечує більш вузькі інтервали довіри, ніж порівнянні дослідження, менші р-значення та, можливо, різну дисперсію. Я думаю, що це може ускладнити порівняння подібних досліджень. Наприклад, якби я повторив дослідження з надмірною потужністю, використовуючи належну потужність, моє р-значення було б вищим, навіть якби я точно повторював ефект. Збільшений розмір вибірки може навіть зменшити мінливість або внести мінливість, якщо є інші люди, які можуть мати більший шанс проявитись у більшій вибірці.
Крім того, мої симуляції показують, що ефекти, окрім тих, що вас цікавлять, можуть набути значного значення при більшій вибірці. Отже, хоча p-значення правильно повідомляє вам про ймовірність того, що ваші результати справжні, вони можуть бути реальними з інших причин, ніж те, що ви думаєте, наприклад, комбінація випадкових випадків, деякий перехідний ефект, який ви не контролювали, і, можливо, деякі інші менший ефект, який ви ввели, не усвідомлюючи цього. Якщо дослідження лише трохи пересилено, ризик цього є низьким. Проблема часто полягає в тому, що важко дізнатися адекватну потужність, наприклад, якщо базові показники та мінімальний цільовий ефект є здогадами або виявляється відмінним від очікуваного.
Я також натрапив на статтю, яка стверджує, що занадто велика кількість зразка може зробити тест на корисність занадто чутливий до невідповідних відхилень, що призводить до потенційно контрінтуїтивних результатів.
Однак, я вважаю, що найкраще помилятися на стороні високої, а не малої потужності.