З моєї точки зору, питання зводиться до того, що насправді означає провести перевірку значимості. Перевірка значущості була розроблена як засіб прийняття рішення про відхилення нульової гіпотези або про неприйняття її. Сам Фішер ввів сумнозвісне правило 0,05 для прийняття цього (довільного) рішення.
В основному, логіка тестування значущості полягає в тому, що користувач повинен вказати альфа-рівень для відхилення нульової гіпотези (умовно 0,05) перед збором даних . Після завершення тесту на значущість користувач відхиляє нуль, якщо значення p менше, ніж рівень альфа (або не відхиляє його в іншому випадку).
Причина, чому ви не можете визначити ефект надзвичайно значущим (скажімо, на рівні 0,001), полягає в тому, що ви не можете знайти більш вагомих доказів, ніж ви вирішили знайти. Отже, якщо перед тестом встановити рівень альфа на 0,05, ви можете знайти свідчення лише на рівні 0,05, незалежно від того, наскільки малі ваші значення p. Таким же чином, говорити про ефекти, які є "дещо значущими" або "наближаються до значущості" також не має особливого сенсу, оскільки ви вибрали цей довільний критерій 0,05. Якщо ви інтерпретуєте логіку перевірки значимості дуже буквально, нічого більшого за 0,05 не має значення.
Я погоджуюся, що такі терміни, як "наближається до значущості", часто використовуються для підвищення перспектив публікації. Однак я не думаю, що в цьому можна звинувачувати авторів, оскільки нинішня культура публікації в деяких науках все ще сильно покладається на "святий грааль" 0,05.
Деякі з цих питань обговорюються в:
Гігеренцер, Г. (2004). Бездумна статистика. Журнал Socio-Economics, 33 (5), 587-606.
Royall, R. (1997). Статистичні дані: парадигма вірогідності (т. 71). Преса CRC.