Тривіальна відповідь полягає в тому, що більше даних завжди віддають перевагу менше даних.
Проблема невеликого розміру вибірки зрозуміла. У лінійній регресії (OLS) технічно ви можете помістити таку модель, як OLS, де n = k + 1, але ви отримаєте сміття з неї, тобто дуже великі стандартні помилки. Існує чудова праця Артура Голдбергера під назвою Micronumerocity на цю тему, яка узагальнена в главі 23 книги "Курс економетрії" .
Поширене евристичне те, що для кожного параметра, який ви хочете оцінити, у вас повинно бути 20 спостережень. Це завжди компроміс між величиною ваших стандартних помилок (а отже, і тестуванням значимості) та величиною вашої вибірки. Це одна з причин, що деякі з нас ненавидять тестування на значущість, оскільки ви можете отримати неймовірно малу (відносну) стандартну помилку з величезною вибіркою, і тому знаходите безглузду статистичну значимість на наївних тестах, наприклад, чи нульовий коефіцієнт регресії.
Хоча розмір вибірки важливий, якість вашої вибірки важливіша, наприклад, чи вибірка є загальною для популяції, чи це Простий випадковий зразок чи інша відповідна методологія вибірки (і це враховувалося під час аналізу), чи є помилка вимірювання , упередженість відповіді, зміщення вибору тощо.