Я зіткнувся з наступною проблемою, яку я повторюю досить типово.
У мене є кілька великих даних, скажімо, кілька мільйонів рядків. Я виконую на ньому нетривіальний аналіз, наприклад, SQL-запит, що складається з декількох підзапитів. Я отримую певний результат, констатуючи, наприклад, що властивість X з часом збільшується.
Зараз є дві можливі речі, які можуть призвести до цього:
- X дійсно збільшується з часом
- У мене помилка в аналізі
Як я можу перевірити, що відбулося перше, а не друге? Покроковий налагоджувач, навіть якщо такий існує, не допоможе, оскільки проміжні результати все ще можуть складатися з мільйонів рядків.
Єдине, про що я міг придумати, - це якось генерувати невеликий синтетичний набір даних із властивістю, яку я хочу перевірити та запустити аналіз на ньому як одиничний тест. Чи є інструменти для цього? Особливо, але не обмежуючись цим, SQL.