Я, як правило, генерую свої власні, використовуючи якісь відомі дані як вхідні дані - якщо це занадто випадково, це не завжди хороший тест; Мені потрібні дані, які будуть розподілятися аналогічно моєму кінцевому продукту.
Усі більші бази даних, які мені доведеться налаштувати, мають наукову природу, тому я зазвичай можу взяти якесь інше дослідження як вхідне, і змінити його масштаб і додати тремтіння. (наприклад, взяття даних, які були в 5 хв каденції з точністю до мілісекунди, і перетворення їх на 10 секунд каденції з точністю до мілісекунди, але +/- 100 мс тремтіння до часу)
...
Але, як інша альтернатива, якщо ви не хочете писати свої власні, - це переглянути деякі інструменти бенчмаркінгу - оскільки вони можуть повторювати речі знову і знову на основі навчального набору, ви можете використовувати їх для вставки лотів записів (а потім просто ігноруйте звіти про те, наскільки швидко це було зроблено) ... і тоді ви можете використовувати той самий інструмент для тестування того, наскільки швидко працює база даних після її заповнення.