Хтось робив якісь орієнтири?
Так, тест, який ви пов’язали у своєму запитанні, нещодавно оновлено для останньої версії data.table та pandas. Додатково додано інше програмне забезпечення. Оновлений бенчмарк можна знайти на https://h2oai.github.io/db-benchmark
На жаль, він запланований на машині пам'яті 125 Гб (не 244 ГБ як оригінальний). В результаті панди і даск не можуть здійснити спробу groupby
на 1e9 рядків (50 ГБ csv) даних, оскільки у них не вистачає пам'яті під час читання даних. Таким чином, для панд та даних data.table ви повинні подивитися на 1e8 рядків (5 Гб) даних.
Щоб не просто зв’язати потрібний вам вміст, я вставляю останні таймінги для цих рішень.
Зверніть увагу, що ці терміни застаріли,
відвідайте https://h2oai.github.io/db-benchmark для оновлених хронометрів
| in_rows|question | data.table| pandas|
|-------:|:---------------------|----------:|------:|
| 1e+07|sum v1 by id1 | 0.140| 0.414|
| 1e+07|sum v1 by id1:id2 | 0.411| 1.171|
| 1e+07|sum v1 mean v3 by id3 | 0.574| 1.327|
| 1e+07|mean v1:v3 by id4 | 0.252| 0.189|
| 1e+07|sum v1:v3 by id6 | 0.595| 0.893|
| 1e+08|sum v1 by id1 | 1.551| 4.091|
| 1e+08|sum v1 by id1:id2 | 4.200| 11.557|
| 1e+08|sum v1 mean v3 by id3 | 10.634| 24.590|
| 1e+08|mean v1:v3 by id4 | 2.683| 2.133|
| 1e+08|sum v1:v3 by id6 | 6.963| 16.451|
| 1e+09|sum v1 by id1 | 15.063| NA|
| 1e+09|sum v1 by id1:id2 | 44.240| NA|
| 1e+09|sum v1 mean v3 by id3 | 157.430| NA|
| 1e+09|mean v1:v3 by id4 | 26.855| NA|
| 1e+09|sum v1:v3 by id6 | 120.376| NA|
У 4 з 5 питань data.table швидше, і ми можемо бачити, що він масштабується краще.
Відразу зазначу , це тайминги як зараз , де id1
, id2
і id3
є символьними полями. Вони незабаром будуть змінені на категоричне ВАГО . Крім того, є й інші фактори, які, ймовірно, впливатимуть на такі терміни найближчим часом (наприклад, групування паралельно ДОБРО ). Ми також будемо додавати окремі орієнтири для даних, що мають NA , та різних кардинальності СКЛАДЕНО .
Інші завдання , приходять до цього безперервного проекту бенчмаркінг , так що якщо ви зацікавлені в тому join
, sort
, read
та інших , не забудьте перевірити його пізніше.
І звичайно, ви можете надіслати відгук у проекті репо!