Numer.ai вже деякий час існує, і, як видається, в Інтернеті є лише кілька публікацій чи інших дискусій про це.
Система час від часу змінювалася, і сьогодні налаштування таке:
- дані поїзду (N = 96K) і тестування (N = 33K) з 21 ознаками з безперервними значеннями в [0,1] і двійковою ціллю.
- Дані чисті (відсутні відсутні значення) та оновлюються кожні 2 тижні. Ви можете завантажити свої прогнози (на тестовий набір) і побачити втрату журналу. Частина тестових даних - це навіть живі дані, і вам платять за хороші прогнози.
Що я хотів би обговорити:
Оскільки функції абсолютно анонімні, я думаю, що ми не можемо зробити багато функцій. Тож мій підхід дуже механічний:
- натхненний цим, я використовую алгоритм класифікації для фільтрації тих навчальних даних, які найкраще відповідають моїм тестовим даним.
- З’ясуйте приємну попередню обробку
- тренувати приємні алгоритми класифікації
- будувати з них ансамблі (укладання, ..).
Конкретне питання:
Щодо кроку 1: Чи маєте ви досвід такого підходу? Скажімо, я наказую ймовірність приналежності зразків поїздів до випробування (як правило, нижче 0,5), і тоді я беру найбільші K ймовірності. Як би ви вибрали K? Я намагався з 15K .., але в основному, щоб мати невеликий набір даних про тренінг, щоб прискорити навчання на етапі 3.
Щодо кроку 2: Дані вже на шкалі 0,1. Якщо я застосую будь-яке (PCA подібне) лінійне перетворення, я би порушив цю шкалу. Що б ви спробували в попередній обробці, якщо у вас є такі чисельні дані, і не знаєте, що це насправді.
PS: Я усвідомлюю, що через те, що платник numer.ai розмовляє з цим, це може допомогти мені заробити гроші. Але оскільки це публічно, це допоможе комусь там ...
PPS: Сьогоднішня таблиця лідерів має цікавий зразок: два найкращих з логльосом 0.64xx, потім номер 3 з 0.66xx, а потім більшість прогнозів досягає 0.6888x.
Таким чином, здається, дуже маленьке верхнє поле та багато помірно успішних хлопців (включаючи мене).