Безкоштовний набір даних для дуже високої розмірної класифікації [закрито]

35

Що таке вільно доступний набір даних для класифікації з більш ніж 1000 ознаками (або зразкові точки, якщо вони містять криві)?

Вже існує спільнота вікі про безкоштовні набори даних: Розміщення вільно доступних зразків даних

Але тут було б непогано мати більш цілеспрямований список, який можна зручніше використовувати , також я пропоную такі правила:

Одне повідомлення на набір даних
Немає посилання на набір даних
кожен набір даних повинен бути пов’язаний із
- ім'я (щоб зрозуміти, що мова йде про) і посилання на набір даних (R набори даних можуть бути названі з ім'ям пакета)
- кількість функцій (скажімо, це p ) розмір набору даних (скажімо, це n ) та кількість міток / класу (нехай скажемо, це k )
- типовий показник помилок у вашому досвіді (вкажіть використаний алгоритм у словах) або з літератури (в останньому випадку пов'яжіть папір)

— жирард Робін
джерело

+1, але ті, хто є з NIPS2003, мають тільки поїздні мітки - у документі NIPS2003 чітко сказано, що "ярлики перевірки та тестового набору зберігаються".

— деніс

Спасибі. Коментар про NIPS - це відповідь від @mbq.

— Робін Жирард

Хтось тут має набір даних із великими розмірами з більш ніж двома ярликами класу?

— hlin117

3

Доротея
n = 1950
p = 100000 (0,1 М, половина штучно додається шуму)
k = 2 (~ 10x незбалансований)
Від NIPS2003 .

— версії користувача88
джерело

Чи можете ви пояснити, як це 100000 функцій? Я дивлюся на дані тренувань, і кожен рядок має, можливо, 2500 цілих чисел на рядок.

— JeremyKun

Це розріджений масив, ціле число N означає, що атрибут N значення дорівнює 1.

3

Жизета
n = 13500
p = 5000 (половина штучно додається шуму)
k = 2 (збалансована)
Від NIPS2003 .

— user88
джерело

3

Декстер
n = 2600
p = 20000 (10k + 53 - штучний шум)
k = 2 (врівноважений)
Від NIPS2003 .

— версії користувача88
джерело

Я не розумію ... один набір на людину?

@robin & @mbq Я б запропонував зберегти його по одному набору даних за повідомленням. Це означає, що люди можуть голосами вказати, хто з запропонованих там також пропонує / підтримує

— Пітер Сміт

@ Петер, добре, я дотримуюся вашої ідеї, я відповідно змінив питання.

— Робін Жирард

3

Арсен
n = 900
p = 10000 (штучно додається шум штучно)
k = 2 (~ збалансовано)
Від NIPS2003 .

— користувачів88
джерело

2

Простата (масив експресії генів)

k = 2
n = 48 + 52
р = 6033

Доступно через (серед інших) пакет Rls, що містить назву набору даних: простата

коефіцієнт помилок = 3/102 (див. тут ) також я думаю, що є папери, які показують 1/102 коефіцієнт помилок. Я б сказав, що це легкий тестовий випадок.

— оберти Робін Жирард
джерело