Безкоштовний набір даних для дуже високої розмірної класифікації [закрито]


35

Що таке вільно доступний набір даних для класифікації з більш ніж 1000 ознаками (або зразкові точки, якщо вони містять криві)?

Вже існує спільнота вікі про безкоштовні набори даних: Розміщення вільно доступних зразків даних

Але тут було б непогано мати більш цілеспрямований список, який можна зручніше використовувати , також я пропоную такі правила:

  1. Одне повідомлення на набір даних
  2. Немає посилання на набір даних
  3. кожен набір даних повинен бути пов’язаний із

    • ім'я (щоб зрозуміти, що мова йде про) і посилання на набір даних (R набори даних можуть бути названі з ім'ям пакета)

    • кількість функцій (скажімо, це p ) розмір набору даних (скажімо, це n ) та кількість міток / класу (нехай скажемо, це k )

    • типовий показник помилок у вашому досвіді (вкажіть використаний алгоритм у словах) або з літератури (в останньому випадку пов'яжіть папір)


+1, але ті, хто є з NIPS2003, мають тільки поїздні мітки - у документі NIPS2003 чітко сказано, що "ярлики перевірки та тестового набору зберігаються".
деніс

Спасибі. Коментар про NIPS - це відповідь від @mbq.
Робін Жирард

Хтось тут має набір даних із великими розмірами з більш ніж двома ярликами класу?
hlin117

Відповіді:


3

Доротея
n = 1950
p = 100000 (0,1 М, половина штучно додається шуму)
k = 2 (~ 10x незбалансований)
Від NIPS2003 .


Чи можете ви пояснити, як це 100000 функцій? Я дивлюся на дані тренувань, і кожен рядок має, можливо, 2500 цілих чисел на рядок.
JeremyKun

Це розріджений масив, ціле число N означає, що атрибут N значення дорівнює 1.


3

Декстер
n = 2600
p = 20000 (10k + 53 - штучний шум)
k = 2 (врівноважений)
Від NIPS2003 .


Я не розумію ... один набір на людину?

@robin & @mbq Я б запропонував зберегти його по одному набору даних за повідомленням. Це означає, що люди можуть голосами вказати, хто з запропонованих там також пропонує / підтримує
Пітер Сміт

@ Петер, добре, я дотримуюся вашої ідеї, я відповідно змінив питання.
Робін Жирард


2

Простата (масив експресії генів)

  • k = 2
  • n = 48 + 52
  • р = 6033

Доступно через (серед інших) пакет Rls, що містить назву набору даних: простата

коефіцієнт помилок = 3/102 (див. тут ) також я думаю, що є папери, які показують 1/102 коефіцієнт помилок. Я б сказав, що це легкий тестовий випадок.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.