Які аспекти набору даних «Ірис» роблять його таким успішним, як набір даних для прикладу / навчання / тесту


28

Набір даних "Ірис" , мабуть, знайомий більшості людей тут - це один із канонічних наборів даних тестів і набір даних із прикладом для всього, від візуалізації даних до машинного навчання. Наприклад, усі в цьому запитанні вирішили використати його для обговорення розкиданих розсіювальних апаратів.

Що робить набір даних Iris настільки корисним? Тільки що це було там першим? Якщо хтось намагався створити корисний приклад / тестування набору даних, які уроки вони могли б забрати з нього?


13
Невеликий, але не банальний. Простий, але складний. Реальні дані. Репутація Фішера, хоча це не його дані. Традиція. Інертність. Неперервність. Ви можете знайти картинки квітів, щоб їх прописати.
Нік Кокс

А зараз він працює як годинний годинник.
Майкл М

Я б сказав, що @NickCox прямо на знаку.
Marc Claesen

@NickCox Хочете трохи розширити питання як відповідь?
Фоміт

6
Набір даних «райдужної оболонки» може бути використаний для дискримінаційного аналізу, а також для непідконтрольної класифікації (кластеризація на основі моделі або без моделей) для ілюстративних цілей. Це питання заслуговує на перехресне посилання на Які хороші набори даних для ілюстрації окремих аспектів статистичного аналізу?
chl

Відповіді:


40

Набір даних Iris заслужено широко використовується в статистичній науці, особливо для ілюстрації різних проблем статистичної графіки, багатоваріантної статистики та машинного навчання.

  • Містить 150 спостережень, це мало, але не банально.

  • Завдання, яке вона ставить перед собою, розмежувати три види райдужної оболонки від вимірювання їх пелюсток і чашолистків, є простим, але складним.

  • Дані є реальними даними, але, очевидно, хорошої якості. В принципі і на практиці тестові набори даних можуть бути синтетичними, і це може знадобитися або бути корисним для визначення точки. Тим не менш, мало хто заперечує проти реальних даних.

  • Ці дані були використані відомим британським статистиком Рональдом Фішером у 1936 р. (Пізніше він був лицарем і став сером Рональдом.) Принаймні деяким викладачам подобається ідея набору даних із посиланням на когось так відомого в цій галузі. Дані були спочатку опубліковані статистично налаштованим ботаніком Едгаром С. Андерсоном, але це попереднє походження не зменшує асоціацію.

  • Використання декількох відомих наборів даних - одна з традицій, яку ми передаємо, наприклад, розповісти кожному новому поколінню, що Студент працював на Гіннеса або що багато відомих статистиків випали між собою. Це може здатися інерційним, але, порівнюючи старі та нові методи та оцінюючи будь-який метод, часто вважається корисним випробувати їх на відомих наборах даних, зберігаючи певну послідовність у тому, як ми оцінюємо методи.

  • Нарешті, але не менш важливо, набір даних Iris може бути приємно поєднаний із зображеннями відповідних квітів, як-от наприклад корисна запис Вікіпедії на наборі даних .

Примітка. Зробіть свої зусилля для біологічної коректності, ретельно цитуючи ці рослини. Iris setosa , Iris versicolor та Iris virginica - це три види (не сорти, як у деяких статистичних обліку); їх двочлени повинні бути представлені курсивом, як тут; і Ірис як назва роду та інші назви, що вказують на конкретні види, повинні починатися з верхнього та нижнього регістру відповідно.


3
(+1) Дякуємо за те, що ви добре розширили ваш коментар у відповідь.
кардинал

5
Я б дав додатковий +1, якби міг за принципову позицію щодо біологічної коректності.
Фоміт

6

Набір даних досить великий і цікавий, щоб бути нетривіальним, але достатньо малим, щоб "вміститись у кишеню", а не сповільнити експерименти з ним.

Я думаю, що ключовим аспектом є те, що воно також вчить про надмірну підгонку. Не вистачає стовпців, щоб дати ідеальну оцінку: це ми бачимо одразу, коли дивимося на розсіювачі, і вони перетинаються і набігають один на одного. Тож будь-який підхід до машинного навчання, який отримує ідеальну оцінку, може розглядатися як підозрілий.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.