Автоматизована процедура вибору підмножини точок даних з найсильнішим співвідношенням?


15

Чи існує якась стандартна процедура (така, яку можна цитувати як посилання) для вибору підмножини точок даних з більшого пулу з найсильнішою кореляцією (уздовж всього двох вимірів)?

Наприклад, скажімо, у вас є 100 точок даних. Ви хочете підмножину в 40 балів з найсильнішим співвідношенням, можливим уздовж розмірів X і Y.

Я усвідомлюю, що писати код для цього було б досить просто, але мені цікаво, чи є джерело для цього?


3
"Я розумію, що писати код для цього було б досить просто". Ага? І як би ти це зробив?
user603

3
Я гадаю, вона мала на увазі щось на кшталт "найкращого співвідношення підмножини"; виберіть підмножини ( k = 40 у її прикладі) точок даних з вашого N ( N = 100 у її прикладі) та обчисліть оцінку кореляції ρ ( X , Y )kk=40NN=100ρ(X,Y) (якщо припустити, що вона мала знати підмножину балів з найкращою лінійною кореляцією). Однак цей процес здається обчислювально дорогим для великих , тому що вам доведеться обчислити ( NN(Nk) разів перевищує коефіцієнт.
Нестор

1
Якщо ви готові переглянути лінійні комбінації змінних , ви шукаєте канонічні кореляції . В іншому випадку може бути цікавим вибір функції кореляції . X
MånsT

Я думаю, що деякі можуть мене не зрозуміти. @ Néstor, здається, має рацію. Є 100 предметів, кожен з яких має значення X та значення Y. Я хочу знайти підмножину 40, які мають найсильнішу можливу кореляцію (w / лінійна регресія) між значеннями X та Y. Я можу написати код, щоб дослідити весь простір пошуку, але що б я процитував, щоб підтримати такий метод? Як називається пошук оптимальної кореляції між усіма можливими підмножинами?
Джулі

1
Чи зацікавлені ви в максимальному співвідношенні або в отриманні найкращої лінії регресії, наприклад, виміряної мінімальною залишковою дисперсією? Це не те саме, коли ви обираєте свої дані.
jbowman

Відповіді:


17

Я б сказав, що ваш метод вписується в загальну категорію, описану в цій статті у Вікіпедії, яка також має інші посилання, якщо вам потрібно щось більше, ніж просто вікіпедія. Деякі з посилань у цій статті також застосовуватимуться.

Інші терміни, які можуть застосовуватися (якщо ви хочете зробити ще кілька пошукових запитів), включають "Днопоглиблення даних" та "Тортування даних, поки вони не визнаються".

Зауважте, що ви завжди можете отримати співвідношення 1, якщо просто виберете 2 бали, які не мають однакових значень x або y. Кілька років тому в журналі журналу Chance з’явилася стаття, в якій показано, що у вас є змінна x і y, по суті ніяка кореляція, ви можете знайти спосіб бін x і середнього значення y в межах бін, щоб показати або тенденцію до збільшення або зменшення ( Шанс 2006, Візуальні відкриття: пошук того, чого немає, через нещасне поєднання результатів: Ефект Менделя, с. 49-52). Також з повним набором даних, що показує помірну позитивну кореляцію, можна вибрати підмножину, яка показує негативну кореляцію. З огляду на це, навіть якщо у вас є законні підстави робити те, що ви пропонуєте, ви даєте будь-яким скептикам безліч аргументів, щоб використати проти будь-яких висновків, які ви придумали.


Як називається стаття американського статистика?
припускаєтьсянормальне

1
Я неправильно пригадав, де я бачив цю статтю, вона була насправді в журналі Chance, а не в американському статистику. Я виправив це вище та включив рік, назву та номери сторінок, щоб зацікавлені сторони мали змогу легко знайти копії.
Грег Сніг

4

Алгоритм RANSAC звучить як ви хочете. В основному, він передбачає, що ваші дані складаються з суміші інлайерів та аутлієрів, і намагається ідентифікувати інлайєри, повторно відбираючи підмножини даних, підходячи до неї моделі, а потім намагаючись пристосувати всі інші точки даних до моделі. Ось стаття про це у вікіпедії .

У вашому випадку ви можете просто повторювати алгоритм, зберігаючи поточну найкращу модель, яка відповідає щонайменше 40 балів, так що це не гарантуватиме вам абсолютну найкращу кореляцію, але вона повинна наблизитися.


1

Мені важко уявити контекст, в якому це було б гарною практикою, але давайте на мить припустити, що у вас дійсно є вагомі причини для цього.

Алгоритм грубої сили може бути приблизно таким:

  1. Ви обчислюєте всі можливі під вибірки з n вашої загальної вибірки N. Більшість статистичних пакетів мають функції для обчислення комбінацій без заміни, які будуть робити це за вас.

  2. Ви оцінюєте співвідношення між x і y для кожного з підпроборів і вибираєте максимум із цього набору.

Я щойно побачив оригінальний коментар афіші щодо посилання на цю процедуру. Я не впевнений, що хтось має конкретну назву для цієї процедури, адже ви просто генеруєте емпіричний розподіл усіх можливих співвідношень у вашому наборі даних та вибираєте максимум. Подібні підходи застосовуються під час завантажувального завантаження, але в такому випадку вас цікавить емпірична мінливість, ви НЕ використовуєте їх для вибору конкретного підвідбору, пов'язаного з max.


2
1032N=100н=40

Не потрібно бути хитрими щодо цього :-p. Справедлива точка.
Девід

Вибачте ... Мені подобаються ці цифри, тому що вони дають нам багато місця для вдосконаленого алгоритму :-).
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.