Що означає близькість у випадкових лісах?

13

Я натрапив на термін близькість у випадкових лісах. Але я не міг зрозуміти, що це робить у випадкових лісах. Як це допомагає для класифікації?

machine-learning random-forest

— користувач3796494
джерело

13

Термін "близькість" означає "близькість" або "близькість" між парами випадків.

Близькість обчислюється для кожної пари випадків / спостережень / балів вибірки. Якщо два випадки займають один і той же кінцевий вузол через одне дерево, їхня близькість збільшується на одиницю. В кінці пробігу всіх дерев близькість нормалізується діленням на кількість дерев. Близькість використовується для заміни відсутніх даних, визначення місця розташування інших людей та створення освітлювальних даних з низькими розмірами.

Близькість

Близькість спочатку утворювала матрицю NxN. Після вирощування дерева занесіть усі дані, як навчання, так і оббивання, вниз по дереву. Якщо випадки k і n знаходяться в одному кінцевому вузлі, збільшуйте їх близькість на одиницю. Наприкінці нормалізуйте близькість, поділивши на кількість дерев.

Користувачі відзначали, що з великими наборами даних вони не можуть помістити матрицю NxN у швидку пам'ять. Модифікація зменшила необхідний розмір пам'яті до NxT, де T - кількість дерев у лісі. Щоб прискорити масштабування обчислень та ітераційну заміну відсутнього значення, користувачеві надається можливість зберігати лише найбільші близькості nrnn до кожного випадку.

За наявності тестового набору також можна обчислити близькість кожного випадку в тестовому наборі з кожним випадком у навчальному наборі. Обсяг додаткових обчислень є помірним.

цитата: https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm

— синальфа
джерело

Що означає "nrnn"? Я читав сторінку Адель Катлер (або, можливо, Бреймана, оскільки я не можу сказати, хто пише що тут) на радіочастотах, і не можу знайти, де вони визначають nrnn. (Це може бути термін лінійної алгебри, з яким я незнайомий.

— Tanner Strunk

nrnn = кількість найближчих сусідів, для яких потрібно обчислити близькість. Джерело: math.usu.edu/adele/RandomForests/ENAR.pdf сторінка 161

— klumbard

0

Зауважимо, що автори "Елементів статистичного навчання" стверджують, що "Близькі ділянки для випадкових лісів часто виглядають дуже подібними, незалежно від даних, що ставить під сумнів їх корисність. Вони, як правило, мають форму зірки, одну руку на клас, що більше виражається, тим кращі результати класифікації ". (стор. 595)

Однак я думаю, що ці автори не згадують про те, як випадкові ліси настільки обробляють відсутні дані (хоча вони згадують про відсутні дані з деревами раніше у книзі); можливо, автори просто не виділили цей аспект радіочастотних питань так сильно, що має сенс вважати, що книга є величезною та має багато інформації щодо багатьох тем / методів машинного навчання. Однак я не думаю, що наявність сюжетів надає подібні форми для будь-якого РЧ та набору даних означає що-небудь негативне щодо РЧ загалом. Наприклад, лінійна регресія в основному завжди виглядає однаково, але варто знати, які точки лежать близько до лінії, а які, здається, є переживаючими з точки зору лінійної регресії. Отже ... їх коментар щодо корисності сюжетних ділянок для мене не має сенсу.

— Танер Струн
джерело