Я не знаю, чи кваліфікується це як коментар чи відповідь. Я закладаю сюди, бо це відчуває відповідь.
У перехресній валідації k-кратно ви розділяєте свої дані на k групи. Якщо ви охоплюєте навіть «основи», то ви рівномірно вибираєте членів для кожного з k бункерів.
Коли я кажу про дані, я вважаю кожен рядок як зразок, а кожен стовпець як вимір. Я звик використовувати різні методи для визначення змінної важливості, важливості стовпців.
Що робити, якщо ви, як мисляча вправа, відійшли від «підручника» єдиного випадкового випадку і визначили, які рядки важливі? Можливо, вони інформують про одну змінну за один раз, але, можливо, вони інформують більше. Чи є ряд рядків, які менш важливі, ніж інші? Можливо, багато пунктів є інформативними, можливо, мало.
Знаючи важливість змінних, можливо, ви могли б їх порівнювати за важливістю. Можливо, ви могли б зробити єдиний контейнер з найважливішими зразками. Це може визначити розмір вашого "k". Таким чином, ви б визначали "найбільш інформативне" kth відро і порівнювали його з іншими, і з найменш інформативним.
Це може дати вам уявлення про максимальну зміну параметрів вашої моделі. Це лише одна форма.
Другий спосіб розділення к-тів відро - за величиною та напрямком впливу. Таким чином, ви можете помістити зразки, що коливають параметр або параметри в одному напрямку, в одне відро і помістити зразки, які коливають той же параметр або параметри в протилежному напрямку, в інше відро.
Зміна параметрів у цій формі може дати ширший аналіз змінних, що базується не на щільності інформації, а на інформаційній породі.
Удачі.