Відповіді:
Якщо ви тестуєте працездатність моделі (тобто не оптимізуєте параметри), як правило, ви підсумовуєте матриці плутанини. Подумайте про це так: ви розділили дані на 10 різних складок або "тестових" наборів. Ви тренуєте свою модель на 9/10 складок і тестуєте першу складку та отримуєте матрицю плутанини. Ця матриця плутанини представляє класифікацію 1/10 даних. Ви повторюєте аналіз ще раз із наступним тестовим набором і отримуєте іншу матрицю плутанини, що представляє ще 1/10 даних. Додавання цієї нової матриці плутанини до першої тепер становить 20% ваших даних. Ви продовжуєте, поки не запустите всі складочки, підсумуйте всі матриці плутанини, а остаточна матриця плутанини не відображає ефективність цієї моделі для всіх даних. Ви можете середньостатистичні матриці плутанини, але це насправді не надає додаткової інформації з накопичувальної матриці і може бути необ’єктивним, якщо ваші складки не однакового розміру.
Примітка. Це передбачає неодноразовий вибірку ваших даних. Я не зовсім впевнений, чи було б це інакше для повторного відбору проб. Буде оновлено, якщо я щось дізнаюся або хтось рекомендує метод.