Тест на пропорції та двійковий класифікатор


10

У мене є прототип машини для виготовлення деталей.

У першому тесті машина виробляє деталей, і двійковий класифікатор повідомляє мені, що частини несправні ( , зазвичай і ), а частини хороші.d 1 d 1 < N 1 d 1 / N 1 < 0,01 N 110 4 N 1 - d 1N1d1d1<N1d1/N1<0.01N1104N1d1

Потім технік вносить деякі зміни в машину, щоб зменшити кількість несправних деталей.

У другому і наступному тесті модифікована машина виробляє деталі, і той самий двійковий класифікатор (недоторканий) повідомляє мені, що частини несправні, все одно досить схожий на .d 2 d 2 / N 2 d 1 / N 1N2d2d2/N2d1/N1

Технік хотів би знати, чи ефективні його зміни.

Якщо припустити, що класифікатори досконалі (її чутливість - 100%, а її специфічність - 100%), я можу провести тест на пропорції (з R я просто набираю prop.test(c(d1,d2),c(N1,N2))).

Але класифікатор не є досконалим, тож як я можу взяти до уваги чутливість та специфіку класифікатора, як невідомо, щоб правильно відповісти техніку?


Чи можете ви підтвердити швидкість точності класифікатора?
Мішель

@Michelle Я знаю без помилок та але я не знаю, скільки дефектних деталей неправильно класифікуються як хороші. d 2d1d2
Алессандро Якопсон

Привіт ще раз. Чи можете ви зробити випадкову вибірку хороших частин від N1 та N2 окремо, щоб оцінити помилкову позитивну швидкість?
Мішель

1
За допомогою цієї інформації ви можете використовувати цей метод для порівняння змін? onlinelibrary.wiley.com/doi/10.1002/sim.906/ab Abstract також дивіться тут ncbi.nlm.nih.gov/pubmed/18224558 та іншу ідею тут, повний текст: stat.colostate.edu/~bradb/papers/lrgraphfinal. pdf
Мішель

2
(+1) це чудове питання!
steffen

Відповіді:


4

Тож я вивожу це з перших принципів, і, таким чином, не впевнений, що це правильно. Ось мої думки:

EDIT: Раніше це було не зовсім правильно. Я оновив його.

  1. Нехай позначає очікувану різницю між фактичною кількістю справжніх позитивних d 1 та числом, виведеним двійковим класифікатором, який ми будемо називати ^ d 1 . Ви можете виміряти це за допомогою запуску класифікатора на наборі з відомими мітками. Віднімаємо кількість фактичних позитивних результатів від кількості позитивних результатів, виданих класифікатором, а потім ділимо на N, щоб отримати α .αd1d1^Nα

  2. Отже, бальна оцінка фактичного співвідношення дефектних деталей дається через: . Тобто спостерігається кількість несправних деталей, менша очікуваної кількості помилкових позитивів плюс очікувана кількість помилкових негативів.d1N1^=d1+αN1N1

  3. Аналогічно d2N2^=d2+αN2N2

  4. Отже, тепер давайте зробимо тест опори. У стандартному тесті опори ми спочатку обчислюємо об'єднане відношення, яке використовується як нульове значення: . Отже, тут ми вносимо в нашу точку оцінки ^ d 1p=p1N1+p2N2N1+N2 і^d2d1N1^ щоб отримати:p=d1+d2+α(N1+N2)d2N2^p=d1+d2+α(N1+N2)N1+N2

  5. І тоді стандартна помилка - просто звичайна: p(1p)(1N1+1N2)

  6. І тестова статистика така ж: z=d1N1d2N2se

Деякі думки щодо тлумачення:

  • Модель може створювати уявні значення для стандартної помилки. Це станеться тоді, коли , що буде в тому випадку, коли кількість помилок, які ми очікуємо, що класифікатори помиляться, перевищуватиме кількість, яку ми спостерігали. Наприклад, припустимо, що ми очікуємо, що наш класифікатор видасть у середньому 5 позитивних даних, навіть коли дається зразок, який не містить позитивних результатів. Якщо ми спостерігаємо 4 позитиви, то це як би немає сигналу: наш результат не відрізняється від шуму, виданого класифікатором. У цьому випадку, ми не повинні відкидати нульову гіпотезу, я думаю.p<0

  • Ще один спосіб задуматися над тим, що якщо кількість несправних деталей знаходиться в межах похибки для класифікатора, то, звичайно, ми не можемо сказати, чи є різниця: ми навіть не можемо сказати, чи є якісь деталі несправними!

Включення помилок в оцінці :α

  • Я подумав про це ще кілька, і я думаю, що ви можете це зробити декількома способами, але, по суті, ви хочете отримати оцінку розподілу . В ідеалі ви б це зробили, повторивши процедуру отримання оцінки α на репрезентативній вибірці наборів даних, на яких ви збираєтесь використовувати цей метод. Якщо це неможливо, ви можете завантажувати дані на одному наборі даних, малюючи з нього зразки, хоча це не ідеально, якщо ваш єдиний набір даних не є репрезентативним для всіх ваших наборів.αα

Припустимо, що ми хочемо обчислити довірчий інтервал з достовірністю .h

  • Емпірично обчислити h2ααh2lowl,lowr)(highl,highr)α(highl,lowr) (який містить обидва попередні інтервали) повинен бути (1-год.) * 100% ІС для різниці пропорцій ... Я думаю ...

α


+1, дякую. У 6 ви написали "статичну", ви мали на увазі "статистику"?
Алессандро Якопсон

p<00<p<10<p<1

0.01(N1d1)100β=7100ββprop.test(7,100)

@uvts_cvs Так, це має бути "статистично". Я виправлю це за мить. У розрахунку на стандартну помилку також є помилка друку, яка повинна бути замість p * (1-p). P завжди повинен бути <1, за винятком, можливо, якщо ваш класифікатор дійсно поганий і d великий. Для вашого третього коментаря, так, це ідея. Я просто не впевнений, як включити цю оцінку в модель. Можливо, хтось тут ще знає?
Джон Дучетт

αβ
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.