Зовнішнє виявлення в дуже малих наборах


12

Мені потрібно отримати максимально точне значення для яскравості головного стабільного джерела світла з урахуванням дванадцяти значень освітленості зразка. Датчик недосконалий, і світло може час від часу «мерехтіти» яскравішим або темнішим, що можна ігнорувати, отже, моя потреба у зовнішньому виявленні (я думаю?).

Я трохи прочитав тут різні підходи і не можу визначитися, для якого підходу скористатися. Кількість людей, що вижили, ніколи не відомо заздалегідь і часто дорівнюватиме нулю. Мерехтіння, як правило, дуже велике відхилення від стабільної яскравості (достатньо, щоб справді возитися з будь-яким середнім показником, прийнятим із великим подарунком), але не обов’язково.

Ось набір зразків з 12 вимірювань для повноти запитання:

295.5214, 277.7749, 274.6538, 272.5897, 271.0733, 292.5856, 282.0986, 275.0419, 273.084, 273.1783, 274.0317, 290.1837

Моє відчуття кишки полягає в тому, що в цьому конкретному наборі, мабуть, немає людей, хоча 292 і 295 виглядають трохи високо.

Отже, моє запитання полягає в тому, який би тут був найкращий підхід? Слід зазначити, що значення походять від взяття евклідової відстані RG і B компонентів світла від нульової (чорної) точки. Буде програмно болісно, ​​але можливо повернутися до цих значень, якщо потрібно. Евклідова відстань була використана як міра "загальної сили", оскільки мене не цікавить колір, просто сила виходу. Однак є достатньо шансів, що флікери, про які я згадував, мають інший склад RGB, ніж звичайний вихід.

На даний момент я граю з якоюсь функцією, яка буде повторюватися, поки не буде досягнуто стійкого членства дозволених заходів шляхом:

  1. Знаходження стандартного відхилення
  2. Поклавши все назовні, скажімо, 2 SD в список ігнорування
  3. Перерахунок середнього та SD із виключенням списку ігнорування
  4. Повторне рішення, кого ігнорувати, виходячи з нового середнього та SD (оцініть усі 12)
  5. Повторюйте до стійкості.

Чи є якась цінність у такому підході?

Усі коментарі вдячно прийняті!


Болісно, ​​хоча б це було вашим припущенням, що мерехтіння може насправді мати різні компоненти RGB (хоча іноді на схожій відстані від чорного) варто було б продовжити. Інший варіант - просто використовувати медіану замість середньої, залежно від вашої мети.
Уейн

Відповіді:


7

Виїжджих у невеликих зразках завжди можна виявити дуже складно. У більшості випадків я фактично закликаю, що якщо ви вважаєте, що ваші дані не є грубо пошкодженими, "чуже" значення може бути непроблемним, і його виключення може бути необґрунтованим. Можливо, використання надійних статистичних методів буде більш розумним і ближчим до рішення середнього рівня. У вас невеликий зразок; спробуйте зробити кожний зразок підрахунку. :)

Щодо запропонованого вами підходу: я б не поспішав виконувати припущення щодо нормальності ваших даних із правилом 68-95-99.7 щодо них (як, здається, якимось чином це стосується вашого евристичного правила 2SD). Нерівність Чебишева на один раз передбачає правило 75-88,9-93,8 щодо них, що явно менш жорстке. Існують і інші " правила "; У розділі Ідентифікація випускників у леммі Outlier у Вікіпедії є сукупність евристики.

Ось ще одна: Безкоштовна довідка про книгу, яку я натрапив на цю тему, електронний довідник статистичних методів NIST / SEMATECH , представляє таку ідею Іглевіча та Хогліна (1993): Використовувати модифіковануZ-оцінки М такий як:

Мi=.6745(хi-х~)/МАD

де х~- ваша медіана та MAD - це середнє абсолютне відхилення вашої вибірки. Тоді припустимо, що абсолютні значенняМвище 3,5 - потенційні люди, що втрачають силу. Це напівпараметрична пропозиція (як і більшість з них, тут параметр є3.5). У вашому прикладі випадку це буде маргінально виключити ваш 295.5, але чітко збереже міру 292.6 ... (Для того, що варто, я не виключав би жодних значень із вашого прикладу.)

Знову ж таки, якщо у вас справді невеликий зразок, якщо ви вважаєте, що ваш зразок очевидно не пошкоджений (людський 9'4 "високий), я б радив вам не виключати дані поспішно. їх використання фактично може допомогти, а не нашкодити вашому аналізу.


1
Невеликий момент, але дуже ймовірний, який міг би вкусити, особливо якщо ваша документація недбало читається чи цитується: я настійно раджу проти позначень х¯для медіани, враховуючи її дуже поширене використання для середнього значення. Як не дивно, чи ні, ні одна позначення, як правило, використовується для медіани, але майже все було б краще, ніжх¯, наприклад, мед х~.
Нік Кокс

1
+1 для сильного наголосу на значенні надійних резюме. Дивіться також інші теми на цьому сайті.
Нік Кокс

1
@NickCox: Добре, я не знаю, про що я думав. Зараз його змінили. Дякую за пропозицію.
usεr11852

0

Q-тест Діксона для людей, що переживають люди в дуже малих наборах даних, здається, добре підходить до такого роду ситуацій:

http://en.wikipedia.org/wiki/Dixon%27s_Q_test

http://www.chem.uoa.gr/applets/AppletQtest/Text_Qtest2.htm


Ні! Оскільки тест Діксона може виявити максимум одиночку (див. Посилання тут ), а ОП ніколи не згадував, що у нього є лише один аутлер.
user603

0

Перше вкажіть - можливо, варто повернутися до кольору rgb. Рідко викидати дані, і величина rgb вектора не є єдиним способом представити яскравість - сприйнята яскравість різна, як і значення у HSV.

Але, поклавши це на один бік і розібравшись з вашими даними, ви розглядали формування цього як проблему класифікації замість моделювання та займаєтесь машинним навчанням? У вас є вхід, який є вектором з 12 реальними значеннями в ньому (показання яскравості). У вас є вихід, який є вектором з 12 двійкових значень (1 = inlier, 0 = outlier). Отримайте кілька наборів зчитування яскравості та відзначте їх власноруч, показуючи, який показник яскравості у кожному наборі є ін'єрним / іншим. Щось на зразок цього:

x1 = {212.0, 209.6, 211.5, , 213.0}, у1 = {1,0,1, , 1}

x2 = {208.1, 207.9, 211.2, , 208.2}, y2 = {1,1,0, , 1}

x3 = {223.4, 222.9, 222.8, , 223.0}, у3 = {1,1,1, , 1}

Потім запустіть всю партію через якийсь класифікатор:

  • Ви можете використовувати один класифікатор, який виводить 12 різних бінарних значень - нейронна мережа дозволить вам налаштувати це досить легко.
  • Або ви можете використовувати стандартний бінарний класифікатор (наприклад, SVMlite ) і тренувати 12 різних моделей, одна класифікує, чи кожен елемент виводу є ін'єрним / інше.

І ви закінчили! Не потрібно метушитися, намагаючись знайти «правило», яке відокремлює інлієри від інших людей. Просто отримайте кілька наборів даних, які виглядають розумними, і дозвольте машині зробити це за вас :)

~~~

EDIT: Між іншим, запропонований вами метод, коли ви ітераційно вписуєте гаусса, а потім класифікуєте кожний зразок більше ніж 2 стандартних відхилення в якості зовнішнього вигляду, дуже схожий на алгоритм максимізації очікування. Щось на зразок цього:

  • Єдина гауссова складова (моделювання інлайєрів)
  • Рівномірний фоновий компонент (залишків)
  • Певна попередня ймовірність кожного, що неочевидним чином залежить від ширини гаусса (правило "класифікувати за двома стандартними відхиленнями").
  • Важка класифікація на етапі очікування.

Якщо ви дійдете по цьому маршруту, можливо, варто поглибити алгоритми ЕМ та перевірити, які припущення ви будуєте для своєї моделі.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.