Як нормалізувати дані невідомого розподілу


12

Я намагаюся знайти найбільш відповідний характерний розподіл даних повторних вимірювань певного типу.

По суті, в моїй галузі геології ми часто використовуємо радіометричну датування мінералів із зразків (шматки гірської породи), щоб з’ясувати, як давно відбулася подія (порода охолоджувалася нижче порогової температури). Зазвичай для кожного зразка буде проведено кілька (3-10) вимірювань. Потім приймаються середнє значення та стандартне відхилення . Це геологія, тому вік охолодження зразків може змінюватись від до років, залежно від ситуації.σ 10 5 10 9μσ105109

Однак у мене є підстави вважати, що вимірювання не є гауссовими: «Аутлієри», або оголошені довільно, або за яким-небудь критерієм, таким як критерій Перса [Росса, 2003] або Діксона-тестування Діксона [Дін і Діксон, 1951] , є досить справедливими поширені (скажімо, 1 на 30), і вони майже завжди старіші, що вказує на те, що ці вимірювання характерно перекошені правильно. Існують добре зрозумілі причини цього, пов'язані з мінералогічними домішками.

Середній та середній вік вибірки.  Червона лінія позначає середнє = медіана.  Зверніть увагу на старі засоби, спричинені косими вимірюваннями.

Тому, якщо я можу знайти кращий розподіл, який включає жирові хвости та перекоси, я думаю, що ми можемо побудувати більш значущі параметри розташування та масштабу, і не доведеться так швидко відпускати людей, що втрачають люди. Тобто, якщо може бути показано, що ці типи вимірювань є ненормальними, або log-лаплакійськими, або будь-якими іншими, тоді можуть бути застосовані більш відповідні заходи максимальної вірогідності, ніж та , які не є надійними та можуть бути упередженими у випадку систематизованих даних з правою нахилом.σμσ

Мені цікаво, який найкращий спосіб зробити це. Поки що у мене є база даних з приблизно 600 зразками і 2-10 (або близько того) повторних вимірювань на зразок. Я спробував нормалізувати вибірки, розділивши кожну на середню або медіану, а потім переглянувши гістограми нормованих даних. Це дає обґрунтовані результати і, схоже, вказує на те, що дані є начебто характерно логічно-лаплакійськими:

введіть тут опис зображення

Однак я не впевнений, чи це правильний шлях про це, чи є застереження, про які я не знаю, це може змінити мої результати, щоб вони виглядали приблизно так. Хтось має досвід подібних речей і знає кращі практики?


4
Оскільки "нормалізація" використовується для позначення кількох різних речей у таких контекстах, що саме ви маєте на увазі під "нормалізацією"? Яку інформацію ви намагаєтеся отримати з даних?
Glen_b -Встановити Моніку

1
@Glen_b: Під «Нормалізувати» я просто маю на увазі масштабування речей за медіаною (або середньою величиною) усіх виміряних віків вибірки за медіаною (або середньою чи будь-якою іншою). Існують експериментальні докази того, що дисперсія в зразках лінійно збільшується з віком. Що я хочу отримати від даних, щоб дізнатись, чи найкраще цей тип вимірювання характеризується нормальним, або нормальним, або бета-версією, чи яким-небудь розподілом, щоб можна було отримати найбільш точне місцеположення та масштаб, або L1 vs. Регрес L2 виправданий і т. Д. У цій публікації я запитую, як я можу взяти дані, які я описав, і дослідити.
кабачок

1
Я не маю досвіду в цій галузі, але ваші графіки та думка, яку ви вкладаєте в це, виглядає добре. Можливо, ви вже бачили це, але стаття у Вікіпедії про Log-Laplace посилається на приємний документ, який безпосередньо не стосується вашого питання, але може мати цікаві відомості: wolfweb.unr.edu/homepage/tkozubow/0_logs.pdf
Уейн

Я не впевнений, що повністю розумію, але, можливо, може допомогти завантаження? Якщо ви відновите дисперсію і т. Д. Вашого розповсюдження за допомогою методів завантаження, ви можете використовувати відновлену інформацію для нормалізації даних. en.wikipedia.org/wiki/Bootstrapping_(statistics)
123

Відповіді:


1

Чи розглядали ви взяти середнє значення (3-10) вимірювань для кожного зразка? Чи можете ви потім працювати з отриманим розподілом - який буде наближати t-розподіл, який буде приблизним до нормального розподілу для більшого n?


1

Я не думаю, що ви використовуєте нормалізацію, щоб мати на увазі те, що це зазвичай означає, що, як правило, щось на зразок нормалізації середнього та / або дисперсії та / або відбілювання, наприклад.

Я думаю, що ви намагаєтеся це знайти нелінійну репараметрізацію та / або функції, які дозволяють використовувати лінійні моделі для своїх даних.

Це нетривіально і не має простої відповіді. Тому вченим за дані платять багато грошей ;-)

Один відносно простий спосіб створення нелінійних особливостей - це використання нейронної мережі, що рухається вперед, де кількість шарів і кількість нейронів на один шар контролює здатність мережі генерувати функції. Більш висока ємність => більше нелінійності, більше придатності. Менша ємність => більша лінійність, більша упередженість, менша дисперсія.

Ще один метод, який дає вам трохи більше контролю, - це використовувати шпонки.

Нарешті, ви можете створити такі функції вручну, що, я думаю, це те, що ви намагаєтеся зробити, але тоді немає простої відповіді "чорної скриньки": вам потрібно буде ретельно проаналізувати дані, шукати шаблони тощо. .


Нормалізація має декілька значень у математиці та науках; заявляючи, що єдине значення, яке для мене особисто знайоме, є стандартним - це те, що більшість людей спокушається робити, але це не вмиється з іншими. Більш серйозно, це починається на тему, але потім відхиляється. Де вказується інтерес до нелінійних моделей? Нейронні мережі? Шпонки? Що це стосується виявлення розподілу чи сімейства розподілів, яке питання? Я не бачу з'єднання, тому рекомендуйте вирізати те, що не стосується, або розширити його, щоб показати, наскільки це релевантно.
Нік Кокс

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.