Поширені слова, які мають особливі статистичні значення


12

Я не статистик, але моя дослідницька робота включає статистику (аналіз даних, читання літератури тощо). Мені знову нагадали з коментаря до одного з моїх запитань, що тут розміщені, що є деякі загальні слова, які мають особливо специфічні значення або конотації для тих, хто добре практикується у галузі статистики.

Буде корисно скласти список таких слів, і це можуть бути фрази разом з деякими коментарями.


1
Здається, як кандидат у спільноту Wiki .
Glen_b -Встановіть Моніку

@Glen_b Це може перетворитись на особливо великий, враховуючи, що майже будь-який термін у статистиці чи математиці буде кваліфікованим. Чи є можливість дещо значимо звузити обсяг цього питання?
whuber

3
@whuber Так, існує небезпека, що вона стане надто широкою. Невже щось на кшталт "яке зазвичай породжує плутанину" достатньо для звуження сфери застосування?
Glen_b -Встановіть Моніку

Я думаю, що грамотні статистики, як правило, добре володіють рідною мовою і добре знають, коли вони використовують жаргон, що потрібно правильно пояснити широкій аудиторії.
Роберт Джонс

@Glen_b Я не впевнений. Це настільки широкий, що я ледве почати перелік слів, які слід охопити: точність, упередженість, калібрування, дискримінація, безперервність, розподіл, небезпека, виживання, сплайн, модель, реакція, завантажувальна програма, коригування, кластер, умовна, впевненість, щільність , оцінка, змінна, канонічна, кореляція, передбачення, умовивід, цензура, ризик, узгодженість, логістика, ліміт, охоплення, заплутаність, непередбачуваність, конвергенція, кореспонденція, свобода, відхилення, експонентність, екстремальність, діапазон, нормальний, випадання, манекен , пояснено [варіація], фактор, збій, заповнення, придатність, пристосованість, функція, ...
whuber

Відповіді:


12

" суттєвий " - тут загальне вживання мови у слові означає щось на зразок "важливого" чи "значущого". Статистичний зміст неофіційно наближається до "може бути виокремлений за випадковою варіацією про нуль"; це не означає, що різниця є достатньо великою для значення.

Ось кілька прикладів, коли це розрізнення могло бути причиною деякої плутанини: 1 2

" параметр " - часто, здається, трапляється, особливо в наукових експериментах, - що слово "параметр" використовується таким чином, як статистик використовує слово "змінна". У Вікіпедії так сказано:

Статистичний параметр - це параметр, який індексує сімейство розподілів ймовірностей. Це можна розглядати як числову характеристику популяції чи модель

Приклад, коли це може бути проблемою: 1 - імовірно посада, яка призвела до цього питання. (Я нещодавно бачив іншого, але зараз не можу його знайти)


11

"Помилка" - у статистиці це часто означає будь-яке відхилення між спостережуваним та прогнозованим значенням. У реальному житті це означає помилку.


11

Я знайшов рецензований документ з 2010 року, який розглядає це питання.

Anderson-Cook CM. Прихований жаргон: щоденні слова зі значеннями, характерними для статистики. ICOTS8, Міжнародна конференція з викладання статистики, Любляна, Словенія, 11-17 липня 2010 року.

Документ доступний безкоштовно в Інтернеті , тому я надаю лише частковий перелік термінів, про які автор обговорює:

 confounding, control, factor, independent, random, uniform

10

Я зіткнувся з проблемою використання "фальсифікації", як у "підробці гіпотези", а інші думали, що я маю на увазі "складання даних". Також " упереджене " майже неможливо згадати, не викликаючи плутанини.


6

"нормальний" - У звичайній промові нормальні засоби, як очікувалося, не є звичайними. У статистиці, якщо змінна звичайно розподіляється, вона має на увазі розподіл Гаусса. Я не вірю, що це стандартне використання великої літери "нормально", щоб відрізняти його від загального значення мовлення.

"нормалізація / стандартизація" - У статистиці для нормалізації змінних засобів віднімання середнього значення та ділення на стандартне відхилення.

"стандартне відхилення порівняно зі стандартною помилкою" - Стандартне відхилення зазвичай обчислюється з використанням всієї сукупності, тоді як стандартна помилка обчислюється за допомогою вибірки.


1
Я дуже сумніваюся, що "стандартна помилка" - це "звичайне [звичайне, нестатистичне] слово" зі спеціальним статистичним значенням, що відрізняється від інших застосувань цього слова (фрази, справді). Дітто для "нормалізації" та "стандартного відхилення".
whuber

Можливо, це не «нормалізація», але «нормальне» є хорошим моментом, і це було б «стандартизація», яка також використовується для опису тестів, призначених для встановлення національних стандартів (наприклад, в освіті, наприклад, в США після No Child Left Позаду). Я погоджуюсь, що "стандартне відхилення" навряд чи спричинить плутанину, хоча "відхилення" саме по собі в загальній мові може мати більше шансів носити негативну конотацію (особливо як синонім "відхилення").
Нік Стаунер

Ось ще один спосіб розрізнити SD та SEM.Стандартне відхилення кількісно визначає варіацію чи розсіювання. Стандартна помилка кількісно визначає точність обчисленого значення.
Харві Мотульський

@HarveyMotulsky Я думаю, що найкращий спосіб - це думати про астероїд (неправильної форми). Який центр маси астероїда? Це точка, яка рівновіддалена від усіх інших точок. Це середина. Що таке стандартне відхилення? Це "середня" відстань кожної точки від центру, міра розміру. Що таке SEM? Це говорить про те, наскільки ви впевнені в розташуванні центру астероїда.
колба

Я вважаю, що стандартна помилка - це стандартне відхилення, обчислене за допомогою "вибірки" трохи прикро. Це було б для мене квадратним коренем дисперсії вибірки, тоді як стандартна помилка - це стандартне відхилення від тестової статистики. Крім того, із вищезазначених термінів здається, що дійсно звичайне лише "нормальне". Але я здогадуюсь, що це нормально ...
мається на увазі

2

"Параметричний" порівняно з "Непараметричний": категорії тестів, для яких потрібні дані "Нормальні" або "Не нормальні". Параметричні тести віддають перевагу непараметричним.

Поширені тести: Т-тест (парний), Манн-Вітні U, ANOVA, Андерсон-Дарлінг тощо.

Інші терміни включають "значущі". Це міра того, якщо дані вказують на те, що ваша гіпотеза є дійсною чи ні. Коли ви перевіряєте свою гіпотезу з певною мірою ймовірністю (зазвичай 95%), "p-значення" менше 0,05 вказуватиме на те, що ви відкинете свою "нульову гіпотезу" (тобто набори даних не відрізняються) і приймаєте свою " альтернативна гіпотеза "(тобто набори даних різні).


2

Нахил у статистиці передбачає асиметричний розподіл.

Звичайною мовою, і навіть в науці, косий часто використовується (і все частіше?), Щоб означати те, що статистичні люди зазвичай називають упередженими , як у "Результати за середній зріст перекошені, включаючи стільки баскетболістів".


2

Оцінка - в статистиці це результат розрахунку. Наприклад, середнє значення вибірки - це оцінка середньої сукупності, а довірчий інтервал - це інтервальна оцінка середньої сукупності. Це обидва результати точних розрахунків. "Оцінка" - це точне узагальнення спроб зробити висновок про сукупність з даних у вибірці.

У звичайному вживанні слово оцінювання означає усвідомлене здогадка або припущення, або результат приблизного обчислення.


2

Ймовірність - у звичайній мові синонім ймовірності , але в статистиці, що має особливе зворотне відношення до ймовірності, в тому, що для будь-якого набору параметрів та набору даних , .θXL(θ|X)=Pr(X|θ)

Представницький - має низку інколи суперечливих значень як у повсякденному, так і в науковому мовленні. Зверніться до Kruskal & Mosteller 1979a , 1979b , 1979c та 1980 . Більшість статистиків, яких я знаю, вважають представником вибірки, якби він був відібраний з відомою ймовірністю; Більшість невідомих людей, яких я знаю, вважали б його репрезентативним, якби граничні розподіли були схожими на населення.


2
  • Вибірка : хоча в статистиці це стосується сукупності випадків , у багатьох інших дисциплінах вибірка є одним фізичним зразком . Звичайно, розмір вибірки також неоднозначний, залежно від кількості випадків у статистичній вибірці або фізичного розміру (маса, об'єм, ...) зразка.

  • Чутливість : для медичної діагностики частка хворих випадків, що розпізнається тестом. В аналітичній хімії: нахил калібрувальної кривої (див. Нижче).

  • Специфіка : у медичній діагностиці частка випадків захворювання, що невідомо, це правильно визнано тестом. В аналітичній хімії метод є специфічним, якщо немає перехресної чутливості.

  • Калібрування : насправді два значення перераховані вже для статистики у статті Wiki. У хімії та фізиці значення зворотного регресу є звичайним. Однак виникає плутанина:

    • У хіміометрії (вперед) калібрування моделей вимірюваного сигналу залежить від концентрації : . Потім прогнозування вирішується для концентрації : . Моделі зворотної калібрування . Таким чином, пряма модель узгоджується з причинністю (концентрація аналіту викликає сигнал, не навпаки), а зворотна моделює напрямок, який використовується для прогнозування. (На практиці часто можна сказати, що помилка на або помилка на набагато більша за іншу, і відповідний напрям моделювання є / слід вибирати з цього)IcI=f(c)cc=f1(I)c=f(I)
      cI
    • Я бачив сюжети прогнозованої ймовірності над справжньою ймовірністю під назвою "калібрування графіків" (статистика людей). В аналітичній хімії відповідним калібрувальним графіком буде передбачувана ймовірність над вимірюваним сигналом (як правило, якийсь інший блок). Діаграма передбачуваної істинно залежної змінної зазвичай називається кривою відновлення .
  • Набір валідацій : тут я хотів би звернути увагу на потенційно заплутане використання термінів, які, на мою думку, вже виникають у різних областях, пов’язаних зі статистикою, хоча я знову контрастую. У контексті вкладеної / подвійної валідації або оптимізації порівняно з валідацією / тестуванням один рядок термінології розбиває навчання - валідацію - тест і використовує набір "валідація" для оптимізації гіперпараметрів.
    Напр. В елементах статистичного навчання, с. 222 у 2-му виданні. :

    ... розділіть набір даних на три частини: навчальний набір, набір перевірки та тестовий набір. Навчальний набір використовується для підгонки моделей; набір перевірки використовується для оцінки похибки прогнозування для вибору моделі; тестовий набір використовується для оцінки похибки узагальнення остаточної обраної моделі.

    На противагу цьому, наприклад, в аналітичній хімії валідація - це процедура, яка демонструє, що модель (насправді оцінка кінцевої моделі є лише частиною валідації аналітичного методу) добре працює для застосування та вимірює її ефективність, див., Наприклад, Джон К. Тейлор: Валідація аналітичних методів, аналітична хімія 1983 р. 55 (6), 600A-608A або вказівок таких установ, як FDA. Це було б "тестування" в іншому рядку термінології, де "перевірка" фактично використовується для оптимізації.
    Найважливіша відмінність полягає в тому, що результати "оптимізації-валідації" повинні використовуватися для зміни (вибору) моделі, тоді як зміни у валідованому аналітичному методі (включаючи аналітичну модель даних) означають, що вам доведеться повторно підтвердити (тобто довести, що метод все ще працює так, як він повинен працювати).


Якщо вам доведеться поговорити з хіміками, хорошим посиланням на термінологію аналітичної хімії є Danzer: Аналітична хімія - теоретичні та метрологічні основи, DOI 10.1007 / b103950

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.