Чи є синонімами "випадкова вибірка" та "iid випадкова змінна"?


18

Мені важко зрозуміти значення "випадкової вибірки", а також "iid випадкової змінної". Я намагався з’ясувати значення з кількох джерел, але просто все більше і більше плутався. Я публікую тут те, що я спробував і дізнався:

Імовірність та статистика Degroot говорить:

Випадкові вибірки / iid / Розмір вибірки: Розгляньте заданий розподіл ймовірностей на реальній лінії, який може бути представлений або pf, або pdf f . Кажуть , що н випадкових величин Х1,...,Хн утворюють випадкову вибірку з цього розподілу, якщо ці випадкові величини незалежні і граничне pf або pdf кожної з них f . Такі випадкові величини також називаються незалежними та однаково розподіленими, скороченими iid. Ми називаємо число n випадкових змінних як розмір вибірки.

Але одна з інших книг зі статистикою, яку я маю, говорить:

У випадковій вибірці ми гарантуємо, що кожна окрема одиниця в сукупності отримує рівний шанс (ймовірність) бути обраною.

Отже, у мене є відчуття, що idid - це елементи, які будують випадкову вибірку, а процедура отримання випадкової вибірки - випадкова вибірка. Я правий?

PS: Я дуже розгублений у цій темі, тому буду вдячний за ретельну відповідь. Спасибі.


6
Частина незалежності дуже важлива, оскільки ми можемо мати вибірку, в якій всі змінні розподілені однаково (мають однаковий граничний розподіл), але не є незалежними. Таку вибірку все ще можна розглядати як випадкову вибірку, але не експеримент, який, на вашу думку, є випадковою вибіркою. Дивіться це питання .
Діліп Сарват

Питання, схоже, не має статистичного сенсу. ІД і випадкова вибірка - це чітко розрізнені поняття, встановлені грамотними.
Subhash C. Davar

2
@ subhashc.davar Це вони? Згідно з одним визначенням: "Випадкова вибірка - це послідовність незалежних, однаково розподілених (IID) випадкових змінних". Тож здається, що iid та випадкова вибірка - це одне й те саме? Цитований абзац у Degroot's Probability & Statistics в основному говорить те саме. Я вважаю це заплутаним, оскільки "вибірка" - це іноді індивід або сукупність індивідів, а іноді - послідовність випадкових змінних.
Гері Чанг

@Gary Chang Визначення, яке ви цитували, стосується pdf. Вибірка випадкових величин користується популярністю у дисципліні психометрії. Як правило, він використовується з посиланням на оцінку надійності або достовірності та для факторного аналізу. Психометрія зацікавлена ​​у встановленні еквівалентності тестів для домену. Здається, концепція iid походить від лінійної алгебри. Вибірка може бути з даної сукупності індивідів та / або з популяції (випадкових) змінних, залежно від мети дослідження. Статистика на сьогоднішній день, схоже, запозичена з теорії вимірювань.
Subhash C. Davar

Відповіді:


9

Ви не кажете, що таке інша книга статистики, але я б припустив, що це книга (або розділ) про кінцевий вибірки населення .

Коли ви відбираєте вибіркові випадкові величини, тобто коли ви вважаєте множину з n випадкових величин, ви знаєте, що якщо вони незалежні, f ( x 1 , , x n ) = f ( x 1 ) f ( x n ) і однаково розподілені , зокрема E ( X i ) = μ та Var ( X i )X1,,Xnnf(x1,,xn)=f(x1)f(xn)Е(Хi)=мк для всіх i , то: ¯ X = i X iВар(Хi)=σ2i деσ2- другий центральний момент.

Х¯=iХiн,Е(Х¯)=мк,Вар(Х¯)=σ2н
σ2

Вибірка кінцевої сукупності дещо відрізняється. Якщо популяція має розмір , у вибірці без заміни є ( NN можливі зразкиsiрозміруnі вони є однозначними: p(si)=1(Nн)сin Наприклад, якщоN=5іn=3, простір вибірки дорівнює{s1,,s10}, а можливі вибірки: s 1 ={1,2,3}, s 2 ={1,2,4}, s 3 ={1,2,5}, s 4

p(si)=1(Nn)i=1,,(Nn)
N=5n=3{s1,,s10} Якщо порахувати кількість випадків у кожної людини, ви можете бачити, що їх шість, тобто кожна людина має рівний ланцюг вибору (6/10). Отже, кожнеsiє випадковою вибіркою згідно з другим визначенням. Приблизно, це не iid випадкова вибірка, оскільки індивіди не є випадковими змінними: ви можете послідовно оцінюватиE[X]за середньою вибіркою, але ніколи не дізнаєтесь його точне значення, але виможетезнати точну середню сукупність, якщоn=N(нехай повторюю: приблизно.)
s1={1,2,3},s2={1,2,4},s3={1,2,5},s4={1,3,4},s5={1,3,5},s6={1,4,5},s7={2,3,4},s8={2,3,5},s9={2,4,5},s10={3,4,5}
siE[X]n=N1

μn<Nμ

y¯s=i=1nyi,E(y¯s)=μ
Var(y¯s)=σ~2n(1nN)
σ~2i=1N(yiy¯)2N1. Factor (1n/N) is usally called "finite population correction factor".

This is a quick example of how a (random variable) i.i.d. random sample and a (finite population) random sample may differ. Statistical inference is mainly about random variable sampling, sampling theory is about finite population sampling.


1 Say you are manufacturing light bulbs and wish to know their average life span. Your "population" is just a theoretical or virtual one, at least if you keep manufacturing light bulbs. So you have to model a data generation process and intepret a set of light bulbs as a (random variable) sample. Say now that you find a box of 1000 light bulbs and wish to know their average life span. You can select a small set of light bulbs (a finite population sample), but you could select all of them. If you select a small sample, this doesn't transform light bulbs into random variables: the random variable is generated by you, as the choice between "all" and "a small set" is up to you. However, when a finite population is very large (say your country population), when choosing "all" is not viable, the second situation is better handled as the first one.


1
What do you mean "individuals are not random variables?" Whuber has some really nice answers here and here which use finite population sampling to explain the concept of a random variable.
jsk

I mean what I've said: if n=N then there is no uncertainty.
Sergio

That was not helpful in clarifying your statement that appears to be in direct contradiction with those made in the links. Please, there is no need to be defensive. The point about n=N has nothing to do with the statement I'm curious about. Besides, is a degenerate random variable not a random variable?
jsk

Defensive? You didn't understand those links. As whubner says, a) the tickets-in-a-box model is just a toy example to avoid "this is graduate level stuff" complains; b) he avoids calling "population" the tickets in a box, and explains why. So there is no contradiction. If one can understand what whubner has said. BTW, I'm not a random variable, are you?
Sergio

IMHO, of course.
Sergio

2

I will not bore you with probabilistic definitions and formulas, which you may easily pick up at any textbook (or here is a good place to start)

Just think of this intuitively, random sample is a set of random values. In general, each one of the values may either be identically or differently distributed. i.i.d. sample is a special case of random sample, such that every value comes from the same distribution as the others and its value does not have any influence upon other values. Independence deals with how the values were generated

i.i.d example: draw a random card from a deck and return it back (do this 5 times). You will get 5 realized values (cards). Each one of these values comes from a uniform distribution (there is equal probability to get each one of the outcomes) and each draw is independent of the others (i.e. the fact that you get an ace of spades in the first draw, does not influence in any way the result you may get in other draws).

non i.i.d. example: Now do the same thing, but without returning the card to the deck (I hope you fill the difference by now). Again you will have 5 realized values (cards) after you do this. But clearly they are dependent (the fact that you draw the ace of spades on the first draw, means you will not have a chance to get in on the 2nd draw).


1

A Random Variable usually written X, is a variable whose possible values are numerical outcomes of a random phenomenon. The random phenomenon may produce outcomes that have numerical values captured by the random variable --e.g. number of heads in 10 tosses of a coin or incomes/heights etc in a sample -- but that is not necessary .
More generally a Random Variable is a function that maps random outcomes to numeric values. E.g. each day may be sunny, cloudy or rainy. We can define a Random Variable that takes the value 1 if it is rainy, 2 if it is cloudy and 3 if it is sunny. The domain of a random variable is the set of possible outcomes.
To establish a Random Variable there must be a process or experiment that is associated with possible outcomes that can not be predicted with certainty.

Coming now to the issue of independence. Two Random Variables are independent if the value of one of them does not affect the PDF of the other. We don't revise our predictions regarding the probabilities of different values of one variable when we know something about the other variable. Therefore in the case of independence the Posterior PDFs are identical to the Prior PDFs. E.g. when we toss a unbiased coin repeatedly, the information we have about the outcome of the 5 prior tosses does not affect our prediction about the current toss, it will be always 0.5. However, if the bias of the coin is unknown and is modeled as a Random Variable, then the outcome of the previous 5 tosses affects our predictions regarding the current toss because it allows us to make inferences regarding the unknown bias of the coin. In that case the Random Variables capturing the number of Heads in a sequence of n tosses are dependent and not independent.

Coming now to the issue of Sampling. The purpose of Sampling is to inform us about the properties of an underlying distribution that is not known and must be inferred. Remember that a Distribution refers to the relative likelihood of possible outcomes in the Sample Space (which may also be a Conditional Universe). So when we Sample we chose a finite number of outcomes from the Sample space and we reproduce the Sample Space in a smaller more manageable scale. Equal probability then refers to the process of the Sampling not the probability of the Outcomes in the Sample. Equal probability sampling implies that the Sample will reflect the proportions of the outcomes in the original Sample Space. E.g. if we ask 10,000 people if they have ever been arrested it is probable that the sample we will end up will not be representative of the Population -- the Sample Space-- since people who would have been arrested might refuse to reply, therefore the proportion of possible outcomes (arrested - not arrested) will differ between our sample and the population for systematic reasons. Or if we chose a particular neighborhood to conduct a survey the results will not be representative of the City as a whole. So equal probability sampling implies that there are no systematic reasons --other than pure randomness-- that makes us believe that the proportions of possible outcomes in our sample are different from the proportions of outcomes in the Population / Sample Space.


-2

Випадкова вибірка - це реалізація послідовності випадкових змінних. Ці випадкові змінні можуть бути iid чи ні.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.