Навіщо використовувати зареєстровані змінні?

Напевно, це дуже основне питання, але я, здається, не зможу знайти на нього твердої відповіді. Я тут сподіваюся, можу.

Зараз я читаю документи як підготовку до власної магістерської роботи. Наразі я читаю документ, який досліджує взаємозв’язок між твітами та особливостями фондового ринку.

В одній зі своїх гіпотез вони припускають, що "збільшений об'єм твіту пов'язаний зі збільшенням обсягу торгів".

Я б очікувати від них, в парних кореляцій, корелюють tweetVolumeз tradingVolume, але замість цього вони повідомляють з допомогою увійшов версії: LN(tweetVolume)і LN(tradingVolume).

Для своєї дипломної роботи я повторив цю частину своєї роботи. Я збирав твіти близько 100 компаній протягом більше 6 місяців ( tweetVolume) і обсяг торгів на акціях за ті ж часові рамки. Якщо я співвідносив абсолютні змінні, я знаходжу, r=.282, p.000але коли я використовую зареєстровані версії, я знаходжу r=.488, p=.000.

Я не розумію, чому дослідники іноді використовують зареєстровані версії своїх змінних і чому кореляція здається настільки вищою, якщо ви це зробите. Що тут міркує, і чому добре використовувати зареєстровані змінні?

Ваша допомога високо цінується :-)

correlation data-transformation logarithm

— Пр0но
джерело

Якщо ви бачите пов'язані теми в нижньому правому куті сторінки, використання логарифмів уже висвітлювалося раніше. Зокрема, див. У лінійній регресії, коли доцільно використовувати журнал незалежної змінної замість фактичних значень? .

— Енді Ш

Причини використання зареєстрованих змінних поділяються на дві категорії: статистичну та предметну.

Статистично, якщо ваші змінні є прямокосими (тобто вони мають довгий хвіст у вищому кінці), тоді на такий захід, як кореляція чи регресія, може бути сильно вплинути один або кілька випадків у найвищому кінці одного чи обох змінні (outliers, leverage points, впливові моменти). Внесення журналу може допомогти цьому, зменшивши або усунувши перекос.

Змістовно деякі поняття краще продумувати в співвідношенні, ніж різниці. Візьміть дві міри обсягу, які ви обговорюєте. А тепер порівняйте дві компанії: одна невелика компанія, що торгує NASDAQ, про яку мало хто чула, інша - мегакорпорація. Перший отримає дуже мало твітів на день. Останні отримають багато; аналогічно для обсягу торгів. Припустимо (лише щоб вибрати номери), що компанія A зазвичай отримує 100 твітів на день, а останній отримує 100 000.

Якщо твіти компанії A виростуть з 100 до 500 (різниця в 400, співвідношення 5), це величезна новина - щось має відбуватися. Але якщо компанія B зросте з 100 000 до 100 400 (різниця в 400, коефіцієнт дуже близький до 1), нікого не цікавить. Приблизний еквівалент був би, якби він перейшов від 100 000 до 500 000.

— Пітер Флом - Відновити Моніку
джерело

дякую за швидку відповідь. Ще два питання виходять з вашої відповіді. По-перше, якщо у мене є 3 властивості для об'єкта (біржовий обсяг, прибутковість і мінливість) і прийму зафіксовану версію для одного з них? Те, що ви говорите для твітів компанії A і B, також може враховувати їх прибутки: якщо акція компанії зросте з 1 тона 1,50, то прибуток становить (50%) 0,50. Компанія B потребує збільшення з 400 до 600 (200) для аналогічного відновлення. І випливає з цього: якщо віддача негативна, LN (-0,50) очевидно не працює. Чи дозволяється тоді приймати -LN (0,50)?

— Pr0no

Крім того, якщо я правильно розумію, прийняття зареєстрованої змінної не є вільним вибором - вона повинна аргументуватися skweness-графіками (статистично)? І по суті, це лише більш логічне обґрунтування прийняття зареєстрованих даних, які насправді забезпечують проф для цього? Іншими словами, чи є тут правила, що визначають межі, над якими слід прийняти зареєстровану версію, чи це питання тлумачення?

— Pr0no

У цьому випадку ви не хочете приймати журнали відсотків: Беручи відсоток, те, що робиться в журналі. Тобто це робить співвідношення речей. Звичайно, ви можете взяти журнал деяких змінних, а не інших. Для взяття журналу не потрібні діаграми нахилу, але зазвичай змінні, які слід реєструвати, - це праворуч. Але головна річ речовина . Якщо брати журнал не має суттєвого сенсу, тоді не робіть цього. Натомість використовуйте статистичні методи, які працюють зі скасованими змінними. СУБСТАНЦІЯ - перше.

— Пітер Флом - Відновити Моніку