Напевно, це дуже основне питання, але я, здається, не зможу знайти на нього твердої відповіді. Я тут сподіваюся, можу.
Зараз я читаю документи як підготовку до власної магістерської роботи. Наразі я читаю документ, який досліджує взаємозв’язок між твітами та особливостями фондового ринку.
В одній зі своїх гіпотез вони припускають, що "збільшений об'єм твіту пов'язаний зі збільшенням обсягу торгів".
Я б очікувати від них, в парних кореляцій, корелюють tweetVolume
з tradingVolume
, але замість цього вони повідомляють з допомогою увійшов версії: LN(tweetVolume)
і LN(tradingVolume)
.
Для своєї дипломної роботи я повторив цю частину своєї роботи. Я збирав твіти близько 100 компаній протягом більше 6 місяців ( tweetVolume
) і обсяг торгів на акціях за ті ж часові рамки. Якщо я співвідносив абсолютні змінні, я знаходжу, r=.282, p.000
але коли я використовую зареєстровані версії, я знаходжу r=.488, p=.000
.
Я не розумію, чому дослідники іноді використовують зареєстровані версії своїх змінних і чому кореляція здається настільки вищою, якщо ви це зробите. Що тут міркує, і чому добре використовувати зареєстровані змінні?
Ваша допомога високо цінується :-)