Я хочу дослідити поведінку авіакомпаній щодо встановлення цін - зокрема, як авіакомпанії реагують на ціни конкурентів.
Як я б сказав, мої знання про більш складний аналіз досить обмежені, я робив здебільшого всі основні методи, щоб зібрати загальний вигляд даних. Сюди входять прості графіки, які вже допомагають виявити подібні зразки. Я також використовую SAS Enterprise 9.4.
Однак я шукаю підхід на основі більшої кількості.
Набір даних
Набір (само) зібраних даних, який я використовую, містить близько 54 000 тарифів. Усі тарифи збиралися протягом 60-денного часового вікна, щодня (щовечора о 00:00).
Отже, кожна вартість проїзду протягом цього часового вікна відбувається в разів залежно від наявності тарифу, а також дати вильоту рейсу, коли він проходить до дати збору тарифу. (Ви не можете збирати вартість проїзду на рейс, коли дата відправлення рейсу минула)
Неформатоване, що в основному виглядає так: (підроблені дані)
+--------------------+-----------+--------------------+--------------------------+---------------+
| requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 | XA |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 966.32 | 16APR2015:13:20:02 | 23APR2015:19:00:04 | XY |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 915.32 | 16APR2015:13:20:02 | 23APR2015:21:55:04 | XH |
+--------------------+-----------+--------------------+--------------------------+---------------+
"DaysBeforeDeparture" обчислюється через де
- I & інтервал (дні до відправлення)
- s та дата проїзду (виліт рейсу)
- c & дата сплати тарифу
Ось приклад згрупованих даних, встановлених I (DaysBeforeDep.) (Підроблені дані!):
+-----------------+------------------+------------------+------------------+------------------+
| DaysBefDeparture | AVG_of_sale | MIN_of_sale | MAX_of_sale | operatingCarrier |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 880.68 | 477.99 | 2,245.23 | DL |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 904.89 | 477.99 | 2,534.55 | DL |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 1,044.39 | 920.99 | 2,119.09 | LH |
+-----------------+------------------+------------------+------------------+------------------+
Що я придумав поки що
Дивлячись на лінійні графіки, я вже можу оцінити, що кілька рядків матимуть високий коефіцієнт кореляції. Отже, я спробував спочатку використати кореляційний аналіз на згрупованих даних. Але це правильний шлях? В основному я намагаюсь зараз корелювати середні показники, а не окремі ціни? Чи є інший спосіб?
Я не впевнений, яка регресивна модель підходить сюди, оскільки ціни не рухаються в будь-якій лінійній формі і здаються нелінійними. Чи потрібно мені пристосувати модель до кожного цінового розвитку авіакомпанії
PS: Це довга текстова стінка. Якщо мені потрібно щось уточнити, дайте мені знати. Я новачок у цьому підрозділі.
Хтось підказку? :-)