Дозвольте додати свої 2 ¢, моя робота - отримати хороші та чисті дані для хедж-фонду, я бачив досить багато каналів даних та історичних постачальників даних. В основному це стосується даних про запаси в США.
Для початку, якщо у вас є гроші, не заважайте завантажувати дані з Yahoo, отримуйте дані про кінець дня прямо з даних CSI , саме тут Yahoo отримує свої дані EOD та AFAIK. У них є API, де ви можете витягти дані в будь-який формат, який ви хочете. Я думаю, щорічна підписка на дані становить кілька доларів США.
Основна проблема із завантаженням даних із безкоштовного сервісу полягає в тому, що ви отримуєте лише запаси, які все ще існують, це називається Survivorship Bias і може дати неправильні результати, якщо ви подивитеся на багато акцій, оскільки ви включите лише ті, які зробили його таким далеко не ті, які були зняті з переліку.
Для того, щоб пограти з деякими внутрішніми даними, я б заглянув у IQFeed , вони надають кілька API для отримання історичних даних, хоча вони в основному є спорядженням для каналів у режимі реального часу. Але тут є досить багато варіантів, деякі брокери навіть надають завантаження історичних даних через свої API, тому просто виберіть отруту.
Але зазвичай усі ці дані не дуже чисті, як тільки ви дійсно почнете тестування назад, ви побачите, що певні запаси відсутні або з'являються у вигляді двох різних символів, або розбиття акцій належним чином не враховано тощо. І тоді ви розумієте, що історичні дані дані про дивіденди також потрібні, і тому ви починаєте працювати в колах, виправляючи дані разом із 100 різних джерел даних тощо. Отже, для початку з подачею даних зі знижкою буде зроблено, але як тільки ви запустите більш вичерпні бекстейди, у вас можуть виникнути проблеми залежно від того, що ви робите. Якщо ви просто подивіться, скажімо, на запаси S&P 500, це не буде стільки проблемою, і "дешева" подача в день.
Те, що ви не знайдете, - це безкоштовні внутрішньоденні дані. Я маю на увазі, що ви можете знайти кілька прикладів, я впевнений, що десь 5 років MSFT відмічають дані про галочки, але це не дасть вам дуже далеко.
Тоді, якщо вам потрібні справжні речі (книга замовлення II рівня, усі тики, як вони відбулися на всіх біржах), один «доступний», але відмінний варіант - Nanex . Вони фактично доставлять вам накопичувач із терабайтними даними. Якщо я добре пам’ятаю, це близько $ 3k-4K на рік даних. Але повірте, як тільки ви зрозумієте, як важко отримати хороші дані в день, ви не подумаєте, що це зовсім багато грошей.
Не перешкоджати вам, але отримувати хороші дані важко, настільки важко, адже багато хедж-фондів і банків витрачають сотні тисяч доларів на місяць, щоб отримати дані, яким вони можуть довіряти. Знову ж таки, ви можете десь почати, а потім піти звідти, але добре це побачити трохи в контексті.
Редагувати: Відповідь вище - з мого власного досвіду. Це написання від Caltech про доступні канали даних дасть більше інформації, і особливо рекомендує QuantQuote .