Інформаційно-орієнтований набір даних / дослідження для дисертації статистики MSc


11

Я хотів би вивчити "науку про дані". Цей термін здається мені трохи розпливчастим, але, мабуть, вимагає:

  1. машинне навчання (а не традиційна статистика);
  2. досить великий набір даних, що вам доведеться виконувати аналізи на кластерах.

Які хороші набори даних та проблеми, доступні статистику з деяким досвідом програмування, я можу використати для вивчення галузі науки про дані?

Щоб зробити це максимально вузьким, я б в ідеалі хотів, щоб посилання відкривали, добре використовувались набори даних та приклади проблем.

Відповіді:



5

Фонд « Сонячне світло» - це організація, яка орієнтована на відкриття та заохочення безпартійного аналізу даних уряду.

У дикій природі існує безліч аналізів, які можна використовувати для порівняння, і найрізноманітніші теми.

Вони забезпечують інструменти і інтерфейси для доступу до даними, і допомогли поштовх , щоб зробити дані доступними в таких місцях , як data.gov .

Один цікавий проект - « Впливник» . Тут ви можете отримати вихідні дані , а також доступ до даних у режимі реального часу.

Ви також можете поглянути на одне з наших більш популярних питань:

Загальнодоступні набори даних .


5

Ваш магістр з інформатики? Статистика?

Чи буде «наука даних» в центрі вашої тези? Або побічна тема?

Я припускаю ваші статистичні дані, і ви хочете сфокусувати свою дисертацію на проблемі "науки про дані". Якщо так, то я збираюся йти проти зерна і пропоную вам не починати з набору даних або методу ML. Натомість слід шукати цікаву дослідницьку проблему, яка недостатньо зрозуміла, або де методи МР ще не виявились успішними, або де існує багато конкуруючих методів МЛ, але жоден не здається кращим за інші.

Розглянемо це джерело даних: Stanford велика мережа Dataset колекція . Хоча ви можете вибрати один із цих наборів даних, скласти заяву про проблему, а потім запустити деякий список методів ML, такий підхід насправді не дуже розповідає про те, що таке наука даних , і, на мою думку, це не робить привести до дуже хорошої магістерської роботи.

Натомість ви можете зробити це: шукайте всі дослідницькі роботи, які використовують ML для певної конкретної категорії - наприклад, мережі співпраці (також співавторство). Коли ви будете читати кожен документ, спробувати з'ясувати , що вони були в змозі досягти з будь-яким способом ML і то , що вони не були в змозі адреси. Особливо шукайте їх пропозиції щодо "майбутніх досліджень".

Можливо, всі вони використовують один і той же метод, але ніколи не пробували конкуруючі методи ML. Або, можливо, вони не адекватно підтверджують свої результати, або, можливо, там набір даних невеликий, або, можливо, їх дослідницькі питання та гіпотеза були спрощеними або обмеженими.

Найголовніше: спробуйте з’ясувати, куди йде цей напрямок досліджень. Чому вони навіть намагаються це робити? Що в цьому суттєвого? Де і чому вони стикаються з труднощами?


Це досить гарна ідея. Майстри в статистиці.
користувач3279453
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.