Ваш магістр з інформатики? Статистика?
Чи буде «наука даних» в центрі вашої тези? Або побічна тема?
Я припускаю ваші статистичні дані, і ви хочете сфокусувати свою дисертацію на проблемі "науки про дані". Якщо так, то я збираюся йти проти зерна і пропоную вам не починати з набору даних або методу ML. Натомість слід шукати цікаву дослідницьку проблему, яка недостатньо зрозуміла, або де методи МР ще не виявились успішними, або де існує багато конкуруючих методів МЛ, але жоден не здається кращим за інші.
Розглянемо це джерело даних: Stanford велика мережа Dataset колекція . Хоча ви можете вибрати один із цих наборів даних, скласти заяву про проблему, а потім запустити деякий список методів ML, такий підхід насправді не дуже розповідає про те, що таке наука даних , і, на мою думку, це не робить привести до дуже хорошої магістерської роботи.
Натомість ви можете зробити це: шукайте всі дослідницькі роботи, які використовують ML для певної конкретної категорії - наприклад, мережі співпраці (також співавторство). Коли ви будете читати кожен документ, спробувати з'ясувати , що вони були в змозі досягти з будь-яким способом ML і то , що вони не були в змозі адреси. Особливо шукайте їх пропозиції щодо "майбутніх досліджень".
Можливо, всі вони використовують один і той же метод, але ніколи не пробували конкуруючі методи ML. Або, можливо, вони не адекватно підтверджують свої результати, або, можливо, там набір даних невеликий, або, можливо, їх дослідницькі питання та гіпотеза були спрощеними або обмеженими.
Найголовніше: спробуйте з’ясувати, куди йде цей напрямок досліджень. Чому вони навіть намагаються це робити? Що в цьому суттєвого? Де і чому вони стикаються з труднощами?