Класичний набір даних мережі


10

Існує кілька класичних наборів даних для завдань машинного навчання класифікації / регресії. Найпопулярніші:

Але хтось знає подібні набори даних для аналізу мереж / теорії графіків? Більш конкретно - я шукаю стандартні набори даних Gold для порівняння / оцінки / навчання:

  1. заходи централізації;
  2. алгоритми мережевого кластеризації.

Мені не потрібен величезний перелік загальнодоступних мереж / графіків, але пара насправді повинна знати набори даних.

Редагувати:

Надати точні функції для "золотого стандартного набору даних" досить складно, але ось деякі думки. Я думаю, справжній класичний набір даних повинен відповідати цим критеріям:

  • Кілька посилань у статтях та підручниках;
  • Включення до відомих програмних пакетів мережевого аналізу;
  • Достатній час існування;
  • Використання в ряді курсів з аналізу графіка.

Що стосується моєї сфери інтересів, мені також потрібні марковані класи для вершин та / або попередньо обчислені (або заздалегідь визначені) "бали авторитету" (тобто оцінки центральності). Задавши це питання, я продовжив пошук, і ось кілька придатних прикладів:

  • Карате-клуб Закарі : запроваджений у 1977 році, цитований більше 1,5 тис. Разів (за даними Google Scholar), вершини мають атрибут Faction (який можна використовувати для кластеризації).
  • Мережа співпраці Ердоса : на жаль, я не знайшов цю мережу у вигляді файлу даних, але він досить відомий, і якщо хтось збагатить мережу даними спеціалізацій математиків, він також може бути використаний для тестування алгоритмів кластеризації.

1
Я думаю, ви могли б покращити це питання, визначивши "золотий стандартний набір даних" більш об'єктивно. Що робить його "обов'язковим знати"? Чи слід посилатися на це в ряді підручників? Використовується в ряді опублікованих моделей? Інакше відповіді будуть суб'єктивними, і вони змінюватимуться з часом. Погане поєднання тут.
Повітря

Відповіді:


5

Те, що ви шукаєте, можна знайти в KONECT (веб-сайт працює, коли я це пишу, але це має бути скоро виправлено!). Це майже найповніший збір даних для аналізу мережі. Але питання в тому, який із стандартних використовувати?

Ну, однозначної відповіді немає, окрім карате-клубу Захарі!

Якщо ви зробите огляд літератури в алгоритмах виявлення спільноти, ви побачите, що майже всі світні документи використовують різні мережі. Моя пропозиція переживає те, що зробили Андреа Ланчічінетті та Санто Фортунато для графіків тестування. Вони запропонували деякі алгоритми генерування графіків, наприклад, цей .

Сподіваюся, це допомагає :)


Ви можете знайти це за допомогою зворотного автомата, його найкращого друга web.archive.org/web/20150402165739/http://konect.uni-koblenz.de/…
albert


1

Єдине, про що я знаю, - це базові дані для графічних баз даних, наприклад Neo4j.

Ви можете знайти посилання, подібні до цього: http://istc-bigdata.org/index.php/benchmarking-graph-databases/

де можна знайти дані для тестування мережевого аналізу та теорії графіків.

Крім того, ви можете грати з API Twitter / Facebook для збору власних даних. Це також пропозиція у випадку, якщо ви не знайдете потрібних даних.


Дякую, але це не зовсім те, що я шукаю. Докладніше див. У оновленнях.
собач
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.