Де можна отримати хороші набори даних / проблеми тестування алгоритмів / процедур тестування?


41

Оцінюючи якість програмного забезпечення, яке ви збираєтеся використовувати (будь то те, що ви написали, або консервований пакет) для обчислювальної роботи, часто є хорошою ідеєю побачити, наскільки добре він працює на стандартних наборах даних або проблемах. Де можна отримати ці тести для перевірки обчислювальних процедур?

(Один веб-сайт / книга на відповідь, будь ласка.)


Я мав намір це стати спільнотою Wiki Wiki, і таким чином позначив її для конверсії.
JM

3
Це питання не надто широке, тобто це залежить від алгоритмів / характеру проблеми, яку це програмне забезпечення використовується для вирішення?
Андре Хольцнер

Я дуже хотів, щоб це питання було вікі спільноти , @Andre (як "великий список" ресурсів); Я позначив це для конверсії, але не знаю, чому він не був перетворений.
JM

@JM Я перетворив це.
Девід Кетчесон

Відповіді:



13

Метод виготовлених розчинів є стандартом для тестування PDE та інших розв'язувачів. Більшість символічних систем алгебри мають засоби для генерації коду, це корисно для створення виготовлених рішень. SymPy та Maple мають для цього функцію коду, серед інших.


10

Набір тестів для IVP (проблеми початкового значення для вирішувачів ODE) в даний час підтримують люди з університету Барі, Італія, які взяли його з CWI Амстердам.


1
Деякі додаткові тестові набори для IVP наведені у цій відповіді від JM на Math.StackExchange: math.stackexchange.com/a/59398
Девід Кетчесон


8

У обчислювальному електромагнетизмі існує відомий (або сумнозвісний через труднощі в деяких) набір тестових завдань: Методи випробування електромагнітного аналізу (TEAM) .

Деякі з них справді потребують серйозних сучасних чисельних методик, щоб отримати правильні результати моделювання у відповідності з експериментальними даними. Наприклад, проблема провідника-котушки .

Інший набір тестових задач для рівнянь Максвелла складений Dauge: Бенчмарк обчислення для рівнянь Максвелла для наближення синглярних рішень . Той, що знаменитий (або сумнозвісний) куб Фічери:

фіхера

будь-який і живуть на цьому кубі, буде викликом для ваших числових кодів PDE. E = - ϕϕH1+ϵE=ϕ

Нарешті, чисельний PDE, у 2D є еталонні показники hpFEM (Проблеми з відомими точними рішеннями) , я вже давно використовую тестові проблеми для тестування своїх кінцевих кодів елементів. Наприклад, відомий негладкий біля походження L-подібного прикладу домену

Δu=0,where u=rαsin(αθ).

7

Якщо вас цікавлять алгоритми бенчмаркінгу, пов'язані з молекулярними структурами, база даних pubchem має велику колекцію переважно органічних молекул. Це може бути корисним для порівняння прогнозів молекулярних властивостей, отриманих з різними моделями / програмами. На сайті є кілька варіантів завантаження великих партій молекул, які відповідають деяким заздалегідь визначеним критеріям (наприклад, хімічний склад).



7

Привабливіше веб - сайт оновлює МИЛИЙ тестовий набір вказані на веб - сайті Арнольда Neumaier з деякими додатковими проблемами для оптимізації і рішення лінійних рівнянь. Крім того, він надає програмні засоби для тестування та оновлення лінійних алгебр та оптимізаційних розв'язувачів.



6

Ми використовуємо набори даних про погоду в нашому програмному забезпеченні для моделювання енергії будівлі. Для США набір даних складається з спостережень за погодою (зазвичай в аеропортах) щогодини протягом попередніх 20 років.

Набори даних, доступні для завантаження .
Посібник для опису формату файлу .





3

Алан Генц запропонував тестовий набір функцій у статті Тестування багатовимірних інтеграційних процедур . Я не можу знайти Інтернет-версію цього документу, але посилання на нього можна знайти у статтях про бібліотеку CUBA .



2

Хороше програмне забезпечення повинно бути протестовано, і воно повинно говорити про те, як автори пройшли тестування, або або надають самі тестові набори даних (наприклад, у вигляді регресійних тестів), або принаймні надають посилання на дані, з якими тестувались.



2

Якщо ви шукаєте великі графіки або мережеві дані для перевірки. Проект мережевого аналізу Стенфорда (SNAP) має багато великих наборів даних графіків, як правило, у вигляді анонімованого списку суміжності. Деякі з їх варіантів включають:

Дані

Властивості даних

  • Кількість країв: від ~ 10 до ~ 400 мільйонів
  • Кількість вузлів: від ~ 10 до ~ 100 мільйонів
  • Типи країв: спрямований, непрямий, зважений, не зважений, підписаний та непідписаний.
  • Типи мереж: спрямовані, непрямі, двосторонні, мультиграфічні, тимчасові, марковані.

Статистика основної істини, наявна у наборах даних:

Інструменти


@JM без проблем! Я деякий час тому використовував їхні набори даних у соціальних мережах для проекту, а потім натрапив на цю статтечку і подумав, що це може бути корисним тут.
ryan

-3

Дані легко; API отримати його може бути важким. Я рекомендую Quandl . На цьому сайті є понад 10 мільйонів загальнодоступних наборів даних, доступних через один, простий, REST API. Усі дані повертаються або в CSV, або в JSON. Або, якщо програмування не є вашим сильним костюмом, є прості способи отримати дані в Excel. Програмісти R, Python та Ruby знайдуться вдома з рідними бібліотеками.


1
Ласкаво просимо до Scicomp! Я не думаю, що це такий тип даних, про який йдеться; для тестування алгоритмів вам потрібен не лише набір даних, а й відповідний відомий результат (залежно від проблеми / алгоритму) для порівняння ваших результатів.
Крістіан Класон

Дякую, @ChristianClason Я бачу, що ти маєш на увазі. Наприклад, якщо програмне забезпечення призначене для лінійної регресії, автора цікавлять набори даних, а також набір перевірених результатів аналізу для перевірки, чи пакет лінійної регресії працює правильно.
Brian Risk
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.