Запитання з тегом «data-mining»

Для обміну даними використовуються методи штучного інтелекту в контексті бази даних для виявлення раніше невідомих закономірностей. Як такі, методи, як правило, не контролюються. Це тісно пов'язане, але не тотожне машинному навчанню. Основними завданнями вибору даних є кластерний аналіз, зовнішнє виявлення та розробка правил асоціації.

3
Негативний біноміальний розподіл проти біноміального розподілу
Яка різниця між негативним біноміальним розподілом і біноміальним розподілом? Я спробував читати в Інтернеті, і виявив, що негативний біноміальний розподіл використовується, коли точки даних дискретні, але я думаю, що навіть біноміальний розподіл можна використовувати для дискретних точок даних.

8
Виконайте K-засоби (або його близькі споріднення), кластеризуючи лише матрицю відстані, а не дані по характеристиках
Я хочу виконати кластеризацію K-засобів на об'єктах, які у мене є, але об'єкти не описуються як точки в просторі, тобто за objects x featuresнабором даних. Однак я в змозі обчислити відстань між будь-якими двома об’єктами (воно засноване на функції подібності). Отже, я розпоряджаюсь матрицею відстані objects x objects. Я раніше …

5
Новий революційний спосіб передачі даних?
Наступний уривок - це інтерв'ю із стабільно успішним менеджером хедж-фондів Джаффрі Вудріфом ( майстер 2012 року) Швагера ( Wizzards Market Wizzards) (травень 2012 року): На питання: "Які найстрашніші помилки люди роблять при обробці даних?": Дуже багато людей вважають, що це нормально, оскільки вони використовують взіркові дані для тренінгу, а позамобільні …

3
Перший крок для великих даних (
Припустимо, ви аналізуєте величезний набір даних у розмірі мільярдів спостережень на день, де кожне спостереження має кілька тисяч розріджених та, можливо, зайвих числових та категоріальних змінних. Скажімо, є одна проблема регресії, одна незбалансована проблема бінарної класифікації та одне завдання "з'ясувати, які прогнози є найважливішими". Моя думка, як підійти до проблеми: …

4
Чи є дерева рішень майже завжди бінарними деревами?
Майже кожен приклад дерева, який я зустрічав, є двійковим деревом. Це досить універсально? Чи підтримують більшість стандартних алгоритмів (C4.5, CART тощо) лише бінарні дерева? З того, що я збираю, CHAID не обмежується двійковими деревами, але це, здається, є винятком. Двосторонній розкол з наступним двостороннім розщепленням на одного з дітей - …

2
Перехресне підтвердження (узагальнення помилок) після вибору моделі
Примітка: Справа n >> p Я читаю «Елементи статистичного навчання» і є різні згадки про «правильний» спосіб перехресної перевірки (наприклад, сторінка 60, стор. 245). Зокрема, моє запитання полягає в тому, як оцінити кінцеву модель (без окремого тестового набору) за допомогою CV-кратного реєстру чи завантажувального завантаження, коли відбувся пошук моделі? Здається, …

2
Якщо кластеризація k-засобів є формою моделювання суміші Гаусса, чи можна її використовувати, коли дані не є нормальними?
Я читаю Бішопа про алгоритм ЕМ для GMM та взаємозв'язок між GMM та k-засобами. У цій книзі йдеться про те, що k-засоби - це тверда версія GMM. Мені цікаво, чи означає це, що якщо дані, які я намагаюся кластеризувати, не є гауссовими, я не можу використовувати k-засоби (або, принаймні, непридатні …

4
Як дізнатися, чи є дані лінійно відокремленими?
Дані мають багато можливостей (наприклад, 100), а кількість екземплярів становить приблизно 100 000. Дані рідкі. Я хочу підходити до даних за допомогою логістичної регресії або svm. Як дізнатися, чи є функції лінійними чи нелінійними, щоб я міг використовувати хитрість ядра, якщо нелінійний?

2
Де і чому блищить глибоке навчання?
З усіма медіа-розмовами про глибоке вивчення цих днів я прочитав деякі елементарні речі про це. Щойно я виявив, що це просто ще один метод машинного навчання для вивчення шаблонів з даних. Але моє запитання: де і чому цей метод світить? Чому всі говорять про це саме зараз? Тобто в чому …

2
Функція «Цікавість» для питань StackExchange
Я намагаюся скласти пакет обміну даними для сайтів StackExchange, і зокрема, я застряг у спробі визначити "найцікавіші" питання. Я хотів би скористатися оцінкою запитань, але усунути упередження через кількість переглядів, але я не знаю, як до цього жорстко підійти. В ідеальному світі я міг би сортувати питання шляхом обчислення , …

1
Дистанційний нагляд: під наглядом, напівнаглядачем чи обома?
"Дистанційний нагляд" - це схема навчання, за якою класифікатор вивчається, на якому навчається набір слабких міток (дані тренувань автоматично позначаються на основі евристики / правил). Я думаю, що як навчання під наглядом, так і напівконтрольне навчання можуть включати такий "дистанційний нагляд", якщо їхні мічені дані євристично / автоматично позначені. Однак …

2
Підвищення: чому ступінь навчання називається параметром регуляризації?
Параметр швидкості навчання ( ) у Gradient Boosting скорочує внесок кожної нової базової моделі - типово неглибокого дерева -, яка додається у серії. Було показано, що різко підвищити точність тестового набору, що зрозуміло, оскільки при менших кроках мінімум функції втрат можна досягти більш точно. ν∈ [ 0 , 1 ]ν∈[0,1]\nu …

3
Яка практична відмінність між правилами асоціації та деревами рішень при обробці даних?
Чи є дійсно простий опис практичних відмінностей між цими двома методиками? Обидва, здається, використовуються для наглядового навчання (хоча правила асоціації також можуть поводитися без нагляду). І те й інше можна використовувати для прогнозування Найближче, що я знайшов до «хорошого» опису, - це « Підручник із Статсофта» . Кажуть, що правила …

6
Програміст, який хоче прорватися до машинного навчання
Я розробник програмного забезпечення (в основному .NET і Python близько 5 років досвіду). Що я можу зробити, щоб допомогти мені влаштуватися на роботу в галузі машинного навчання або насправді все, що змусить мене почати працювати в цій галузі? Чи є серйозною вимогою аспірантура?

6
У чому різниця між обробкою даних та статистичним аналізом?
У чому різниця між обробкою даних та статистичним аналізом? З деякого походження, моя статистична освіта була, я думаю, досить традиційною. Поставлено конкретне запитання, розроблено дослідження, дані збираються та аналізуються, щоб дати деяке розуміння цього питання. Як результат, я завжди скептично ставився до того, що вважав "драгуванням даних", тобто шукав зразки …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.