Запитання з тегом «data-mining»

Для обміну даними використовуються методи штучного інтелекту в контексті бази даних для виявлення раніше невідомих закономірностей. Як такі, методи, як правило, не контролюються. Це тісно пов'язане, але не тотожне машинному навчанню. Основними завданнями вибору даних є кластерний аналіз, зовнішнє виявлення та розробка правил асоціації.

2
Як передбачити, коли відбудеться наступна подія, виходячи з часів попередніх подій?
Я студент середньої школи і працюю над проектом комп’ютерного програмування, але не маю багато досвіду в галузі статистики та моделювання даних поза курсом статистики середньої школи, тому я ніби не розгублений. В основному, у мене досить великий список (припустимо, він достатньо великий, щоб відповідати припущенням для будь-яких статистичних тестів чи …

7
Об'єктивні дані в машинному навчанні
Я працюю над проектом машинного навчання з даними, які вже (сильно) упереджені підбором даних. Припустимо, у вас є набір жорстко закодованих правил. Як ви будуєте модель машинного навчання для її заміни, коли всі дані, які вона може використовувати, - це дані, які вже відфільтровані за цими правилами? Щоб зрозуміти, я …

3
Коли корисна у використанні інтерактивна візуалізація даних?
Готуючись до бесіди, яку я незабаром розповім, я нещодавно почав розбиратися у двох основних (безкоштовних) інструментах для інтерактивної візуалізації даних: GGobi та mondrian - обидва пропонують широкий спектр можливостей (навіть якщо вони трохи помийні). Я хочу попросити вашої допомоги в артикуляції (як для себе, так і для своєї майбутньої аудиторії) …

2
За яких умов машини для підвищення градієнта перевершують випадкові ліси?
Чи може градієнтний прискорювач Фрідмана досягти кращих показників, ніж з випадковим лісом Бреймана ? Якщо так, то в яких умовах або який набір даних може покращити gbm?

2
тренінгові підходи для сильно незбалансованого набору даних
У мене сильно незбалансований набір даних тесту. Позитивний набір складається з 100 випадків, тоді як негативний - 1500 випадків. Що стосується тренінгу, у мене є більший пул кандидатів: позитивний навчальний набір має 1200 випадків, а негативний навчальний набір - 12000 випадків. Для подібного сценарію у мене є кілька варіантів: 1) …

3
Що таке змішування даних?
Цей термін часто з’являється у потоках, пов’язаних із методом . Чи поєднуються конкретний метод у вивченні даних та статистичному навчанні? Я не можу отримати релевантний результат від google. Здається, суміш поєднує результати багатьох моделей і призводить до кращого результату. Чи є якийсь ресурс, який допомагає мені більше знати про це?

10
Огляд програмних засобів для пошуку даних
Хоча я пройшов підготовку інженера, я вважаю, що мене все більше цікавить пошук даних. Зараз я намагаюся далі дослідити поле. Зокрема, я хотів би зрозуміти різні категорії програмних засобів, які існують та які інструменти помітні в кожній категорії та чому. (Зверніть увагу, що я не сказав "найкращі" інструменти, лише помітні, …

4
Значення прихованих ознак?
Я намагаюся зрозуміти моделі матричної факторизації для систем рекомендування, і я завжди читаю "приховані функції", але що це означає? Я знаю, що означає функція для навчального набору даних, але я не в змозі зрозуміти ідею прихованих особливостей. Кожен стаття на тему, яку я можу знайти, є занадто дрібною. Редагувати: якщо …

1
Різниця між логістичною регресією та підтримуючими векторними машинами?
Я знаю, що при логістичній регресії виявляється гіперплан, який розділяє навчальні зразки. Я також знаю, що векторні машини підтримки знаходять гіперплан з максимальним запасом. Моє запитання: чи різниця між логістичною регресією (LR) та машинами підтримки вектора (SVM) полягає в тому, що LR виявляє будь-яку гіперплану, яка розділяє навчальні зразки, тоді …

3
Чому ми використовуємо k-засоби замість інших алгоритмів?
Я досліджував k-засоби, і ось що я отримав: k-засоби - це один із найпростіших алгоритмів, який використовує метод непідконтрольного навчання для вирішення відомих проблем кластеризації. Він працює дуже добре з великими наборами даних. Однак є і недоліки K-засобів, які є: Сильна чутливість до залишків і шуму Не добре працює з …

2
Продуктивність моделі в квантильному моделюванні
Я використовую квантильну регресію (наприклад, через gbmабо quantregв R) - не зосереджуючись на медіані, а на верхньому квантилі (наприклад, 75-й). Виходячи з фону прогнозного моделювання, я хочу оцінити, наскільки модель добре вписується в тестовий набір, і я можу описати це діловому користувачеві. Моє питання - як? У типових умовах із …

3
Блок-схеми, що допомагають вибрати правильну техніку аналізу та тесту
Оскільки людині, яка потребує статистичних знань, але не є офіційно підготовленим статистиком, мені буде корисно скласти блок-схему (або якесь дерево рішень), щоб допомогти мені вибрати правильний підхід для вирішення певної проблеми (наприклад, "чи ти? знадобиться це і знайте, що і це, і вважайте дані нормально розподіленими? Використовуйте техніку X. Якщо …


3
Різниця між машинами для факторизації та матричною факторизацією?
Я натрапив на термін Факторизаційні машини в системах рекомендацій. Я знаю, що таке матрична факторизація для систем рекомендування, але ніколи не чув про машини факторизації. То яка різниця?

2
Математика за деревами класифікації та регресії
Чи може хто-небудь допомогти пояснити деякі математики, що стоять за класифікацією в CART? Я хочу зрозуміти, як відбуваються два основні етапи. Наприклад, я підготував класифікатор CART на наборі даних і використав тестовий набір даних для позначення його прогнозованої продуктивності, але: Як обирається початковий корінь дерева? Чому і як формується кожна …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.