Я хотів би використовувати неатомні дані, як особливість для прогнозування. Припустимо, у мене є таблиця з цими функціями:
- Column 1: Categorical - House
- Column 2: Numerical - 23.22
- Column 3: A Vector - [ 12, 22, 32 ]
- Column 4: A Tree - [ [ 2323, 2323 ],[2323, 2323] , [ Boolean, Categorical ] ]
- Column 5: A List [ 122, Boolean ]
Я хотів би передбачити / класифікувати, наприклад, колонку 2.
Я роблю щось, щоб автоматично відповідати на запитання, будь-який тип запитань, наприклад "Де народився Фу?" ...
Спочатку я роблю запит до пошукової системи, потім отримую в результаті деякі текстові дані, після чого роблю всі матеріали для аналізу (теги, стовбур, розбір, розбиття ...)
Мій перший підхід полягав у тому, щоб скласти таблицю, кожен рядок з рядком тексту та безліччю функцій, як-от "Перше слово", "Тег першого слова", "Чанки" тощо ...
Але при такому підході я пропускаю зв’язки між реченнями.
Мені хотілося б знати, чи існує алгоритм, який заглядає всередині деревних структур (або векторів) і робить взаємозв'язки та витягує все, що має значення для прогнозування / класифікації. Я вважаю за краще знати про бібліотеку, яка це робить, ніж алгоритм, який я маю реалізувати.