У мене тисячі списків рядків, і кожен список містить близько 10 рядків. Більшість рядків у даному списку дуже схожі, хоча деякі рядки (рідко) повністю не пов'язані з іншими, а деякі рядки містять нерелевантні слова. Їх можна вважати галасливими варіаціями канонічної струни. Я шукаю алгоритм чи бібліотеку, які перетворять кожен список у цю канонічну рядок.
Ось один такий список.
- Зоряні війни: Епізод IV Нова надія | StarWars.com
- Зоряні війни - Епізод IV - Нова надія (1977)
- Зоряні війни: Епізод IV - Нова надія - гнилі помідори
- Дивитися Зоряні війни: Епізод IV - Нова надія в Інтернеті безкоштовно
- Зоряні війни (1977) - Найбільші фільми
- [REC] 4 плакат обіцяє смерть позамоторному мотору - SciFiNow
У цьому списку ^Star Wars:? Episode IV (- )?A New Hope$
прийнятна будь-яка рядок, що відповідає регулярному виразу .
Я переглянув курс Ендрю Нґ з машинного навчання на курсі, але не зміг знайти подібну проблему.