Пошук дублікатів фраз - будь-який інструмент або регулярний вираз


0

У мене є довгий документ, і я підозрюю, що деякі фрази (одна або кілька речень) ідентичні або принаймні подібні. Чи є спосіб знайти ці повторювані фрази? Деякий інструмент або регулярний вираз?

Відповіді:


0

Пошук ідентичні пропозиції можна легко виконати в Notepad ++:

  1. Використовуйте регулярний вираз для кожного речення на новому рядку. Це можна зробити (наприклад) для пошуку всіх . і замінити їх .\n
  2. Видалити всі пробіли на початку рядка.
  3. Тепер перейдіть і сортуйте рядки (TextFX - & gt; Інструменти TextFX)
  4. Перетворення символу EOL у UNIX, оскільки не робить речі простішими (Edit - & gt; EOL conversion)
  5. Тепер шукайте дубльовані рядки, шукаючи ^([^\n]+)\n\1

Щоб знайти подібні речення, вам знадобиться щось на зразок програми, що містить слова, або якийсь нечіткий пошук.


1
Тут будуть знайдені тільки дві однакові лінії, які знаходяться одна за одною. Це те, що просить ОП?
Kard Nails

Ні, він знайде всі ідентичні лінії; для цього потрібний крок 3. \ t Оскільки ми сортуємо рядки, однакові лінії будуть сортуватися один за одним.
masgo
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.