Ви можете написати програмне забезпечення на:
- Візьміть ключові слова з регулярного виразу;
- Google ключові слова та отримати список результатів;
- Скануйте кожен отриманий URI і відфільтруйте його з повним регулярним виразом.
Давайте вивчимо випадок: з site:gog.com
пошуку всіх ігор, які мають іспанський голос.
Регулярний вираз:
Audio[^:]*:[^.,]*Spanish
Він повинен відповідати, наприклад:
Audio lanuage: English, German, Spanish, French.
І не відповідають:
Audio language: only-English. Text language: Spanish.
Крок 1. Дозвольте вашому програмному забезпеченню шукати це в Google:
site:gog.com audio Spanish inurl:game
inurl:game
тут розуміється лише пошук на сторінках з описом ігор
Крок 2. Отримайте 300 отриманих посилань і перейдіть до кожного з них.
Крок 3. Фільтруйте результат за заданим регулярним виразом:
Audio[^:]*:[^.,]*Spanish
Це має бути легко побудувати. Насправді я не розумію, чому я не міг знайти те, що вже побудовано таким чином.
Оскільки пошукові системи не можуть дозволити собі ресурс сканувати свої дані регулярним виразом, ця брудна робота потрапляє з вашого боку, і ваш комп'ютер повинен це робити з тим, що вже надають пошукові системи.