Я хочу створити веб-сайт, який показує порівняння між ціною продукту на Amazon та e-bay. Хто з них буде працювати краще і чому? Я трохи знайомий з BeautifulSoup , але не стільки з Scrapy гусеничної .
Я хочу створити веб-сайт, який показує порівняння між ціною продукту на Amazon та e-bay. Хто з них буде працювати краще і чому? Я трохи знайомий з BeautifulSoup , але не стільки з Scrapy гусеничної .
Відповіді:
Scrap - це веб-павук або веб-скрепер , ви даєте Scrap кореневу URL-адресу, щоб почати сканувати, потім ви можете вказати обмеження на кількість (кількість) URL-адрес, які ви хочете сканувати та отримувати тощо. Це повна рамка для веб- сканування або сканування .
Поки
BeautifulSoup - це бібліотека для розбору, яка також виконує досить непогану роботу з пошуку вмісту з URL та дозволяє вам аналізувати певні частини з них без зайвих клопотів. Він лише вибирає вміст вказаної вами URL-адреси, а потім зупиняється. Він не сканує, якщо ви вручну не помістите його в нескінченну петлю з певними критеріями.
Простими словами, з Beautiful Soup ви можете побудувати щось подібне до Scrap. Прекрасний суп - це бібліотека, а Скрапія - це повна структура .
Я думаю, що обидва добре ... я роблю проект прямо зараз, де використовують обидва. По-перше, я забираю всі сторінки за допомогою scrap і зберігаю їх у колекції mongodb, використовуючи їх конвеєри, також завантажуючи зображення, які існують на сторінці. Після цього я використовую BeautifulSoup4, щоб здійснити обробку pos, де я повинен змінити значення атрибутів і отримати деякі спеціальні теги.
Якщо ви не знаєте, на яких сторінках потрібні продукти, хорошим інструментом буде скрапію, оскільки ви можете використовувати їх сканери для запуску всіх веб-сайтів amazon / ebay, які шукають продукти, не роблячи явного циклу.
Погляньте на документацію про скрап, вона дуже проста у використанні.
Обидва використовують для аналізу даних.
Скрап :
BeautifulSoup :
Beautiful Soup - бібліотека Python для витягу даних з HTML та XML-файлів.
ми можемо використовувати цей пакет для отримання даних із сценарію java або динамічного завантаження сторінок.
Скрапія з BeautifulSoup - одне з найкращих комбо, з яким ми можемо працювати для того, щоб викреслити статичний та динамічний вміст
Як я це роблю, це використовувати API eBay / Amazon, а не скрапію, а потім аналізувати результати за допомогою BeautifulSoup.
API дає вам офіційний спосіб отримання тих самих даних, які ви отримали б від сканера-сканера, без необхідності турбуватися про приховування вашої особи, безладдя з проксі-серверами тощо.
Scrap Це рамка для веб-вискоблювання, яка постачається з безліччю смаколиків, які полегшують вискоблювання, щоб ми могли зосередитись лише на логіці сканування. Нижче наведено деякі з моїх улюблених речей, про які піклується нас.
Налаштування проксі, агента користувача, заголовків тощо: scrap дозволяє нам динамічно встановлювати та обертати проксі та інші заголовки.
Елемент Трубопроводи : Трубопроводи дозволяють обробляти дані після вилучення. Наприклад, ми можемо налаштувати конвеєр для передачі даних на ваш сервер mysql.
Файли cookie: scrap автоматично обробляє файли cookie.
тощо.
TLDR: scrap - це рамка, яка забезпечує все, що може знадобитися для створення широкомасштабних сканів. Він надає різні функції, які приховують складність сканування полотна. можна просто почати писати веб-сканери, не турбуючись про тягар налаштувань.
Гарний суп Beautiful Soup - це пакет Python для розбору HTML та XML-документів . Тож за допомогою Супу Beautiful можна розібрати вже завантажену веб-сторінку. BS4 дуже популярний і старий. На відміну від скрапінгу, ви не можете використовувати гарний суп лише для того, щоб зробити сканерів . Вам потрібні інші бібліотеки, наприклад запити, urllib тощо, щоб зробити сканери з bs4. Знову ж таки, це означає, що вам потрібно буде керувати списком скануваних URL-адрес, їх сканувати, обробляти файли cookie, керувати проксі, обробляти помилки, створювати власні функції для пересилання даних у CSV, JSON, XML тощо. Якщо ви хочете пришвидшити ніж вам доведеться використовувати інші бібліотеки, наприклад багатопроцесорні .
Підсумовуючи.
Скрапія - це багата рамка, яку ви можете використовувати, щоб почати писати сканери без жодних клопотів.
Гарний суп - це бібліотека, яку ви можете використовувати для розбору веб-сторінки. Його не можна використовувати поодинці для вискоблювання Інтернету.
Ви обов'язково повинні використовувати скрапію для свого сайту порівняння цін на Amazon та e-bay. Ви можете створити базу даних URL-адрес і щодня запускати гусеничні роботи (завдання з крон, селера для планування сканів) та оновлювати ціну на вашій базі даних. Таким чином, ваш веб-сайт завжди буде витягувати з бази даних, а сканер і база даних будуть діяти як окремі компоненти.
BeautifulSoup - це бібліотека, яка дозволяє отримувати інформацію з веб-сторінки.
З іншого боку, скрап - це рамка, яка робить вищезазначене та багато іншого, що вам, мабуть, знадобиться у вашому проекті скребки, як трубопроводи для збереження даних.
Ви можете перевірити цей блог, щоб розпочати роботу з Scrap https://www.inkoop.io/blog/web-scraping-using-python-and-scrapy/
Відмінностей багато і вибір будь-якого інструменту / технології залежить від індивідуальних потреб.
Кілька основних відмінностей: