Веб-скреблінг LinkedIn


11

Нещодавно я відкрив новий пакет R для підключення до API LinkedIn. На жаль, API LinkedIn, здається, для початку досить обмежений; наприклад, ви можете отримати лише основні дані про компанії, і це відмежовано від даних про фізичних осіб. Я хотів би отримати дані про всіх співробітників даної компанії, що ви можете зробити вручну на сайті, але це неможливо через API.

import.io був би ідеальним, якби він розпізнав пагинацію LinkedIn (див. кінець сторінки).

Хто-небудь знає будь-які інструменти чи методи скребкування, застосовні до поточного формату сайту LinkedIn, або способи згинання API для проведення більш гнучкого аналізу? Переважно на R або веб-основі, але, безумовно, відкрито для інших підходів.


2
Веб-скреблінг LinkedIn суперечить їх умовам надання послуг. Див. LinkedIn “ DO ” та “DON’Ts” - DON'T: “Використовуйте вручну чи автоматизоване програмне забезпечення, пристрої, скрипти роботи, інші засоби чи процеси для доступу,“ скребок ”,“ сканування ”чи“ павук ”Служб чи будь-яких пов'язані дані або інформація; "
Брайан Шпірінг

Відповіді:



3

Scrapy - це чудова бібліотека Python, яка допоможе вам швидше скребкувати різні сайти та покращити структуру коду. Не всі сайти можна проаналізувати класичними інструментами, оскільки вони можуть використовувати динамічну побудову вмісту JS. Для цього завдання краще використовувати Selenium (Це тестова основа для веб-сайтів, але це також чудовий інструмент для скребки веб-сайтів). Для цієї бібліотеки також доступна обгортка Python . В Google ви можете знайти декілька хитрощів, які допоможуть вам використовувати Selenium всередині Scrapy і зробити ваш код чітким, організованим, а також ви можете використовувати кілька чудових інструментів для бібліотеки Scrapy .

Я думаю, що Селен був би кращим скребком для Linkedin, ніж класичні інструменти. Існує багато javascript та динамічного контенту. Крім того, якщо ви хочете зробити автентифікацію у своєму обліковому записі та скребкувати весь доступний вміст, у вас виникне багато проблем із класичною автентифікацією за допомогою простих бібліотек, таких як запити або urllib .


1

Мені подобається rvest у поєднанні з хромованим плагіном SelectorGadget для вибору відповідних розділів.

Я використовував rvest і створював невеликі сценарії для сторінки на форумах:

  1. Шукайте об’єкт «Сторінка n м»
  2. Витяг m
  3. На основі структури сторінки складіть список посилань від 1 до m (наприклад, www.sample.com/page1)
  4. Ітерація скрепера через повний список посилань

0

Я б також поїхав з красивим соусом, якщо ви знаєте пітона. У випадку, якщо ви скоріше кодуєте javascript / JQuery (а ви знайомі з node.js), ви, можливо, захочете перевірити CoffeeScript (Ознайомтеся з навчальним посібником ), я вже кілька разів успішно його використовував для скребкування веб-сторінок.


0

lxml - це приємна веб-бібліотека для запису в Python. Прекрасний суп - це обгортка понад lxml. Отже, lxml швидше, ніж і скрап, і красивий суп, і має набагато простішу криву навчання.

Це приклад скрепера, який я створив разом з ним для особистого проекту, який може перебирати веб-сторінки.


0

BeautifulSoup не працює на LinkedIn. Скрапі порушує політику. Octoparse призначений лише для Windows. Чи є інший спосіб? Я хочу отримати дані подібних людей для облікового запису людини. Будь ласка, допоможіть!


1
Будь ласка, опублікуйте це як коментар або поставте нове запитання
christopherlovell

Це важлива інформація, але будь ласка, видаліть у ній питання, якщо це має бути відповіддю.
Пітікос

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.