Які різні випадки використання йоблібу проти соління?

Question 1

Довідкова інформація: Я лише починаю роботу з scikit-learn і читаю внизу сторінки про joblib проти соління .

може бути цікавіше використовувати заміну розсоління joblib (joblib.dump & joblib.load), яка є більш ефективною для великих даних, але може розсолити лише диск, а не рядок

Я читаю ці запитання щодо Pickle, типових випадків використання маринованих окулярів у Python і цікавлюсь, чи може спільнота тут поділитися різницею між joblib та pickle? Коли слід використовувати одне над іншим?

Question 2

joblib зазвичай значно швидший у великих масивах numpy, оскільки він має спеціальну обробку для буферів масивів структури numpy. Щоб дізнатись про деталі реалізації, ви можете поглянути на вихідний код . Він також може стискати ці дані на льоту під час травлення за допомогою zlib або lz4.
joblib також дає змогу відобразити в пам'яті буфер даних нестисненого масиву numpy, вибраного joblib, під час його завантаження, що дозволяє спільно використовувати пам'ять між процесами.
якщо ви не маринуєте великі масиви numpy, то звичайне маринування може бути значно швидшим, особливо на великих колекціях невеликих об'єктів python (наприклад, великий dict об'єктів str), оскільки модуль pickle стандартної бібліотеки реалізований в C, тоді як joblib є чистий пітон.
оскільки PEP 574 (протокол Pickle 5) був об’єднаний в Python 3.8, тепер набагато ефективніше (з точки зору пам'яті та процесора) маринувати великі масиви numpy за допомогою стандартної бібліотеки. Великі масиви в цьому контексті означають 4 ГБ або більше.
Але joblib все ще може бути корисним з Python 3.8 для завантаження об'єктів, що мають вкладені масиви numpy в режимі відображення пам'яті mmap_mode="r".

Question 3

Дякуємо Гуньяну, що дав нам цей сценарій! Я змінив його для результатів Python3

#comapare pickle loaders
from time import time
import pickle
import os
import _pickle as cPickle
from sklearn.externals import joblib

file = os.path.join(os.path.dirname(os.path.realpath(__file__)), 'database.clf')
t1 = time()
lis = []
d = pickle.load(open(file,"rb"))
print("time for loading file size with pickle", os.path.getsize(file),"KB =>", time()-t1)

t1 = time()
cPickle.load(open(file,"rb"))
print("time for loading file size with cpickle", os.path.getsize(file),"KB =>", time()-t1)

t1 = time()
joblib.load(file)
print("time for loading file size joblib", os.path.getsize(file),"KB =>", time()-t1)

time for loading file size with pickle 79708 KB => 0.16768312454223633
time for loading file size with cpickle 79708 KB => 0.0002372264862060547
time for loading file size joblib 79708 KB => 0.0006849765777587891

Question 4

Я натрапив на те саме запитання, тому спробував це (з Python 2.7), оскільки мені потрібно завантажити великий файл засолу

#comapare pickle loaders
from time import time
import pickle
import os
try:
   import cPickle
except:
   print "Cannot import cPickle"
import joblib

t1 = time()
lis = []
d = pickle.load(open("classi.pickle","r"))
print "time for loading file size with pickle", os.path.getsize("classi.pickle"),"KB =>", time()-t1

t1 = time()
cPickle.load(open("classi.pickle","r"))
print "time for loading file size with cpickle", os.path.getsize("classi.pickle"),"KB =>", time()-t1

t1 = time()
joblib.load("classi.pickle")
print "time for loading file size joblib", os.path.getsize("classi.pickle"),"KB =>", time()-t1

Результатом для цього є

time for loading file size with pickle 1154320653 KB => 6.75876188278
time for loading file size with cpickle 1154320653 KB => 52.6876490116
time for loading file size joblib 1154320653 KB => 6.27503800392

Відповідно до цього joblib працює краще, ніж модуль cPickle та Pickle з цих 3 модулів. Дякую