Досить часто я виявляв необхідність обробляти список парами. Мені було цікаво, який би був пітонічний та ефективний спосіб зробити це, і знайшов це в Google:
pairs = zip(t[::2], t[1::2])
Я вважав, що це досить пітонічно, але після недавньої дискусії про ідіоми та ефективність я вирішив зробити кілька тестів:
import time
from itertools import islice, izip
def pairs_1(t):
return zip(t[::2], t[1::2])
def pairs_2(t):
return izip(t[::2], t[1::2])
def pairs_3(t):
return izip(islice(t,None,None,2), islice(t,1,None,2))
A = range(10000)
B = xrange(len(A))
def pairs_4(t):
# ignore value of t!
t = B
return izip(islice(t,None,None,2), islice(t,1,None,2))
for f in pairs_1, pairs_2, pairs_3, pairs_4:
# time the pairing
s = time.time()
for i in range(1000):
p = f(A)
t1 = time.time() - s
# time using the pairs
s = time.time()
for i in range(1000):
p = f(A)
for a, b in p:
pass
t2 = time.time() - s
print t1, t2, t2-t1
Такі результати були на моєму комп’ютері:
1.48668909073 2.63187503815 1.14518594742
0.105381965637 1.35109519958 1.24571323395
0.00257992744446 1.46182489395 1.45924496651
0.00251388549805 1.70076990128 1.69825601578
Якщо я правильно їх інтерпретую, це має означати, що реалізація списків, індексація списків та розрізання списків у Python є дуже ефективною. Це результат як втішний, так і несподіваний.
Чи існує інший, «кращий» спосіб перегляду списку парами?
Зауважте, що якщо у списку є непарна кількість елементів, то останній не буде в жодній з пар.
Який би був правильний спосіб забезпечити включення всіх елементів?
Ці два пропозиції я додав із відповідей до тестів:
def pairwise(t):
it = iter(t)
return izip(it, it)
def chunkwise(t, size=2):
it = iter(t)
return izip(*[it]*size)
Ось результати:
0.00159502029419 1.25745987892 1.25586485863
0.00222492218018 1.23795199394 1.23572707176
Результати поки що
Найбільш пітонічні та дуже ефективні:
pairs = izip(t[::2], t[1::2])
Найефективніші та дуже пітонічні:
pairs = izip(*[iter(t)]*2)
Мені знадобилося хвилину, щоб зрозуміти, що перша відповідь використовує два ітератори, а друга використовує один.
Для роботи з послідовностями з непарною кількістю елементів пропонується збільшити оригінальну послідовність, додавши один елемент ( None
), який стає в парі з попереднім останнім елементом, чого можна досягти itertools.izip_longest()
.
Нарешті
Зауважте, що в Python 3.x він zip()
поводиться так itertools.izip()
, як itertools.izip()
його немає.
timeit
модуля.