Який найшвидший спосіб зіставити назви груп numpy масиву в індекси?

Я працюю з 3D-точкою Lidar. Бали задаються numpy масивом, який виглядає приблизно так:

points = np.array([[61651921, 416326074, 39805], [61605255, 416360555, 41124], [61664810, 416313743, 39900], [61664837, 416313749, 39910], [61674456, 416316663, 39503], [61651933, 416326074, 39802], [61679969, 416318049, 39500], [61674494, 416316677, 39508], [61651908, 416326079, 39800], [61651908, 416326087, 39802], [61664845, 416313738, 39913], [61674480, 416316668, 39503], [61679996, 416318047, 39510], [61605290, 416360572, 41118], [61605270, 416360565, 41122], [61683939, 416313004, 41052], [61683936, 416313033, 41060], [61679976, 416318044, 39509], [61605279, 416360555, 41109], [61664837, 416313739, 39915], [61674487, 416316666, 39505], [61679961, 416318035, 39503], [61683943, 416313004, 41054], [61683930, 416313042, 41059]])

Я хотів би, щоб мої дані , згруповані на кубики розміру , 50*50*50так що кожен куб зберігає деяку hashable індексу і Numpy показників мого pointsвін містить . Для того, щоб отримати розщеплення, я призначаю, cubes = points \\ 50які виходи:

cubes = np.array([[1233038, 8326521, 796], [1232105, 8327211, 822], [1233296, 8326274, 798], [1233296, 8326274, 798], [1233489, 8326333, 790], [1233038, 8326521, 796], [1233599, 8326360, 790], [1233489, 8326333, 790], [1233038, 8326521, 796], [1233038, 8326521, 796], [1233296, 8326274, 798], [1233489, 8326333, 790], [1233599, 8326360, 790], [1232105, 8327211, 822], [1232105, 8327211, 822], [1233678, 8326260, 821], [1233678, 8326260, 821], [1233599, 8326360, 790], [1232105, 8327211, 822], [1233296, 8326274, 798], [1233489, 8326333, 790], [1233599, 8326360, 790], [1233678, 8326260, 821], [1233678, 8326260, 821]])

Мій бажаний вихід виглядає приблизно так:

{(1232105, 8327211, 822): [1, 13, 14, 18]), 
(1233038, 8326521, 796): [0, 5, 8, 9], 
(1233296, 8326274, 798): [2, 3, 10, 19], 
(1233489, 8326333, 790): [4, 7, 11, 20], 
(1233599, 8326360, 790): [6, 12, 17, 21], 
(1233678, 8326260, 821): [15, 16, 22, 23]}

Мій справжній pointcloud містить до кількох сотень мільйонів 3D-точок. Який найшвидший спосіб зробити подібне групування?

Я спробував більшість різних рішень. Ось порівняння витрат часу, припускаючи, що розмір балів становить близько 20 мільйонів, а розмір чітких кубів - близько 1 мільйона:

Панди [tuple (elem) -> np.array (dtype = int64)]

import pandas as pd
print(pd.DataFrame(cubes).groupby([0,1,2]).indices)
#takes 9sec

Невиконання [elem.tobytes () або кортеж -> список]

#thanks @abc:
result = defaultdict(list)
for idx, elem in enumerate(cubes):
    result[elem.tobytes()].append(idx) # takes 20.5sec
    # result[elem[0], elem[1], elem[2]].append(idx) #takes 27sec
    # result[tuple(elem)].append(idx) # takes 50sec

numpy_indexed [int -> np.array]

# thanks @Eelco Hoogendoorn for his library
values = npi.group_by(cubes).split(np.arange(len(cubes)))
result = dict(enumerate(values))
# takes 9.8sec

Панди + зменшення розмірності [int -> np.array (dtype = int64)]

# thanks @Divakar for showing numexpr library:
import numexpr as ne
def dimensionality_reduction(cubes):
    #cubes = cubes - np.min(cubes, axis=0) #in case some coords are negative 
    cubes = cubes.astype(np.int64)
    s0, s1 = cubes[:,0].max()+1, cubes[:,1].max()+1
    d = {'s0':s0,'s1':s1,'c0':cubes[:,0],'c1':cubes[:,1],'c2':cubes[:,2]}
    c1D = ne.evaluate('c0+c1*s0+c2*s0*s1',d)
    return c1D
cubes = dimensionality_reduction(cubes)
result = pd.DataFrame(cubes).groupby([0]).indices
# takes 2.5 seconds

Можна завантажити cubes.npzфайл тут і використовувати команду

cubes = np.load('cubes.npz')['array']

перевірити час виконання.

— mathfux
джерело

Чи завжди у вашому результаті є однакова кількість індексів у кожному списку?

— Микола Зотко

Так, це завжди те саме: 983234 чіткі кубики для всіх вищезгаданих рішень.

— mathfux

Малоймовірно, що таке просте рішення "Панди" було б побито простим підходом, оскільки для його оптимізації було витрачено чимало зусиль. Цитонський підхід, ймовірно, міг би наблизитись до нього, але я сумніваюся, що він перевершить його.

— norok2

@mathfux Чи потрібно мати підсумковий результат як словник чи було б добре, щоб групи та їх індекси були двома результатами?

— Дівакар

@ norok2 numpy_indexedтеж підходить до цього. Я думаю, це правильно. pandasЗараз я використовую для своїх процесів класифікації.

— mathfux

Відповіді:

Постійна кількість індексів на групу

Підхід №1

Ми можемо виконати dimensionality-reductionскорочення cubesдо 1D масиву. Це ґрунтується на відображенні даних кубів на n-затемненій сітці для обчислення еквівалентів лінійних індексів, детально обговорених here. Тоді, виходячи з унікальності цих лінійних індексів, ми можемо відокремити унікальні групи та відповідні їм індекси. Отже, дотримуючись цих стратегій, у нас було б таке рішення, як-от так -

N = 4 # number of indices per group
c1D = np.ravel_multi_index(cubes.T, cubes.max(0)+1)
sidx = c1D.argsort()
indices = sidx.reshape(-1,N)
unq_groups = cubes[indices[:,0]]

# If you need in a zipped dictionary format
out = dict(zip(map(tuple,unq_groups), indices))

Альтернатива №1: Якщо значення цілих значень у cubesзанадто великі, ми можемо захотіти зробити dimensionality-reductionтак, щоб розміри з меншою мірою були обрані як основні осі. Отже, у цих випадках ми можемо змінити крок зменшення, щоб отримати c1D, як-от так -

s1,s2 = cubes[:,:2].max(0)+1
s = np.r_[s2,1,s1*s2]
c1D = cubes.dot(s)

Підхід №2

Далі ми можемо скористатися Cython-powered kd-treeдля швидкого пошуку найближчого сусіда, щоб отримати найближчі сусідні індекси, а отже, вирішити наш випадок так -

from scipy.spatial import cKDTree

idx = cKDTree(cubes).query(cubes, k=N)[1] # N = 4 as discussed earlier
I = idx[:,0].argsort().reshape(-1,N)[:,0]
unq_groups,indices = cubes[I],idx[I]

Загальний регістр: Змінна кількість індексів на групу

Ми розширимо метод, заснований на argsort, деяким розщепленням, щоб отримати бажаний результат, наприклад,

c1D = np.ravel_multi_index(cubes.T, cubes.max(0)+1)

sidx = c1D.argsort()
c1Ds = c1D[sidx]
split_idx = np.flatnonzero(np.r_[True,c1Ds[:-1]!=c1Ds[1:],True])
grps = cubes[sidx[split_idx[:-1]]]

indices = [sidx[i:j] for (i,j) in zip(split_idx[:-1],split_idx[1:])]
# If needed as dict o/p
out = dict(zip(map(tuple,grps), indices))

Використання 1D версій груп cubesяк ключів

Ми розширимо раніше перерахований метод на групи cubesяк ключі, щоб спростити процес створення словника, а також зробимо його ефективним, наприклад,

def numpy1(cubes):
    c1D = np.ravel_multi_index(cubes.T, cubes.max(0)+1)        
    sidx = c1D.argsort()
    c1Ds = c1D[sidx]
    mask = np.r_[True,c1Ds[:-1]!=c1Ds[1:],True]
    split_idx = np.flatnonzero(mask)
    indices = [sidx[i:j] for (i,j) in zip(split_idx[:-1],split_idx[1:])]
    out = dict(zip(c1Ds[mask[:-1]],indices))
    return out

Далі ми скористаємось numbaпакетом, щоб повторити і дістатись до остаточного вихідного словника словника. Ідучи з цим, було б два рішення: одне, яке отримує ключі та значення окремо за допомогою, numbaа основний виклик буде поштовувати та перетворюватись у dict, тоді як інше створюватиме numba-supportedтип dict та, отже, не вимагає додаткової роботи, необхідної для основної функції виклику .

Таким чином, у нас було б перше numbaрішення:

from numba import  njit

@njit
def _numba1(sidx, c1D):
    out = []
    n = len(sidx)
    start = 0
    grpID = []
    for i in range(1,n):
        if c1D[sidx[i]]!=c1D[sidx[i-1]]:
            out.append(sidx[start:i])
            grpID.append(c1D[sidx[start]])
            start = i
    out.append(sidx[start:])
    grpID.append(c1D[sidx[start]])
    return grpID,out

def numba1(cubes):
    c1D = np.ravel_multi_index(cubes.T, cubes.max(0)+1)
    sidx = c1D.argsort()
    out = dict(zip(*_numba1(sidx, c1D)))
    return out

І друге numbaрішення як:

from numba import types
from numba.typed import Dict

int_array = types.int64[:]

@njit
def _numba2(sidx, c1D):
    n = len(sidx)
    start = 0
    outt = Dict.empty(
        key_type=types.int64,
        value_type=int_array,
    )
    for i in range(1,n):
        if c1D[sidx[i]]!=c1D[sidx[i-1]]:
            outt[c1D[sidx[start]]] = sidx[start:i]
            start = i
    outt[c1D[sidx[start]]] = sidx[start:]
    return outt

def numba2(cubes):
    c1D = np.ravel_multi_index(cubes.T, cubes.max(0)+1)    
    sidx = c1D.argsort()
    out = _numba2(sidx, c1D)
    return out

Графіки з cubes.npzданими -

In [4]: cubes = np.load('cubes.npz')['array']

In [5]: %timeit numpy1(cubes)
   ...: %timeit numba1(cubes)
   ...: %timeit numba2(cubes)
2.38 s ± 14.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
2.13 s ± 25.2 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
1.8 s ± 5.95 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

Альтернатива № 1: Ми можемо досягти подальшого прискорення numexprдля великих масивів для обчислення c1D, як -

import numexpr as ne

s0,s1 = cubes[:,0].max()+1,cubes[:,1].max()+1
d = {'s0':s0,'s1':s1,'c0':cubes[:,0],'c1':cubes[:,1],'c2':cubes[:,2]}
c1D = ne.evaluate('c0+c1*s0+c2*s0*s1',d)

Це застосовується у всіх місцях, де це вимагається c1D.

— Дівакар
джерело

Дякую за відгук! Я не очікував, що використання cKDTree можливе тут. Однак з Вашим # Підходом1 все ще є проблеми. Довжина випуску - лише 915791. Я здогадуюсь, це якийсь конфлікт між dtypes int32іint64

— mathfux

@mathfux Я припускаю, number of indices per group would be a constant numberщо я зібрав коментарі. Це було б надійне припущення? Також ви тестуєте cubes.npzна вихід 915791?

— Дівакар

Так. Я не перевіряв кількість індексів на групу, оскільки порядок назв груп може бути різним. Я перевіряю лише довжину словника виводу cubes.npzлише 983234для інших підходів, які я запропонував.

— mathfux

@mathfux Ознайомтесь із Approach #3 цим загальним випадком змінної кількості індексів.

— Дівакар

@mathfux Так, компенсація потрібна, як правило, якщо мінімум менше 0. Хороший улов на точність!

— Дівакар

Ви можете просто повторити і додати індекс кожного елемента до відповідного списку.

from collections import defaultdict

res = defaultdict(list)

for idx, elem in enumerate(cubes):
    #res[tuple(elem)].append(idx)
    res[elem.tobytes()].append(idx)

Виконання часу може бути покращено за допомогою tobytes () замість перетворення ключа в кортеж.

— абс
джерело

На даний момент я намагаюся переглянути час виконання (для 20M балів). Здається, що моє рішення є більш ефективним з точки зору часу, оскільки уникнути ітерації. Я згоден, споживання пам’яті величезне.

— mathfux

інша пропозиція res[tuple(elem)].append(idx)зайняла 50 секунд проти її видання, res[elem[0], elem[1], elem[2]].append(idx)що зайняло 30 секунд.

— mathfux

Ви можете використовувати Cython:

%%cython -c-O3 -c-march=native -a
#cython: language_level=3, boundscheck=False, wraparound=False, initializedcheck=False, cdivision=True, infer_types=True

import math
import cython as cy

cimport numpy as cnp


cpdef groupby_index_dict_cy(cnp.int32_t[:, :] arr):
    cdef cy.size_t size = len(arr)
    result = {}
    for i in range(size):
        key = arr[i, 0], arr[i, 1], arr[i, 2]
        if key in result:
            result[key].append(i)
        else:
            result[key] = [i]
    return result

але це не зробить вас швидше, ніж те, що робить Пандас, хоча це найшвидше після цього (і, можливо, numpy_indexзасноване рішення), і не приходить з цим штрафом за пам'ять. Збірка того, що було запропоновано дотепер, знаходиться тут .

У машині OP, яка повинна наблизитися до часу виконання 12 секунд.

— norok2
джерело

Велике спасибі, я перевіряю це пізніше.

— mathfux