Як додати додатковий стовпець до масиву NumPy

292

Скажімо, у мене є масив NumPy a:

a = np.array([
    [1, 2, 3],
    [2, 3, 4]
    ])

І я хотів би додати стовпчик нулів, щоб отримати масив b:

b = np.array([
    [1, 2, 3, 0],
    [2, 3, 4, 0]
    ])

Як я можу це легко зробити в NumPy?

python numpy

— Петро Сміт
джерело

181

Я думаю, що більш просте рішення та швидше завантажувати - це зробити наступне:

import numpy as np
N = 10
a = np.random.rand(N,N)
b = np.zeros((N,N+1))
b[:,:-1] = a

І терміни:

In [23]: N = 10

In [24]: a = np.random.rand(N,N)

In [25]: %timeit b = np.hstack((a,np.zeros((a.shape[0],1))))
10000 loops, best of 3: 19.6 us per loop

In [27]: %timeit b = np.zeros((a.shape[0],a.shape[1]+1)); b[:,:-1] = a
100000 loops, best of 3: 5.62 us per loop

— ДжошАдель
джерело

16

Я хочу додати (985,1) форму np araay до (985,2) np масиву, щоб зробити його (985,3) np масивом, але він не працює. Я отримую помилку "не можу транслювати вхідний масив із форми (985) у форму (985,1)". Що не так з моїм кодом? Код: np.hstack (data, data1)

— Outlier

5

@Outlier ви повинні розмістити нове запитання, а не ставити його в коментарях до цього.

— JoshAdel

4

@JoshAdel: Я спробував ваш код на ipython, і, думаю, є синтаксична помилка. Ви можете спробувати змінитись a = np.random.rand((N,N))наa = np.random.rand(N,N)

— hlin117

Я здогадуюсь, це надмірний рівень того, про що попросив ОП. Відповідь Опа влучна!

— lft93ryt

Це лише хитрість виконувати додавання, вставлення чи стек. і не слід сприймати як відповідь. Інженери повинні розглянути можливість використання відповідей нижче.

— cinqS

325

np.r_[ ... ]і np.c_[ ... ] є корисними альтернативами vstackта hstackз квадратними дужками [] замість круглих ().
Кілька прикладів:

: import numpy as np
: N = 3
: A = np.eye(N)

: np.c_[ A, np.ones(N) ]              # add a column
array([[ 1.,  0.,  0.,  1.],
       [ 0.,  1.,  0.,  1.],
       [ 0.,  0.,  1.,  1.]])

: np.c_[ np.ones(N), A, np.ones(N) ]  # or two
array([[ 1.,  1.,  0.,  0.,  1.],
       [ 1.,  0.,  1.,  0.,  1.],
       [ 1.,  0.,  0.,  1.,  1.]])

: np.r_[ A, [A[1]] ]              # add a row
array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.],
       [ 0.,  1.,  0.]])
: # not np.r_[ A, A[1] ]

: np.r_[ A[0], 1, 2, 3, A[1] ]    # mix vecs and scalars
  array([ 1.,  0.,  0.,  1.,  2.,  3.,  0.,  1.,  0.])

: np.r_[ A[0], [1, 2, 3], A[1] ]  # lists
  array([ 1.,  0.,  0.,  1.,  2.,  3.,  0.,  1.,  0.])

: np.r_[ A[0], (1, 2, 3), A[1] ]  # tuples
  array([ 1.,  0.,  0.,  1.,  2.,  3.,  0.,  1.,  0.])

: np.r_[ A[0], 1:4, A[1] ]        # same, 1:4 == arange(1,4) == 1,2,3
  array([ 1.,  0.,  0.,  1.,  2.,  3.,  0.,  1.,  0.])

(Причина для квадратних дужок [] замість round () полягає в тому, що Python розширюється, наприклад, 1: 4 у квадраті - чудеса перевантаження.)

— деніс
джерело

7

просто шукав інформацію про це, і остаточно це краща відповідь, ніж прийнята, оскільки вона охоплює додавання додаткового стовпчика на початку та в кінці, а не лише в кінці, як інші відповіді

— Ай0

2

@ Ay0 Точно я шукав спосіб додати одиницю зміщення в мою штучну нейронну мережу в пакеті по всіх шарах одночасно, і це ідеальна відповідь.

— габоровий

А що, якщо ви хочете додати n колонок за раз?

— Райлі

1

@ Райлі, ти можеш навести приклад, будь ласка? Python 3 має "ітерабельну розпакування", наприклад np.c_[ * iterable ]; см експресії списки .

— денис

@denis, саме це я шукав!

— Райлі

148

Використання numpy.append:

>>> a = np.array([[1,2,3],[2,3,4]])
>>> a
array([[1, 2, 3],
       [2, 3, 4]])

>>> z = np.zeros((2,1), dtype=int64)
>>> z
array([[0],
       [0]])

>>> np.append(a, z, axis=1)
array([[1, 2, 3, 0],
       [2, 3, 4, 0]])

— гемний
джерело

3

Це добре, коли вставляти складніші стовпці.

— Thomas Ahle

6

Це простіше, ніж відповідь @JoshAdel, але при роботі з великими наборами даних це повільніше. Я обираю між цими двома залежно від важливості читабельності.

— dvj

3

appendнасправді просто дзвінкиconcatenate

— rll

53

Одним із способів використання hstack є:

b = np.hstack((a, np.zeros((a.shape[0], 1), dtype=a.dtype)))

— Петро Сміт
джерело

2

Я думаю, що це найелегантніше рішення.

— силвадо

2

+1 - ось як я це зробив би - ти побив мене, щоб розмістити це як відповідь :).

— Блер

3

Видаліть dtypeпараметр, він не потрібен і навіть не дозволений. Хоча ваше рішення є досить елегантним, зверніть увагу, щоб не використовувати його, якщо вам потрібно часто "додавати" до масиву. Якщо ви не можете створити весь масив одночасно і заповнити його пізніше, створіть список масивів і hstackвсе це відразу.

— eumiro

1

@eumiro Я не впевнений, як мені вдалося отримати тип у неправильному місці, але np.zeros потребує dtype, щоб уникнути того, що все стане плаваючим (поки це int)

— Peter Smit

42

Я вважаю, що найелегантніше:

b = np.insert(a, 3, values=0, axis=1) # Insert values before column 3

Перевагою insertє те, що він також дозволяє вставляти стовпці (або рядки) в інші місця всередині масиву. Крім того, замість того, щоб вставити одне значення, ви можете легко вставити цілий вектор, наприклад, дублювати останній стовпець:

b = np.insert(a, insert_index, values=a[:,2], axis=1)

Що призводить до:

array([[1, 2, 3, 3],
       [2, 3, 4, 4]])

Час insertможе бути повільніше, ніж рішення JoshAdel:

In [1]: N = 10

In [2]: a = np.random.rand(N,N)

In [3]: %timeit b = np.hstack((a, np.zeros((a.shape[0], 1))))
100000 loops, best of 3: 7.5 µs per loop

In [4]: %timeit b = np.zeros((a.shape[0], a.shape[1]+1)); b[:,:-1] = a
100000 loops, best of 3: 2.17 µs per loop

In [5]: %timeit b = np.insert(a, 3, values=0, axis=1)
100000 loops, best of 3: 10.2 µs per loop

— Бьорн
джерело

1

Це досить акуратно. Шкода, що я не можу зробити, insert(a, -1, ...)щоб додати стовпчик. Здогадуюсь, я замість цього просто доплачу.

— Thomas Ahle

2

@ThomasAhle Ви можете додати рядок або стовпець, отримавши розмір у цій осі, використовуючи a.shape[axis]. І. е. для додавання рядка, ви робите, np.insert(a, a.shape[0], 999, axis=0)а для стовпця - ви np.insert(a, a.shape[1], 999, axis=1).

— blubberdiblub

35

Мене також зацікавило це питання і порівняло швидкість

numpy.c_[a, a]
numpy.stack([a, a]).T
numpy.vstack([a, a]).T
numpy.ascontiguousarray(numpy.stack([a, a]).T)               
numpy.ascontiguousarray(numpy.vstack([a, a]).T)
numpy.column_stack([a, a])
numpy.concatenate([a[:,None], a[:,None]], axis=1)
numpy.concatenate([a[None], a[None]], axis=0).T

які всі роблять те саме для будь-якого вхідного вектора a. Терміни вирощування a:

Зауважте, що всі непомітні варіанти (зокрема stack/ vstack) в кінцевому підсумку швидші за всі суміжні варіанти. column_stack(для його чіткості та швидкості), здається, є хорошим варіантом, якщо вам потрібна суміжність.

Код для відтворення сюжету:

import numpy
import perfplot

perfplot.save(
    "out.png",
    setup=lambda n: numpy.random.rand(n),
    kernels=[
        lambda a: numpy.c_[a, a],
        lambda a: numpy.ascontiguousarray(numpy.stack([a, a]).T),
        lambda a: numpy.ascontiguousarray(numpy.vstack([a, a]).T),
        lambda a: numpy.column_stack([a, a]),
        lambda a: numpy.concatenate([a[:, None], a[:, None]], axis=1),
        lambda a: numpy.ascontiguousarray(
            numpy.concatenate([a[None], a[None]], axis=0).T
        ),
        lambda a: numpy.stack([a, a]).T,
        lambda a: numpy.vstack([a, a]).T,
        lambda a: numpy.concatenate([a[None], a[None]], axis=0).T,
    ],
    labels=[
        "c_",
        "ascont(stack)",
        "ascont(vstack)",
        "column_stack",
        "concat",
        "ascont(concat)",
        "stack (non-cont)",
        "vstack (non-cont)",
        "concat (non-cont)",
    ],
    n_range=[2 ** k for k in range(20)],
    xlabel="len(a)",
    logx=True,
    logy=True,
)

— Ніко Шльомер
джерело

1

Гарний графік! Просто думав , що ви хотіли б знати , що під капотом, stack, hstack, vstack, column_stack, dstackвсе допоміжні функції , побудовані на вершині np.concatenate. Простеживши визначення стека, я виявив, що np.stack([a,a])викликає np.concatenate([a[None], a[None]], axis=0). Це може бути приємно додатиnp.concatenate([a[None], a[None]], axis=0).T до perfplot, щоб показати, що np.concatenateзавжди може бути як мінімум так швидко, як його помічники.

— unutbu

@unutbu Додав це.

— Ніко Шльомер

Гарна бібліотека, про неї ніколи не чули! Досить цікаво, що я отримав однакові сюжети, за винятком того, що стек та конмат змінили місця (як у варіантах ascont, так і в нетривалих). Плюс поміняються concat-column та column_stack.

— Антоні Хеткінс

1

Нічого собі, любимо ці сюжети!

— jhegedus

Здається, що для рекурсивної операції додавання стовпця до масиву, наприклад, b = [b, a], частина команди не працює (помилка щодо неоднакових розмірів підвищується). Єдині два, які, здається, працюють з масивами неоднакового розміру (тобто, коли один є матрицею, а інший - 1d-вектором), є c_іcolumn_stack

— Збентежений

29

Я думаю:

np.column_stack((a, zeros(shape(a)[0])))

є більш елегантним.

— user2820502
джерело

12

np.concatenate також працює

>>> a = np.array([[1,2,3],[2,3,4]])
>>> a
array([[1, 2, 3],
       [2, 3, 4]])
>>> z = np.zeros((2,1))
>>> z
array([[ 0.],
       [ 0.]])
>>> np.concatenate((a, z), axis=1)
array([[ 1.,  2.,  3.,  0.],
       [ 2.,  3.,  4.,  0.]])

— han4wluc
джерело

np.concatenateздається, в 3 рази швидше, ніж np.hstackдля матриць 2x1, 2x2 та 2x3. np.concatenateбуло також трохи швидше, ніж копіювання матриць вручну в порожню матрицю в моїх експериментах. Це відповідає відповіді Ніко Шльомер нижче.

— Ленар Хойт

11

Якщо припустити M, що ndarray є (100,3), і ndarray y(100,) appendможе використовуватися наступним чином:

M=numpy.append(M,y[:,None],1)

Хитрість полягає у використанні

y[:, None]

Це перетворюється yна (100, 1) 2D масив.

M.shape

тепер дає

(100, 4)

— Роель Верховен
джерело

Ти герой, якого ти це знаєш ?! Це саме те, що я тягнула волосся за останні 1 годину! Ти!

— Джон Доу

8

Мені подобається відповідь ДжошАдела через зосередженість на роботі. Невелике поліпшення продуктивності полягає у тому, щоб уникнути накладних ініціалізації нулями, а лише перезаписати їх. Це має відмірну різницю, коли N великий, порожній використовується замість нулів, а стовпець нулів записується як окремий крок:

In [1]: import numpy as np

In [2]: N = 10000

In [3]: a = np.ones((N,N))

In [4]: %timeit b = np.zeros((a.shape[0],a.shape[1]+1)); b[:,:-1] = a
1 loops, best of 3: 492 ms per loop

In [5]: %timeit b = np.empty((a.shape[0],a.shape[1]+1)); b[:,:-1] = a; b[:,-1] = np.zeros((a.shape[0],))
1 loops, best of 3: 407 ms per loop

— toddInPortland
джерело

Ви можете використовувати мовлення для заповнення останнього стовпчика нулів (або будь-якого іншого значення), яке може бути більш зручним для читання: b[:,-1] = 0. Крім того, при дуже великих масивах різниця в продуктивності np.insert()стає незначною, що може зробити np.insert()більш бажаним через його стислість.

— blubberdiblub

7

np.insert також служить меті.

matA = np.array([[1,2,3], 
                 [2,3,4]])
idx = 3
new_col = np.array([0, 0])
np.insert(matA, idx, new_col, axis=1)

array([[1, 2, 3, 0],
       [2, 3, 4, 0]])

Він вставляє значення тут new_col, перед заданим індексом, тут idxпо одній осі. Іншими словами, щойно введені значення займатимуть idxстовпчик і переміщуватимуть те, що було спочатку там, після та idxназад.

— Тай
джерело

1

Зауважте, що insertвін не стоїть на місці, як можна було припустити, назвавши функцію (див. Документи, пов’язані у відповіді).

— jneuendorf

5

Додайте додатковий стовпець до масивного ряду:

Метод Numpy np.appendприймає три параметри, перші два - це двовимірні масиви, а третій - параметр осі, який вказує, до якої осі слід додавати:

import numpy as np  
x = np.array([[1,2,3], [4,5,6]]) 
print("Original x:") 
print(x) 

y = np.array([[1], [1]]) 
print("Original y:") 
print(y) 

print("x appended to y on axis of 1:") 
print(np.append(x, y, axis=1))

Друкує:

Original x:
[[1 2 3]
 [4 5 6]]
Original y:
[[1]
 [1]]
x appended to y on axis of 1:
[[1 2 3 1]
 [4 5 6 1]]

— Хасан Багалу
джерело

Зверніть увагу, що ви додаєте y до x тут, а не додаєте x до y - ось чому вектор стовпця y знаходиться праворуч від стовпців x в результаті.

— Брайан Попек

4

Трохи запізнюємось на вечірку, але ніхто ще не опублікував цю відповідь, тому задля повноти: ви можете це зробити за допомогою списку розумінь на простому масиві Python:

source = a.tolist()
result = [row + [0] for row in source]
b = np.array(result)

— btk
джерело

4

Для мене наступний спосіб виглядає досить інтуїтивно і просто.

zeros = np.zeros((2,1)) #2 is a number of rows in your array.   
b = np.hstack((a, zeros))

— Шимон S
джерело

3

У моєму випадку мені довелося додати стовпчик з них до масиву NumPy

X = array([ 6.1101, 5.5277, ... ])
X.shape => (97,)
X = np.concatenate((np.ones((m,1), dtype=np.int), X.reshape(m,1)), axis=1)

Після X.shape => (97, 2)

array([[ 1. , 6.1101],
       [ 1. , 5.5277],
...

— Мірча Станцю
джерело

1

Для цього є спеціально функція. Це називається numpy.pad

a = np.array([[1,2,3], [2,3,4]])
b = np.pad(a, ((0, 0), (0, 1)), mode='constant', constant_values=0)
print b
>>> array([[1, 2, 3, 0],
           [2, 3, 4, 0]])

Ось що написано в docstring:

Pads an array.

Parameters
----------
array : array_like of rank N
    Input array
pad_width : {sequence, array_like, int}
    Number of values padded to the edges of each axis.
    ((before_1, after_1), ... (before_N, after_N)) unique pad widths
    for each axis.
    ((before, after),) yields same before and after pad for each axis.
    (pad,) or int is a shortcut for before = after = pad width for all
    axes.
mode : str or function
    One of the following string values or a user supplied function.

    'constant'
        Pads with a constant value.
    'edge'
        Pads with the edge values of array.
    'linear_ramp'
        Pads with the linear ramp between end_value and the
        array edge value.
    'maximum'
        Pads with the maximum value of all or part of the
        vector along each axis.
    'mean'
        Pads with the mean value of all or part of the
        vector along each axis.
    'median'
        Pads with the median value of all or part of the
        vector along each axis.
    'minimum'
        Pads with the minimum value of all or part of the
        vector along each axis.
    'reflect'
        Pads with the reflection of the vector mirrored on
        the first and last values of the vector along each
        axis.
    'symmetric'
        Pads with the reflection of the vector mirrored
        along the edge of the array.
    'wrap'
        Pads with the wrap of the vector along the axis.
        The first values are used to pad the end and the
        end values are used to pad the beginning.
    <function>
        Padding function, see Notes.
stat_length : sequence or int, optional
    Used in 'maximum', 'mean', 'median', and 'minimum'.  Number of
    values at edge of each axis used to calculate the statistic value.

    ((before_1, after_1), ... (before_N, after_N)) unique statistic
    lengths for each axis.

    ((before, after),) yields same before and after statistic lengths
    for each axis.

    (stat_length,) or int is a shortcut for before = after = statistic
    length for all axes.

    Default is ``None``, to use the entire axis.
constant_values : sequence or int, optional
    Used in 'constant'.  The values to set the padded values for each
    axis.

    ((before_1, after_1), ... (before_N, after_N)) unique pad constants
    for each axis.

    ((before, after),) yields same before and after constants for each
    axis.

    (constant,) or int is a shortcut for before = after = constant for
    all axes.

    Default is 0.
end_values : sequence or int, optional
    Used in 'linear_ramp'.  The values used for the ending value of the
    linear_ramp and that will form the edge of the padded array.

    ((before_1, after_1), ... (before_N, after_N)) unique end values
    for each axis.

    ((before, after),) yields same before and after end values for each
    axis.

    (constant,) or int is a shortcut for before = after = end value for
    all axes.

    Default is 0.
reflect_type : {'even', 'odd'}, optional
    Used in 'reflect', and 'symmetric'.  The 'even' style is the
    default with an unaltered reflection around the edge value.  For
    the 'odd' style, the extented part of the array is created by
    subtracting the reflected values from two times the edge value.

Returns
-------
pad : ndarray
    Padded array of rank equal to `array` with shape increased
    according to `pad_width`.

Notes
-----
.. versionadded:: 1.7.0

For an array with rank greater than 1, some of the padding of later
axes is calculated from padding of previous axes.  This is easiest to
think about with a rank 2 array where the corners of the padded array
are calculated by using padded values from the first axis.

The padding function, if used, should return a rank 1 array equal in
length to the vector argument with padded values replaced. It has the
following signature::

    padding_func(vector, iaxis_pad_width, iaxis, kwargs)

where

    vector : ndarray
        A rank 1 array already padded with zeros.  Padded values are
        vector[:pad_tuple[0]] and vector[-pad_tuple[1]:].
    iaxis_pad_width : tuple
        A 2-tuple of ints, iaxis_pad_width[0] represents the number of
        values padded at the beginning of vector where
        iaxis_pad_width[1] represents the number of values padded at
        the end of vector.
    iaxis : int
        The axis currently being calculated.
    kwargs : dict
        Any keyword arguments the function requires.

Examples
--------
>>> a = [1, 2, 3, 4, 5]
>>> np.pad(a, (2,3), 'constant', constant_values=(4, 6))
array([4, 4, 1, 2, 3, 4, 5, 6, 6, 6])

>>> np.pad(a, (2, 3), 'edge')
array([1, 1, 1, 2, 3, 4, 5, 5, 5, 5])

>>> np.pad(a, (2, 3), 'linear_ramp', end_values=(5, -4))
array([ 5,  3,  1,  2,  3,  4,  5,  2, -1, -4])

>>> np.pad(a, (2,), 'maximum')
array([5, 5, 1, 2, 3, 4, 5, 5, 5])

>>> np.pad(a, (2,), 'mean')
array([3, 3, 1, 2, 3, 4, 5, 3, 3])

>>> np.pad(a, (2,), 'median')
array([3, 3, 1, 2, 3, 4, 5, 3, 3])

>>> a = [[1, 2], [3, 4]]
>>> np.pad(a, ((3, 2), (2, 3)), 'minimum')
array([[1, 1, 1, 2, 1, 1, 1],
       [1, 1, 1, 2, 1, 1, 1],
       [1, 1, 1, 2, 1, 1, 1],
       [1, 1, 1, 2, 1, 1, 1],
       [3, 3, 3, 4, 3, 3, 3],
       [1, 1, 1, 2, 1, 1, 1],
       [1, 1, 1, 2, 1, 1, 1]])

>>> a = [1, 2, 3, 4, 5]
>>> np.pad(a, (2, 3), 'reflect')
array([3, 2, 1, 2, 3, 4, 5, 4, 3, 2])

>>> np.pad(a, (2, 3), 'reflect', reflect_type='odd')
array([-1,  0,  1,  2,  3,  4,  5,  6,  7,  8])

>>> np.pad(a, (2, 3), 'symmetric')
array([2, 1, 1, 2, 3, 4, 5, 5, 4, 3])

>>> np.pad(a, (2, 3), 'symmetric', reflect_type='odd')
array([0, 1, 1, 2, 3, 4, 5, 5, 6, 7])

>>> np.pad(a, (2, 3), 'wrap')
array([4, 5, 1, 2, 3, 4, 5, 1, 2, 3])

>>> def pad_with(vector, pad_width, iaxis, kwargs):
...     pad_value = kwargs.get('padder', 10)
...     vector[:pad_width[0]] = pad_value
...     vector[-pad_width[1]:] = pad_value
...     return vector
>>> a = np.arange(6)
>>> a = a.reshape((2, 3))
>>> np.pad(a, 2, pad_with)
array([[10, 10, 10, 10, 10, 10, 10],
       [10, 10, 10, 10, 10, 10, 10],
       [10, 10,  0,  1,  2, 10, 10],
       [10, 10,  3,  4,  5, 10, 10],
       [10, 10, 10, 10, 10, 10, 10],
       [10, 10, 10, 10, 10, 10, 10]])
>>> np.pad(a, 2, pad_with, padder=100)
array([[100, 100, 100, 100, 100, 100, 100],
       [100, 100, 100, 100, 100, 100, 100],
       [100, 100,   0,   1,   2, 100, 100],
       [100, 100,   3,   4,   5, 100, 100],
       [100, 100, 100, 100, 100, 100, 100],
       [100, 100, 100, 100, 100, 100, 100]])

— Іван Гофман
джерело