Знайти перетин двох вкладених списків?


468

Я знаю, як отримати перетин двох плоских списків:

b1 = [1,2,3,4,5,9,11,15]
b2 = [4,5,6,7,8]
b3 = [val for val in b1 if val in b2]

або

def intersect(a, b):
    return list(set(a) & set(b))

print intersect(b1, b2)

Але коли мені потрібно знайти перехрестя для вкладених списків, тоді мої проблеми починаються:

c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]

Зрештою, я хотів би отримати:

c3 = [[13,32],[7,13,28],[1,6]]

Ви можете мені допомогти з цим?

Пов'язані


Яким було б ваше перехрестя для c1 перетину c2? Ви хочете просто знайти, якщо c1 знаходиться в c2? Або ви хочете знайти всі елементи в c1, які з’являються де-небудь у c2?
Брайан Р. Бонді

Прочитайте це і пограйте в перекладача.
Пітікос

Відповіді:


177

Якщо ви хочете:

c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]
c3 = [[13, 32], [7, 13, 28], [1,6]]

Тоді ось ваше рішення для Python 2:

c3 = [filter(lambda x: x in c1, sublist) for sublist in c2]

У Python 3 filterповертається ітерабельний замість list, тому вам потрібно завернути filterвиклики за допомогою list():

c3 = [list(filter(lambda x: x in c1, sublist)) for sublist in c2]

Пояснення:

Частина фільтра приймає елемент кожного списку і перевіряє, чи немає у списку джерела c1. Розуміння списку виконується для кожного підспису в c2.


35
Ви можете використовувати filter(set(c1).__contains__, sublist)для ефективності. btw, перевага цього рішення полягає в тому, що filter()зберігаються рядки та кортежі типів.
jfs

3
Мені подобається цей метод, але я отримую порожній '' у своєму отриманому списку
Джонатан Онг

Я додав сюди Python 3 compat, оскільки я використовую це в якості дурної мішені для дупету питання Python 3
Antti Haapala

9
Це читає краще IMO з вкладеними розуміннями:c3 = [[x for x in sublist if x in c1] for sublist in c2]
Ерік

894

Не потрібно визначати перехрестя. Це вже першокласна частина набору.

>>> b1 = [1,2,3,4,5,9,11,15]
>>> b2 = [4,5,6,7,8]
>>> set(b1).intersection(b2)
set([4, 5])

3
Це буде повільніше, ніж лямбда через конверсію для встановлення?
Ciro Santilli 郝海东 冠状 病 六四 事件 法轮功

32
@ S.Lott, щось не так set(b1) & set(b2)? IMO його очищувач для використання оператора.
gwg

4
Крім того, використання setшвидше призведе до набору коду. Ось зразок бенчмарка®: gist.github.com/andersonvom/4d7e551b4c0418de3160
andersonvom

5
Працює лише в тому випадку, якщо результат не потрібно замовляти.
Борбаг

7
Отже ... ця відповідь жодним чином не відповідає на питання, правда? Тому що це зараз працює з вкладеними списками.
Mayou36

60

Для людей, які просто прагнуть знайти перетин двох списків, Аскеер запропонував два методи:

b1 = [1,2,3,4,5,9,11,15]
b2 = [4,5,6,7,8]
b3 = [val for val in b1 if val in b2]

і

def intersect(a, b):
     return list(set(a) & set(b))

print intersect(b1, b2)

Але є гібридний метод, який є більш ефективним, оскільки вам потрібно зробити лише одне перетворення між списком / набором, на відміну від трьох:

b1 = [1,2,3,4,5]
b2 = [3,4,5,6]
s2 = set(b2)
b3 = [val for val in b1 if val in s2]

Це буде працювати в O (n), тоді як його оригінальний метод, що включає розуміння списку, буде працювати в O (n ^ 2)


Оскільки "якщо val in s2" працює в O (N), пропонована складність фрагмента коду також є O (n ^ 2)
Romeno

8
Середній випадок "val in s2" - O (1) згідно wiki.python.org/moin/TimeComplexity#set - таким чином, протягом n операцій очікуваний час буде O (n) (чи найгірший час - O ( n) або O (n ^ 2) залежить від того, представляє цей середній випадок амортизований час чи ні, але це не дуже важливо на практиці).
D Coetzee

2
Час виконання становить O (N) не тому, що він амортизується, а тому, що встановлене членство в середньому O (1) (наприклад, при використанні хеш-таблиці), це велика різниця, наприклад, тому, що гарантовано амортизований час.
miroB

28

Функціональний підхід:

input_list = [[1, 2, 3, 4, 5], [2, 3, 4, 5, 6], [3, 4, 5, 6, 7]]

result = reduce(set.intersection, map(set, input_list))

і його можна застосувати до більш загального випадку списків 1+


щоб порожній список введення: set(*input_list[:1]).intersection(*input_list[1:]). Версія ітератора ( it = iter(input_list)): reduce(set.intersection, it, set(next(it, []))). Обидві версії не потребують перетворення всіх списків вводу для встановлення. Останнє ефективніше в пам’яті.
jfs

Використовуйте from functools import reduceдля використання в Python 3. Або ще краще - явний forцикл.
TrigonaMinima

27

Чистий список розуміння списку

>>> c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
>>> c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]
>>> c1set = frozenset(c1)

Варіант вирівнювання:

>>> [n for lst in c2 for n in lst if n in c1set]
[13, 32, 7, 13, 28, 1, 6]

Вкладений варіант:

>>> [[n for n in lst if n in c1set] for lst in c2]
[[13, 32], [7, 13, 28], [1, 6]]

20

Оператор & бере перетин двох множин.

{1, 2, 3} & {2, 3, 4}
Out[1]: {2, 3}

Чудово, але ця тема для списків!
Rafa0809

3
Результатом перетину двох списків є безліч, тому ця відповідь цілком справедлива.
кривошик

Список може містити повторюване значення, але набори - ні.
diewland

13

Пітонічним способом взяття перетину двох списків є:

[x for x in list1 if x in list2]

2
Це питання стосується вкладених списків. Ваша відповідь не відповідає на запитання.
Томас

8

Вам слід згладити цей код (взятий з http://kogs-www.informatik.uni-hamburg.de/~meine/python_tricks ), код не перевірений, але я впевнений, що він працює:


def flatten(x):
    """flatten(sequence) -> list

    Returns a single, flat list which contains all elements retrieved
    from the sequence and all recursively contained sub-sequences
    (iterables).

    Examples:
    >>> [1, 2, [3,4], (5,6)]
    [1, 2, [3, 4], (5, 6)]
    >>> flatten([[[1,2,3], (42,None)], [4,5], [6], 7, MyVector(8,9,10)])
    [1, 2, 3, 42, None, 4, 5, 6, 7, 8, 9, 10]"""

    result = []
    for el in x:
        #if isinstance(el, (list, tuple)):
        if hasattr(el, "__iter__") and not isinstance(el, basestring):
            result.extend(flatten(el))
        else:
            result.append(el)
    return result

Після вирівнювання списку ви переходите до перетину звичайним чином:


c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]

def intersect(a, b):
     return list(set(a) & set(b))

print intersect(flatten(c1), flatten(c2))

2
Це приємний код вирівнювання Geo, але він не відповідає на питання. Запитувач спеціально очікує результату у формі [[13,32], [7,13,28], [1,6]].
Роб Янг

8

Оскільки intersectбуло визначено, достатньо розуміння базового списку:

>>> c3 = [intersect(c1, i) for i in c2]
>>> c3
[[32, 13], [28, 13, 7], [1, 6]]

Поліпшення завдяки зауваженню С. Лотта та пов’язаному із цим TM:

>>> c3 = [list(set(c1).intersection(i)) for i in c2]
>>> c3
[[32, 13], [28, 13, 7], [1, 6]]

5

Подано:

> c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]

> c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]

Я вважаю, що наступний код працює добре і, можливо, більш стислим, якщо використовується операція встановлення:

> c3 = [list(set(f)&set(c1)) for f in c2] 

Отримано:

> [[32, 13], [28, 13, 7], [1, 6]]

Якщо потрібно замовлення:

> c3 = [sorted(list(set(f)&set(c1))) for f in c2] 

ми отримали:

> [[13, 32], [7, 13, 28], [1, 6]]

До речі, для більш пітонного стилю цей тонкий теж:

> c3 = [ [i for i in set(f) if i in c1] for f in c2]

3

Я не знаю, чи спізнююсь я відповісти на ваше запитання. Прочитавши ваше запитання, я придумав функцію intersect (), яка може працювати як у списку, так і вкладеному списку. Я використовував рекурсію для визначення цієї функції, це дуже інтуїтивно. Сподіваюся, що це те, що ви шукаєте:

def intersect(a, b):
    result=[]
    for i in b:
        if isinstance(i,list):
            result.append(intersect(a,i))
        else:
            if i in a:
                 result.append(i)
    return result

Приклад:

>>> c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
>>> c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]
>>> print intersect(c1,c2)
[[13, 32], [7, 13, 28], [1, 6]]

>>> b1 = [1,2,3,4,5,9,11,15]
>>> b2 = [4,5,6,7,8]
>>> print intersect(b1,b2)
[4, 5]

2

Чи вважаєте ви [1,2]перетинатися [1, [2]]? Тобто, це лише ті цифри, які вас цікавлять, чи структура списку?

Якщо тільки цифри, досліджуйте, як "розрівняти" списки, а потім скористайтеся set()методом.


Я хотів би залишити структуру списків незмінною.
elfuego1

1

Я також шукав спосіб це зробити, і в підсумку це закінчилося так:

def compareLists(a,b):
    removed = [x for x in a if x not in b]
    added = [x for x in b if x not in a]
    overlap = [x for x in a if x in b]
    return [removed,added,overlap]

Якщо ви не використовуєте set.intersection, я б також робив ці прості вкладиші.
slaughter98

0
c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]

c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]

c3 = [list(set(c2[i]).intersection(set(c1))) for i in xrange(len(c2))]

c3
->[[32, 13], [28, 13, 7], [1, 6]]

0

Для цього ми можемо використовувати встановлені методи:

c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]

   result = [] 
   for li in c2:
       res = set(li) & set(c1)
       result.append(list(res))

   print result

0

Для визначення перетину, що правильно враховує кардинальність елементів використання Counter:

from collections import Counter

>>> c1 = [1, 2, 2, 3, 4, 4, 4]
>>> c2 = [1, 2, 4, 4, 4, 4, 5]
>>> list((Counter(c1) & Counter(c2)).elements())
[1, 2, 4, 4, 4]

0
# Problem:  Given c1 and c2:
c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]
# how do you get c3 to be [[13, 32], [7, 13, 28], [1, 6]] ?

Ось один із способів встановити, c3що не включає набори:

c3 = []
for sublist in c2:
    c3.append([val for val in c1 if val in sublist])

Але якщо ви віддаєте перевагу використовувати лише один рядок, ви можете зробити це:

c3 = [[val for val in c1 if val in sublist]  for sublist in c2]

Це розуміння списку всередині розуміння списку, яке є дещо незвичним, але я думаю, що у вас не повинно виникнути особливих проблем після його виконання.


0
c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]
c3 = [list(set(i) & set(c1)) for i in c2]
c3
[[32, 13], [28, 13, 7], [1, 6]]

Для мене це дуже елегантний і швидкий шлях до нього :)


0

плоский список можна reduceлегко зробити.

Все, що вам потрібно використовувати ініціалізатор - третій аргумент у reduceфункції.

reduce(
   lambda result, _list: result.append(
       list(set(_list)&set(c1)) 
     ) or result, 
   c2, 
   [])

Вищий код працює як для python2, так і для python3, але вам потрібно імпортувати модуль зменшення як from functools import reduce. Детальнішу інформацію див. За посиланням нижче.


-1

Простий спосіб знайти різницю та перетин між ітерабелями

Використовуйте цей метод, якщо повторення має значення

from collections import Counter

def intersection(a, b):
    """
    Find the intersection of two iterables

    >>> intersection((1,2,3), (2,3,4))
    (2, 3)

    >>> intersection((1,2,3,3), (2,3,3,4))
    (2, 3, 3)

    >>> intersection((1,2,3,3), (2,3,4,4))
    (2, 3)

    >>> intersection((1,2,3,3), (2,3,4,4))
    (2, 3)
    """
    return tuple(n for n, count in (Counter(a) & Counter(b)).items() for _ in range(count))

def difference(a, b):
    """
    Find the symmetric difference of two iterables

    >>> difference((1,2,3), (2,3,4))
    (1, 4)

    >>> difference((1,2,3,3), (2,3,4))
    (1, 3, 4)

    >>> difference((1,2,3,3), (2,3,4,4))
    (1, 3, 4, 4)
    """
    diff = lambda x, y: tuple(n for n, count in (Counter(x) - Counter(y)).items() for _ in range(count))
    return diff(a, b) + diff(b, a)
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.