Як імпортувати дані з mongodb до панд?


99

У мене є велика кількість даних у колекції в mongodb, яку мені потрібно проаналізувати. Як імпортувати ці дані до панд?

Я новачок у пандах та дурнях.

РЕДАКТУВАТИ: колекція mongodb містить значення датчика, позначені датою та часом. Значення датчика мають тип даних з поплавком.

Зразки даних:

{
"_cls" : "SensorReport",
"_id" : ObjectId("515a963b78f6a035d9fa531b"),
"_types" : [
    "SensorReport"
],
"Readings" : [
    {
        "a" : 0.958069536790466,
        "_types" : [
            "Reading"
        ],
        "ReadingUpdatedDate" : ISODate("2013-04-02T08:26:35.297Z"),
        "b" : 6.296118156595,
        "_cls" : "Reading"
    },
    {
        "a" : 0.95574014778624,
        "_types" : [
            "Reading"
        ],
        "ReadingUpdatedDate" : ISODate("2013-04-02T08:27:09.963Z"),
        "b" : 6.29651468650064,
        "_cls" : "Reading"
    },
    {
        "a" : 0.953648289182713,
        "_types" : [
            "Reading"
        ],
        "ReadingUpdatedDate" : ISODate("2013-04-02T08:27:37.545Z"),
        "b" : 7.29679823731148,
        "_cls" : "Reading"
    },
    {
        "a" : 0.955931884300997,
        "_types" : [
            "Reading"
        ],
        "ReadingUpdatedDate" : ISODate("2013-04-02T08:28:21.369Z"),
        "b" : 6.29642922525632,
        "_cls" : "Reading"
    },
    {
        "a" : 0.95821381,
        "_types" : [
            "Reading"
        ],
        "ReadingUpdatedDate" : ISODate("2013-04-02T08:41:20.801Z"),
        "b" : 7.28956613,
        "_cls" : "Reading"
    },
    {
        "a" : 4.95821335,
        "_types" : [
            "Reading"
        ],
        "ReadingUpdatedDate" : ISODate("2013-04-02T08:41:36.931Z"),
        "b" : 6.28956574,
        "_cls" : "Reading"
    },
    {
        "a" : 9.95821341,
        "_types" : [
            "Reading"
        ],
        "ReadingUpdatedDate" : ISODate("2013-04-02T08:42:09.971Z"),
        "b" : 0.28956488,
        "_cls" : "Reading"
    },
    {
        "a" : 1.95667927,
        "_types" : [
            "Reading"
        ],
        "ReadingUpdatedDate" : ISODate("2013-04-02T08:43:55.463Z"),
        "b" : 0.29115237,
        "_cls" : "Reading"
    }
],
"latestReportTime" : ISODate("2013-04-02T08:43:55.463Z"),
"sensorName" : "56847890-0",
"reportCount" : 8
}

Використання користувацького типу поля з MongoEngine може спростити зберігання та отримання даних Pandas DataFrames, якmongo_doc.data_frame = my_pandas_df
Jthorpe

Відповіді:


133

pymongo може допомогти вам, ось деякі коди, якими я користуюся:

import pandas as pd
from pymongo import MongoClient


def _connect_mongo(host, port, username, password, db):
    """ A util for making a connection to mongo """

    if username and password:
        mongo_uri = 'mongodb://%s:%s@%s:%s/%s' % (username, password, host, port, db)
        conn = MongoClient(mongo_uri)
    else:
        conn = MongoClient(host, port)


    return conn[db]


def read_mongo(db, collection, query={}, host='localhost', port=27017, username=None, password=None, no_id=True):
    """ Read from Mongo and Store into DataFrame """

    # Connect to MongoDB
    db = _connect_mongo(host=host, port=port, username=username, password=password, db=db)

    # Make a query to the specific DB and Collection
    cursor = db[collection].find(query)

    # Expand the cursor and construct the DataFrame
    df =  pd.DataFrame(list(cursor))

    # Delete the _id
    if no_id:
        del df['_id']

    return df

Дякую, це метод, який я закінчив використовувати. У мене також був масив вбудованих документів у кожному рядку. Тож мені довелося це повторити також у кожному рядку. Чи є кращий спосіб це зробити ??
Нітін,

Чи можна надати деякі зразки структури вашого монгодба?
waitkuo

3
Зверніть увагу, що list()всередині df = pd.DataFrame(list(cursor))обчислюється як список або генератор, щоб підтримувати процесор крутим. Якщо у вас є елементи даних, що містять один мільйон, і наступні кілька рядків мали б обґрунтовано розподілити їх, деталізовані та обрізати їх, ціле шмегегге все одно безпечно потрапити. Приємно.
Фліп

2
Це дуже повільно @ df = pd.DataFrame(list(cursor)). Запит чистого базу даних набагато швидший. Чи можемо ми змінити listкастинг на щось інше?
Peter.k

1
@Peter ця лінія також потрапила мені в очі. Перекидання курсора бази даних, який призначений для ітерації та потенційно обертає великі обсяги даних, у список в пам'яті мені не здається розумним.
Рафа

41

Ви можете завантажити свої дані mongodb до pandas DataFrame, використовуючи цей код. Це працює для мене. Сподіваємось і на вас.

import pymongo
import pandas as pd
from pymongo import MongoClient
client = MongoClient()
db = client.database_name
collection = db.collection_name
data = pd.DataFrame(list(collection.find()))

24

Monaryробить саме це, і це надзвичайно швидко . ( ще одне посилання )

Дивіться цей класний допис, який містить короткий посібник та деякі терміни.


Чи підтримує Monary рядовий тип даних?
Snehal Parmar

Я спробував Monary, але це займає багато часу. Мені не вистачає оптимізації? Пробував client = Monary(host, 27017, database="db_tmp") columns = ["col1", "col2"] data_type = ["int64", "int64"] arrays = client.query("db_tmp", "coll", {}, columns, data_type)для 50000записів займає навколо 200s.
нішант

Це звучить надзвичайно повільно ... Чесно кажучи, я не знаю, який статус цього проекту, зараз, через 4 роки ...
shx2

16

Відповідно до PEP, просто краще, ніж складне:

import pandas as pd
df = pd.DataFrame.from_records(db.<database_name>.<collection_name>.find())

Ви можете включити умови як при роботі зі звичайною базою даних mongoDB або навіть використовувати find_one (), щоб отримати лише один елемент із бази даних тощо.

і вуаля!


pd.DataFrame.from_records здається таким же повільним, як DataFrame (list ()), але результати дуже суперечливі. Час %% показував що-небудь від 800 мс до 1,9 с
AFD

1
Це не добре для величезних записів, оскільки це не відображає помилки пам'яті, instread зависає в системі для занадто великих даних. тоді як pd.DataFrame (список (курсор)) відображає помилку пам'яті.
Амулія Ачарія,

13
import pandas as pd
from odo import odo

data = odo('mongodb://localhost/db::collection', pd.DataFrame)

9

Для ефективної роботи з позаядерними (не входять в оперативну пам’ять) даними (тобто з паралельним виконанням) ви можете спробувати екосистему Python Blaze : Blaze / Dask / Odo.

Blaze (і Odo ) має нестандартні функції для роботи з MongoDB.

Кілька корисних статей для початку:

І стаття, яка показує, які дивовижні речі можливі зі стеком Blaze: Аналіз 1,7 мільярда коментарів Reddit за допомогою Blaze та Impala (по суті, запит 975 Гб коментарів Reddit за лічені секунди).

PS Я не пов’язаний з жодною з цих технологій.


1
Я також написав допис, використовуючи блокнот Jupyter, з прикладом того, як Dask допомагає прискорити виконання навіть даних, що поміщаються в пам'ять, використовуючи кілька ядер на одній машині.
Денніс Голомазов

8

Ще одним варіантом, який мені здався дуже корисним, є:

from pandas.io.json import json_normalize

cursor = my_collection.find()
df = json_normalize(cursor)

таким чином ви отримуєте розгортання вкладених документів mongodb безкоштовно.


2
Я отримав помилку з цим методомTypeError: data argument can't be an iterator
Габріель Фейр

2
Дивно, це працює на моєму пітоні з 3.6.7використанням панд 0.24.2. Може ви можете спробувати df = json_normalize(list(cursor))замість цього?
Ікар Погорський,

Для +1. docs, аргумент max_level визначає максимальний рівень глибини дикту. Я щойно зробив тест, і це неправда, тому деякі стовпці потрібно було б розділити за допомогою .str accesrors. Все-таки дуже приємна функція для роботи з mongodb.
Маурісіо Марото,

5

Використовуючи

pandas.DataFrame(list(...))

буде споживати багато пам'яті, якщо результат ітератора / генератора великий

краще генерувати невеликі шматки та конкат в кінці

def iterator2dataframes(iterator, chunk_size: int):
  """Turn an iterator into multiple small pandas.DataFrame

  This is a balance between memory and efficiency
  """
  records = []
  frames = []
  for i, record in enumerate(iterator):
    records.append(record)
    if i % chunk_size == chunk_size - 1:
      frames.append(pd.DataFrame(records))
      records = []
  if records:
    frames.append(pd.DataFrame(records))
  return pd.concat(frames)


1

Слідом за цією чудовою відповіддю waitkuo, я хотів би додати можливість зробити це за допомогою chunksize відповідно до .read_sql () та .read_csv () . Я розширюю відповідь від Deu Leung , уникаючи переходу по одному на кожен "запис" "ітератора" / "курсору". Я запозичу попередню функцію read_mongo .

def read_mongo(db, 
           collection, query={}, 
           host='localhost', port=27017, 
           username=None, password=None,
           chunksize = 100, no_id=True):
""" Read from Mongo and Store into DataFrame """


# Connect to MongoDB
#db = _connect_mongo(host=host, port=port, username=username, password=password, db=db)
client = MongoClient(host=host, port=port)
# Make a query to the specific DB and Collection
db_aux = client[db]


# Some variables to create the chunks
skips_variable = range(0, db_aux[collection].find(query).count(), int(chunksize))
if len(skips_variable)<=1:
    skips_variable = [0,len(skips_variable)]

# Iteration to create the dataframe in chunks.
for i in range(1,len(skips_variable)):

    # Expand the cursor and construct the DataFrame
    #df_aux =pd.DataFrame(list(cursor_aux[skips_variable[i-1]:skips_variable[i]]))
    df_aux =pd.DataFrame(list(db_aux[collection].find(query)[skips_variable[i-1]:skips_variable[i]]))

    if no_id:
        del df_aux['_id']

    # Concatenate the chunks into a unique df
    if 'df' not in locals():
        df =  df_aux
    else:
        df = pd.concat([df, df_aux], ignore_index=True)

return df

1

Подібний підхід, як Рафаель Валеро, очікуючий та Деу Леунг з використанням пагінації :

def read_mongo(
       # db, 
       collection, query=None, 
       # host='localhost', port=27017, username=None, password=None,
       chunksize = 100, page_num=1, no_id=True):

    # Connect to MongoDB
    db = _connect_mongo(host=host, port=port, username=username, password=password, db=db)

    # Calculate number of documents to skip
    skips = chunksize * (page_num - 1)

    # Sorry, this is in spanish
    # https://www.toptal.com/python/c%C3%B3digo-buggy-python-los-10-errores-m%C3%A1s-comunes-que-cometen-los-desarrolladores-python/es
    if not query:
        query = {}

    # Make a query to the specific DB and Collection
    cursor = db[collection].find(query).skip(skips).limit(chunksize)

    # Expand the cursor and construct the DataFrame
    df =  pd.DataFrame(list(cursor))

    # Delete the _id
    if no_id:
        del df['_id']

    return df

0

Ви можете досягти бажаного за допомогою pdmongo у три рядки:

import pdmongo as pdm
import pandas as pd
df = pdm.read_mongo("MyCollection", [], "mongodb://localhost:27017/mydb")

Якщо ваші дані дуже великі, ви можете спочатку зробити сукупний запит, відфільтрувавши непотрібні дані, а потім зіставити їх із потрібними стовпцями.

Ось приклад відображення Readings.aу стовпець aта фільтрування за reportCountстовпцями:

import pdmongo as pdm
import pandas as pd
df = pdm.read_mongo("MyCollection", [{'$match': {'reportCount': {'$gt': 6}}}, {'$unwind': '$Readings'}, {'$project': {'a': '$Readings.a'}}], "mongodb://localhost:27017/mydb")

read_mongoприймає ті самі аргументи, що і сукупність pymongo

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.