Запитання з тегом «pandas»

Pandas - бібліотека Python для маніпулювання та аналізу даних, наприклад, фрейми даних, багатовимірні часові ряди та набори даних поперечного перерізу, які зазвичай зустрічаються в статистиці, результатах експериментальної науки, економетрії або фінансах. Pandas - одна з головних бібліотек наукових даних на Python.

2
Визначте, які стовпці мають дату
У мене величезна рамка даних з багатьма колонками, багато з яких мають тип datetime.datetime. Проблема полягає в тому, що багато людей також мають змішані типи, включаючи, наприклад, datetime.datetimeзначення та Noneзначення (та потенційно інші недійсні значення): 0 2017-07-06 00:00:00 1 2018-02-27 21:30:05 2 2017-04-12 00:00:00 3 2017-05-21 22:05:00 4 2018-01-22 00:00:00 …
14 python  pandas 

3
Чому присвоєння [:] проти iloc [:] дає різні результати в пандах?
Мене так плутають різні методи індексації, які використовуються ilocв пандах. Скажімо, я намагаюся перетворити 1-d Dataframe у 2-d Dataframe. По-перше, у мене є наступний 1-d Dataframe a_array = [1,2,3,4,5,6,7,8] a_df = pd.DataFrame(a_array).T І я збираюсь перетворити це у 2-денний Dataframe розміром 2x4. Почніть із попереднього встановлення 2-денного фрейму даних наступним …

1
Функція to_excel панд генерує несподіваний TypeError
Я створив словник даних фреймів панд: d[k] = pd.DataFrame(data=data[i]) Тож я припускаю, що d[k]це правильна рамка даних панд. Тоді for k in d.keys(): d[k].to_excel (file_name) Тоді у мене є помилка: TypeError: got invalid input value of type <class 'xml.etree.ElementTree.Element'>, expected string or Element Я використовую Python 3.7, панди 0.25.3. Оновлення …

3
Повільні пандами DataFrame MultiIndex reindex
У мене панда DataFrame форми: id start_time sequence_no value 0 71 2018-10-17 20:12:43+00:00 114428 3 1 71 2018-10-17 20:12:43+00:00 114429 3 2 71 2018-10-17 20:12:43+00:00 114431 79 3 71 2019-11-06 00:51:14+00:00 216009 100 4 71 2019-11-06 00:51:14+00:00 216011 150 5 71 2019-11-06 00:51:14+00:00 216013 180 6 92 2019-12-01 00:51:14+00:00 114430 …

2
Створюють відфільтровані двійкові декартові продукти
Постановка проблеми Я шукаю ефективний спосіб генерування повної бінарної декартової продукції (таблиці з усіма комбінаціями True і False з певною кількістю стовпців), відфільтрованих за певними ексклюзивними умовами. Наприклад, для трьох стовпців / біт n=3ми отримали б повну таблицю df_combs = pd.DataFrame(itertools.product(*([[True, False]] * n))) 0 1 2 0 True True …

1
pandasUDF та pyarrow 0.15.0
Нещодавно я почав отримувати купу помилок у ряді pysparkзавдань, що працюють на кластерах EMR. Помилки є java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)... Вони, схоже, трапляються у applyфункціях …

5
Додайте ідентифікатор, знайдений у списку, до нового стовпця в рамці даних панди
Скажімо, у мене є такий фрейм даних (стовпець цілих чисел та стовпець із переліком цілих чисел) ... ID Found_IDs 0 12345 [15443, 15533, 3433] 1 15533 [2234, 16608, 12002, 7654] 2 6789 [43322, 876544, 36789] А також окремий список ідентифікаторів ... bad_ids = [15533, 876544, 36789, 11111] Враховуючи це, і …

9
створити матрицю NxN з одного колони панд
у мене є фрейм даних, кожен рядок має значення списку. id list_of_value 0 ['a','b','c'] 1 ['d','b','c'] 2 ['a','b','c'] 3 ['a','b','c'] я повинен зробити підрахунок балів за один рядок і проти всіх інших рядків Наприклад: Step 1: Take value of id 0: ['a','b','c'], Step 2: find the intersection between id 0 …
11 python  pandas  numpy 

1
Як скинути нульові значення з динамічного циклу, згенерованого з Python?
У мене є такий кадр даних: ORDER_NO 2401 2504 2600 2020020 2019-12-04 2019-12-10 2019-12-12 2020024 2019-12-25 NaN 2019-12-20 2020034 NaN NaN 2019-12-20 2020020 2019-12-12 2019-12-15 2019-12-18 Я створюю XML з вищевказаного фрейму даних. Я хочу видалити нульове значення, яке заповнюється в XML. Мій код повинен викинути це значення стовпця та …

3
панди перезаписують значення в декількох стовпцях одночасно, виходячи з умови значень в одному стовпці
У мене є такі DataFrame: df = pd.DataFrame(data={ 'col0': [11, 22,1, 5] 'col1': ['aa:a:aaa', 'a:a', 'a', 'a:aa:a:aaa'], 'col2': ["foo", "foo", "foobar", "bar"], 'col3': [True, False, True, False], 'col4': ['elo', 'foo', 'bar', 'dupa']}) Я хочу отримати довжину списку після розбиття на ":" у col1, тоді я хочу перезаписати значення, якщо довжина> …
11 python  pandas  apply 

2
Як я можу розділити стовпці за допомогою регулярного вираження, щоб перемістити контур CAPS в окремий стовпець?
Я намагаюся розділити стовпчик за допомогою регулярного вираження, але, здається, не можна отримати розбиття правильно. Я намагаюся взяти всі задні CAPS і перемістити їх в окрему колонку. Таким чином, я отримую всі CAPS, які є або 2-4 CAPS підряд. Однак він залишає 'Name'колонку лише тоді, коли 'Team'стовпець порожній. Ось мій …
11 python  regex  pandas 

7
Прочитайте файл повторних пар «ключ = значення» в DataFrame
У мене є файл txt з даними в цьому форматі. Перші 3 рядки повторюються знову і знову. name=1 grade=A class=B name=2 grade=D class=A Я хотів би вивести дані у форматі таблиці, наприклад: name | grade | class 1 | A | B 2 | D | A Я намагаюся встановити …



2
Панди: зигзагоподібна сегментація даних на основі локальних мінімумів-максимумів
У мене є дані про часові видання. Генерування даних date_rng = pd.date_range('2019-01-01', freq='s', periods=400) df = pd.DataFrame(np.random.lognormal(.005, .5,size=(len(date_rng), 3)), columns=['data1', 'data2', 'data3'], index= date_rng) s = df['data1'] Я хочу створити зигзагоподібну лінію, що з'єднує між локальними максимумами та локальними мінімумами, що задовольняє умові, що на осі |highest - lowest value|у …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.