Гарне друк фрейму даних панди

113

Як я можу надрукувати фрейм даних панди як приємну текстову таблицю, як-от нижче?

+------------+---------+-------------+
| column_one | col_two |   column_3  |
+------------+---------+-------------+
|          0 |  0.0001 | ABCD        |
|          1 |  1e-005 | ABCD        |
|          2 |  1e-006 | long string |
|          3 |  1e-007 | ABCD        |
+------------+---------+-------------+

— Офер
джерело

181

Я щойно знайшов чудовий інструмент для цієї потреби, його називають табличним .

Він друкує табличні дані та працює з ними DataFrame.

from tabulate import tabulate
import pandas as pd

df = pd.DataFrame({'col_two' : [0.0001, 1e-005 , 1e-006, 1e-007],
                   'column_3' : ['ABCD', 'ABCD', 'long string', 'ABCD']})
print(tabulate(df, headers='keys', tablefmt='psql'))

+----+-----------+-------------+
|    |   col_two | column_3    |
|----+-----------+-------------|
|  0 |    0.0001 | ABCD        |
|  1 |    1e-05  | ABCD        |
|  2 |    1e-06  | long string |
|  3 |    1e-07  | ABCD        |
+----+-----------+-------------+

Примітка:

Щоб придушити індекси рядків для всіх типів даних, передайте showindex="never"або showindex=False.

— Ромен
джерело

5

Якщо у вас немає доступу до краю кровотечі, ви можете tabulate([list(row) for row in df.values], headers=list(df.columns))позбутися від індексу

— Pedro M Duarte,

1

Не дуже добре, якщо у вас є ієрархії в індексі рядків та стовпцях.

— Сіддхарт

Переконайтеся, що ви робите, print(tabulate(df, **kwargs))а не просто tabulate(df, **kwargs); останні покажуть усі нові рядки \n....

— Dror

6

Щоб придушити лівий стовпчик індексу, можна також додатиshowindex=False

— Артур

23

Простий підхід полягає у виведенні у форматі html, який панди виконує поза коробкою :

df.to_html('temp.html')

— ErichBSchulz
джерело

17

панди> = 1,0

Якщо ви хочете, щоб вбудована функція скидала ваші дані в якусь відмітку github, тепер у вас є така. Погляньте на to_markdown:

df = pd.DataFrame({"A": [1, 2, 3], "B": [1, 2, 3]}, index=['a', 'a', 'b'])  
print(df.to_markdown()) 

|    |   A |   B |
|:---|----:|----:|
| a  |   1 |   1 |
| a  |   2 |   2 |
| b  |   3 |   3 |

Ось як виглядає на Github:

Зауважте, що вам потрібно буде встановити tabulateпакет.

— cs95
джерело

16

Якщо ви перебуваєте в ноутбуці Юпітера, ви можете запустити наступний код для інтерактивного відображення фрейму даних у добре відформатованій таблиці.

Ця відповідь ґрунтується на відповіді to_html ('temp.html') вище, але замість створення файлу відображається добре відформатована таблиця безпосередньо у зошиті:

from IPython.display import display, HTML

display(HTML(df.to_html()))

Заслуга за цей код пояснюється, наприклад, у: Показуйте DataFrame як таблицю в iPython Notebook

— Марк Андерсен
джерело

15

Ви можете використовувати гарненько для відображення таблиці як текст. Трюк полягає в тому, щоб перетворити data_frame в CSV-файл пам'яті і досить добре його прочитати. Ось код:

from StringIO import StringIO
import prettytable    

output = StringIO()
data_frame.to_csv(output)
output.seek(0)
pt = prettytable.from_csv(output)
print pt

— Офер
джерело

Яка версія панд це була?

— WAF

4

AFAIK, prettytableбагато в чому вважається занедбаним. Сором теж, як це був приємний пакет. :(

— dmn

@dmn, тому його більше не підтримують?

— мюн

prettytableне мав реліз з 6 квітня 2013 року. Він tabulateє його духовним попередником і має регулярні випуски, останній - 24 січня 2019 року.

— noddy

7

Я деякий час використовував відповідь Офера і вважав, що він у більшості випадків прекрасний. На жаль, через невідповідності між пандами to_csv та гарними з_csv, мені довелося використовувати досить привабливо по-іншому.

Один випадок відмови - це кадр даних, що містить коми:

pd.DataFrame({'A': [1, 2], 'B': ['a,', 'b']})

Досить помітно помилка форми:

Error: Could not determine delimiter

Наступна функція обробляє цей випадок:

def format_for_print(df):    
    table = PrettyTable([''] + list(df.columns))
    for row in df.itertuples():
        table.add_row(row)
    return str(table)

Якщо вам не важливий індекс, використовуйте:

def format_for_print2(df):    
    table = PrettyTable(list(df.columns))
    for row in df.itertuples():
        table.add_row(row[1:])
    return str(table)

— ejrb
джерело

Привіт, ця format_for_print()функція, здається, не друкує індекс Pandas DataFrame. Я встановлюю індекс за допомогою, df.index.name = 'index'але це не друкує стовпчик індексу з іменем.

— edesz

2

Слідкуючи за відповіддю Марка, якщо ви з якоїсь причини не використовуєте Jupyter, наприклад, ви хочете зробити тестування на консолі, ви можете скористатися DataFrame.to_stringметодом, який працює з принаймні Pandas 0,12 (2014) і далі .

import pandas as pd

matrix = [(1, 23, 45), (789, 1, 23), (45, 678, 90)]
df = pd.DataFrame(matrix, columns=list('abc'))
print(df.to_string())

#  outputs:
#       a    b   c
#  0    1   23  45
#  1  789    1  23
#  2   45  678  90

— підпис
джерело

0

Можливо, ви шукаєте щось подібне:

def tableize(df):
    if not isinstance(df, pd.DataFrame):
        return
    df_columns = df.columns.tolist() 
    max_len_in_lst = lambda lst: len(sorted(lst, reverse=True, key=len)[0])
    align_center = lambda st, sz: "{0}{1}{0}".format(" "*(1+(sz-len(st))//2), st)[:sz] if len(st) < sz else st
    align_right = lambda st, sz: "{0}{1} ".format(" "*(sz-len(st)-1), st) if len(st) < sz else st
    max_col_len = max_len_in_lst(df_columns)
    max_val_len_for_col = dict([(col, max_len_in_lst(df.iloc[:,idx].astype('str'))) for idx, col in enumerate(df_columns)])
    col_sizes = dict([(col, 2 + max(max_val_len_for_col.get(col, 0), max_col_len)) for col in df_columns])
    build_hline = lambda row: '+'.join(['-' * col_sizes[col] for col in row]).join(['+', '+'])
    build_data = lambda row, align: "|".join([align(str(val), col_sizes[df_columns[idx]]) for idx, val in enumerate(row)]).join(['|', '|'])
    hline = build_hline(df_columns)
    out = [hline, build_data(df_columns, align_center), hline]
    for _, row in df.iterrows():
        out.append(build_data(row.tolist(), align_right))
    out.append(hline)
    return "\n".join(out)


df = pd.DataFrame([[1, 2, 3], [11111, 22, 333]], columns=['a', 'b', 'c'])
print tableize(df)

Вихід:
+ ------- + ---- + ----- +
| а | б | c |
+ ------- + ---- + ----- +
| 1 | 2 | 3 |
| 11111 | 22 | 333 |
+ ------- + ---- + ----- +

— Пафконе
джерело

-5

Я хотів роздрукувати паперовий кадр даних на папері, але хотів додати деякі результати та коментарі на одній сторінці. Я працював над вищесказаним, і не міг отримати те, що хотів. Я в кінцевому підсумку використовував файли file.write (df1.to_csv ()) і file.write (",,, blah ,,,,, blah"), щоб отримати мої додаткові дані на сторінці. Коли я відкрив файл csv, він перейшов безпосередньо до електронної таблиці, яка друкувала все в потрібному темпі та форматі.

— jon
джерело