Як прочитати набір даних Parquet невеликого розміру в пам’яті Pandas DataFrame, не налаштовуючи кластерну обчислювальну інфраструктуру, таку як Hadoop чи Spark? Це лише помірний обсяг даних, які я хотів би прочитати в пам'яті за допомогою простого скрипта Python на ноутбуці. Дані не містяться на HDFS. Це або в локальній файловій системі, або, можливо, у S3. Я не хочу крутити та налаштовувати інші служби, такі як Hadoop, Hive чи Spark.
Я думав, Blaze / Odo зробив би це можливим: в документації Odo згадується паркет, але, схоже, всі приклади проходять зовнішню роботу в Hive.