Skip to content

Significant memory and swap usage during conversion from jsonl.zst to parquet #34

Open
@capricornusx

Description

@capricornusx

При конвертации файлов jsonl.zst в формат parquet, очень сильно вырастает потребление RAM и SWAP. Программа завершается c помощью OOMKiller. Нагрука на CPU - незначительная

Размер исходного файла от 5 до 8Gb

Интересно, что в коде я не увидел явной поддержки zst, может какие-то нюансы у формата..

undatum convert --format-in jsonl ~/records0.jsonl.zst test.parquet

OS: Linux 6.10.13 (x86_64)
RAM: 32Gb DDR5
Storage: SSD NVMe
CPU: AMD Ryzen 7 7700 8-Core

Metadata

Metadata

Assignees

Labels

bugSomething isn't working

Type

No type

Projects

Status

🏗 In progress

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions