Apache Parquet — это колоночный формат хранения данных, оптимизированный для использования с фреймворками обработки больших данных (Big Data). В отличие от построчно-ориентированных форматов, Parquet хранит данные по столбцам, что обеспечивает эффективное сжатие и кодирование информации. Такая структура позволяет движкам запросов считывать только те столбцы, которые необходимы для конкретного запроса, что значительно снижает нагрузку на ввод-вывод (I/O) и повышает производительность. Формат Parquet является самоописываемым: схема данных встроена непосредственно в файл, что исключает необходимость во внешних хранилищах метаданных и упрощает управление данными. Он поддерживает широкий спектр типов данных и сложные вложенные структуры. Parquet широко применяется в хранилищах данных, озерах данных (Data Lakes) и других системах, где критически важны эффективность хранения и скорость извлечения информации. Интеграция с популярными инструментами, такими как Apache Spark, Hadoop и Presto, делает его универсальным выбором для конвейеров обработки данных. Формат оптимизирован как для операций чтения, так и для записи, хотя чаще всего используется в сценариях «однократной записи и многократного чтения» (write-once, read-many).