Apache Parquet è un formato di archiviazione colonnare ottimizzato per l'utilizzo con framework di elaborazione di big data. A differenza dei formati orientati alle righe, Parquet memorizza i dati per colonne, il che consente una compressione e una codifica dei dati estremamente efficienti. Questa archiviazione colonnare permette ai motori di query di recuperare solo le colonne necessarie per una specifica interrogazione, riducendo significativamente le operazioni di I/O e migliorando le prestazioni delle query. Parquet è progettato per essere auto-descrittivo, il che significa che lo schema è incorporato all'interno del file di dati stesso. Ciò elimina la necessità di archivi di metadati esterni e semplifica la gestione dei dati. Supporta un'ampia gamma di tipi di dati e strutture nidificate complesse. Parquet è ampiamente utilizzato nel data warehousing, nei data lake e in altre applicazioni di big data in cui l'archiviazione e il recupero efficiente dei dati sono fondamentali. La sua integrazione con framework popolari come Apache Spark, Hadoop e Presto lo rende una scelta versatile per le pipeline di elaborazione dati. Il formato è progettato sia per operazioni di lettura che di scrittura, sebbene sia spesso utilizzato in scenari in cui i dati vengono scritti una volta e letti molte volte (write-once, read-many).