Apache Parquet est un format de stockage colonnaire optimisé pour une utilisation avec les frameworks de traitement de big data. Contrairement aux formats orientés ligne, Parquet stocke les données par colonnes, ce qui permet une compression et un encodage des données efficaces. Ce stockage colonnaire permet aux moteurs de requête de récupérer uniquement les colonnes nécessaires pour une requête donnée, réduisant ainsi considérablement les opérations d'E/S et améliorant les performances des requêtes. Parquet est conçu pour être auto-descriptif, ce qui signifie que le schéma est intégré dans le fichier de données lui-même. Cela élimine le besoin de magasins de métadonnées externes et simplifie la gestion des données. Il prend en charge un large éventail de types de données et de structures imbriquées complexes. Parquet est largement utilisé dans l'entreposage de données (data warehousing), les lacs de données (data lakes) et d'autres applications de big data où le stockage et la récupération efficaces des données sont critiques. Son intégration avec des frameworks populaires tels qu'Apache Spark, Hadoop et Presto en fait un choix polyvalent pour les pipelines de traitement de données. Le format est conçu pour les opérations de lecture et d'écriture, bien qu'il soit souvent utilisé dans des scénarios où les données sont écrites une fois et lues plusieurs fois (write-once, read-many).