ORC (Optimized Row Columnar) est un format de fichier colonnaire auto-descriptif et conscient des types, conçu spécifiquement pour les charges de travail Hadoop. Il est optimisé pour le traitement et le stockage de données à grande échelle, offrant des améliorations significatives en termes de performance et d'efficacité de stockage par rapport aux formats traditionnels basés sur les lignes comme le CSV ou les fichiers texte. Les fichiers ORC stockent les données dans un format colonnaire, ce qui permet une récupération efficace de colonnes spécifiques sans avoir à lire la ligne entière. Cela est particulièrement avantageux pour les requêtes analytiques qui ne nécessitent qu'un sous-ensemble des données. Le format prend également en charge diverses techniques de compression (par exemple, Zlib, Snappy, LZO) afin de réduire l'espace de stockage et la surcharge d'E/S. De plus, les fichiers ORC incluent des métadonnées telles que des statistiques sur les données au sein de chaque colonne, permettant aux optimiseurs de requêtes d'ignorer les blocs de données non pertinents et d'améliorer encore davantage les performances des requêtes. ORC est largement utilisé dans les écosystèmes de Big Data tels qu'Apache Hive, Apache Spark et Presto pour le stockage et le traitement de grands ensembles de données.