ORC (Optimized Row Columnar) 是一种为 Hadoop 工作负载设计的自描述、类型感知的列式存储文件格式。它针对大规模数据处理和存储进行了优化,与 CSV 或文本文件等传统的行式格式相比,在性能和存储效率方面提供了显著的改进。ORC 文件以列式格式存储数据,这使得系统在不读取整行数据的情况下即可高效检索特定列,对于仅需要数据子集的分析查询特别有利。该格式还支持多种压缩技术(如 Zlib、Snappy、LZO),以有效减少存储空间并降低 I/O 开销。此外,ORC 文件包含丰富的元数据,例如每列数据的统计信息,使查询优化器能够跳过无关的数据块,从而进一步提高查询性能。目前,ORC 已被广泛应用于 Apache Hive、Apache Spark 和 Presto 等大数据生态系统中,是存储和处理大规模数据集的主流格式之一。