ORC (Optimized Row Columnar) é um formato de arquivo colunar autodescritivo e com reconhecimento de tipo, projetado para cargas de trabalho Hadoop. Ele é otimizado para processamento e armazenamento de dados em larga escala, oferecendo melhorias significativas no desempenho e na eficiência de armazenamento em comparação com formatos tradicionais baseados em linhas, como CSV ou arquivos de texto. Os arquivos ORC armazenam dados em um formato colunar, o que permite a recuperação eficiente de colunas específicas sem a necessidade de ler a linha inteira. Isso é particularmente benéfico para consultas analíticas que requerem apenas um subconjunto dos dados. O formato também suporta várias técnicas de compressão (por exemplo, Zlib, Snappy, LZO) para reduzir o espaço de armazenamento e a sobrecarga de I/O (Entrada/Saída). Além disso, os arquivos ORC incluem metadados, como estatísticas sobre os dados dentro de cada coluna, permitindo que os otimizadores de consulta ignorem blocos de dados irrelevantes e melhorem ainda mais o desempenho das consultas. O ORC é amplamente utilizado em ecossistemas de big data como Apache Hive, Apache Spark e Presto para armazenar e processar grandes conjuntos de dados.