Parquet 是一种文件格式,通常用于存储大型结构化数据集。它基于列式存储布局,特点是压缩和高效的存储能力。开源的 parquet 格式最常用于 Hadoop 分布式计算系统中的数据处理。
parquet 格式是一种高效的二进制文件格式,常用于数据仓库、数据集市和数据湖应用程序。它针对分析工作负载进行了优化,并提供了一种易于查询和分析的列式数据集存储方式。它是由 Apache 软件基金会开发和维护的开源格式。 Parquet 文件经过压缩并针对列式数据集进行了优化。
由于 parquet 是一种开源格式,因此它可以被许多流行的框架和工具使用,例如 Apache Spark、Apache Drill、Apache Hive、Apache Impala、Presto、Flink、Kudu 和 MapReduce。许多分析软件(例如 Tableau、Qlik 和 Power BI)也支持 Parquet 文件。
Parquet提供高效的存储能力,减小文件大小,并且可以为每一列存储不同类型的数据。它可以轻松分析大型数据集,并针对读取进行了优化,因此查询速度比 CSV 和 JSON 等其他存储格式更快。
parquet 格式提供了改进的查询和分析性能、更大的可扩展性和高效的存储。它是存储大型、复杂数据集的有效方式,广泛应用于数据仓库和大数据应用中。