使用 Carpet 在 Java 中處理 Parquet 檔案

https://dev.to/jerolba/working-with-parquet-files-in-java-using-carpet-lmk

Carpet 是一個 Java 函式庫,將 Parquet 檔案序列化和反序列化為 Java 17 Records,可以簡化 Parquet 和 Hadoop 的特性,最小化必要的依賴關係,並直接使用 Parquet 代碼。

此外,Carpet 使用反射,以欄位名稱和類型創建 Parquet 模式,並支持複雜數據結構,如記錄、集合和映射。

對於序列化和反序列化,Carpet 提供了簡單的 API,使得處理 Parquet 檔案變得極其容易。Carpet 的性能也比 Parquet Avro 和 Parquet Protocol Buffers 更高速,因此對於 99%的使用情境非常適用。

Carpet 是一個開源函式庫,採用 Apache 2.0 許可證,並可以在 Maven Central 找到其源代碼。您可以透過 GitHub 瞭解更多功能和自定義選項,並鼓勵您使用 Carpet 並分享您的反饋,或告訴作者您在處理 Parquet 檔案時的使用情況。

via DEV Community

June 20, 2024 at 01:29AM

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *