Spark 3.2.1へのデータ・フローの移行

データ・フローをSpark 3.2.1の使用に移行するには、次のステップに従います。

Delta Lakes 1.2.1でデータ・フローを使用し、Condaパックと統合するには、データ・フローでバージョン3.2.1以降のSparkを使用する必要があります。

Spark 3.2.1の移行ガイドの手順に従って、Spark 3.2.1にアップグレードします。

「データ・フローを開始する前に」でサポートされているバージョンの情報に加え、Spark 3.2.1およびSpark 3.0.2のデータ・フローでサポートされている最小バージョンのみのライブラリ・バージョンが含まれます。
ノート

Spark 3.2.1に移行する前に、Spark 3.0.2にリストされているバージョンを使用してアプリケーションをビルドします。
Spark 3.2.1およびSpark 3.0.2のサポートされているバージョン。
ライブラリ Spark 3.2.1 Spark 3.0.2
Python 3.8.13 3.6.8
Java 11 1.8.0_321
Hadoop (最小バージョン) 3.3.1 3.2.0
Scala 2.12.15 2.12.10
oci-hdfs (最小バージョン) 3.3.1.0.3.2 3.2.1.3
oci-java-sdk (最小バージョン) 2.45.0 1.25.2
ノート

Spark 3.2.1でパフォーマンスを最大化するには、Spark 3.2.1のパフォーマンス設定を参照してください。

Spark 3.2.1のパフォーマンス設定

Spark 3.2.1を使用する場合は、パフォーマンスを最大化するために2つのパラメータを設定します。

デフォルトでは、Oracle Cloud Infrastructure Java SDKはApacheConnectorを使用します。これにより、メモリー内のリクエストがバッファリングされる可能性があるため、かわりに、次のパラメータを設定してJersey HttpurlConnectorを使用します。
spark.executorEnv.OCI_JAVASDK_JERSEY_CLIENT_DEFAULT_CONNECTOR_ENABLED=true
spark.driverEnv.OCI_JAVASDK_JERSEY_CLIENT_DEFAULT_CONNECTOR_ENABLED=true