Spark 3.2.1へのデータ・フローの移行
データ・フローをSpark 3.2.1の使用に移行するには、次のステップに従います。
Delta Lakes 1.2.1でデータ・フローを使用し、Condaパックと統合するには、データ・フローでバージョン3.2.1以降のSparkを使用する必要があります。
Spark 3.2.1の移行ガイドの手順に従って、Spark 3.2.1にアップグレードします。
「データ・フローを開始する前に」でサポートされているバージョンの情報に加え、Spark 3.2.1およびSpark 3.0.2のデータ・フローでサポートされている最小バージョンのみのライブラリ・バージョンが含まれます。
ノート
Spark 3.2.1に移行する前に、Spark 3.0.2にリストされているバージョンを使用してアプリケーションをビルドします。
Spark 3.2.1に移行する前に、Spark 3.0.2にリストされているバージョンを使用してアプリケーションをビルドします。
ライブラリ | Spark 3.2.1 | Spark 3.0.2 |
---|---|---|
Python | 3.8.13 | 3.6.8 |
Java | 11 | 1.8.0_321 |
Hadoop (最小バージョン) | 3.3.1 | 3.2.0 |
Scala | 2.12.15 | 2.12.10 |
oci-hdfs (最小バージョン) | 3.3.1.0.3.2 | 3.2.1.3 |
oci-java-sdk (最小バージョン) | 2.45.0 | 1.25.2 |
Spark 3.2.1のパフォーマンス設定
Spark 3.2.1を使用する場合は、パフォーマンスを最大化するために2つのパラメータを設定します。
デフォルトでは、Oracle Cloud Infrastructure Java SDKはApacheConnectorを使用します。これにより、メモリー内のリクエストがバッファリングされる可能性があるため、かわりに、次のパラメータを設定してJersey HttpurlConnectorを使用します。
spark.executorEnv.OCI_JAVASDK_JERSEY_CLIENT_DEFAULT_CONNECTOR_ENABLED=true
spark.driverEnv.OCI_JAVASDK_JERSEY_CLIENT_DEFAULT_CONNECTOR_ENABLED=true