Installieren Sie PySpark unter Ubuntu 22.04

Wenn Sie ein Dateningenieur sind, wissen Sie die Rolle zu schätzen, die Apache Spark bei der Verarbeitung großer Datenmengen spielt. Das Open-Source-Framework unterstützt die Analyse großer Datenmengen und arbeitet mit verschiedenen Sprachen wie Python in verschiedenen Cluster-Computing-Umgebungen.

Dieser Beitrag führt Sie durch die Schritte zur Installation von PySpark unter Ubuntu 22.04. Wir werden PySpark verstehen und ein detailliertes Tutorial zu den Schritten zur Installation anbieten. Schau mal!

So installieren Sie PySpark unter Ubuntu 22.04

Apache Spark ist eine Open-Source-Engine, die verschiedene Programmiersprachen einschließlich Python unterstützt. Wenn Sie es mit Python verwenden möchten, benötigen Sie PySpark. Bei den neuen Apache Spark-Versionen ist PySpark im Lieferumfang enthalten, sodass Sie es nicht separat als Bibliothek installieren müssen. Allerdings muss Python 3 auf Ihrem System ausgeführt werden.

Darüber hinaus muss Java auf Ihrem Ubuntu 22.04 installiert sein, damit Sie Apache Spark installieren können. Dennoch müssen Sie Scala haben. Aber es wird jetzt mit dem Apache Spark-Paket geliefert, sodass es nicht mehr separat installiert werden muss. Schauen wir uns die Installationsschritte genauer an.

Öffnen Sie zunächst Ihr Terminal und aktualisieren Sie das Paket-Repository.

Sudo apt-Update

Als nächstes müssen Sie Java installieren, falls Sie es noch nicht installiert haben. Apache Spark erfordert Java Version 8 oder höher. Sie können den folgenden Befehl ausführen, um Java schnell zu installieren:

sudo apt install default-jdk -y

Überprüfen Sie nach Abschluss der Installation die installierte Java-Version, um sicherzustellen, dass die Installation erfolgreich war:

java –version

Wir haben openjdk 11 installiert, wie aus der folgenden Ausgabe hervorgeht:

Nachdem Java installiert ist, müssen Sie als Nächstes Apache Spark installieren. Dazu müssen wir das bevorzugte Paket von der Website herunterladen. Die Paketdatei ist eine TAR-Datei. Wir laden es mit wget herunter. Sie können auch Curl oder eine andere für Ihren Fall geeignete Download-Methode verwenden.

Besuchen Sie die Apache Spark-Downloadseite und holen Sie sich die neueste oder bevorzugte Version. Beachten Sie, dass Apache Spark in der neuesten Version im Lieferumfang von Scala 2 oder höher enthalten ist. Sie müssen sich also keine Gedanken über die separate Installation von Scala machen.

Für unseren Fall installieren wir die Spark-Version 3.3.2 mit dem folgenden Befehl:

wget https://dlcdn.apache.org/spark/spark-3.3.2/spark-3.3.2-bin-hadoop3-scala2.13.tgz

Stellen Sie sicher, dass der Download abgeschlossen ist. Sie sehen die Meldung „gespeichert“, um zu bestätigen, dass das Paket heruntergeladen wurde.

Die heruntergeladene Datei wird archiviert. Extrahieren Sie es mit tar, wie im Folgenden gezeigt. Ersetzen Sie den Namen der Archivdatei so, dass er mit dem Namen übereinstimmt, den Sie heruntergeladen haben.

tar xvf spark-3.3.2-bin-hadoop3-scala2.13.tgz

Nach dem Extrahieren wird in Ihrem aktuellen Verzeichnis ein neuer Ordner erstellt, der alle Spark-Dateien enthält. Wir können den Verzeichnisinhalt auflisten, um zu überprüfen, ob wir das neue Verzeichnis haben.

Anschließend sollten Sie den erstellten Spark-Ordner in Ihren Ordner verschieben /opt/spark Verzeichnis. Verwenden Sie dazu den Befehl move.

sudo mv /opt/spark

Bevor wir Apache Spark auf dem System verwenden können, müssen wir eine Umgebungspfadvariable einrichten. Führen Sie die folgenden zwei Befehle auf Ihrem Terminal aus, um die Umgebungspfade in die Datei „.bashrc“ zu exportieren:

export SPARK_HOME=/opt/spark

export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Aktualisieren Sie die Datei, um die Umgebungsvariablen mit dem folgenden Befehl zu speichern:

Quelle ~/.bashrc

Damit ist Apache Spark nun auf Ihrem Ubuntu 22.04 installiert. Wenn Apache Spark installiert ist, bedeutet dies, dass Sie auch PySpark installiert haben.

Überprüfen wir zunächst, ob Apache Spark erfolgreich installiert wurde. Öffnen Sie die Spark-Shell, indem Sie den Befehl spark-shell ausführen.

Funkenschale

Wenn die Installation erfolgreich ist, wird ein Apache Spark-Shell-Fenster geöffnet, in dem Sie mit der Interaktion mit der Scala-Schnittstelle beginnen können.

Die Scala-Schnittstelle ist nicht jedermanns Sache, je nachdem, welche Aufgabe Sie erledigen möchten. Sie können überprüfen, ob PySpark auch installiert ist, indem Sie den Befehl pyspark auf Ihrem Terminal ausführen.

Pyspark

Es sollte die PySpark-Shell öffnen, in der Sie mit der Ausführung der verschiedenen Skripte und der Erstellung von Programmen beginnen können, die PySpark nutzen.

Angenommen, Sie installieren PySpark nicht mit dieser Option, können Sie es mit pip installieren. Führen Sie dazu den folgenden Pip-Befehl aus:

Pip Pyspark installieren

Pip lädt PySpark herunter und richtet es auf Ihrem Ubuntu 22.04 ein. Sie können es für Ihre Datenanalyseaufgaben verwenden.

Wenn Sie die PySpark-Shell geöffnet haben, können Sie den Code schreiben und ausführen. Hier testen wir, ob PySpark läuft und einsatzbereit ist, indem wir einen einfachen Code erstellen, der die eingefügte Zeichenfolge übernimmt, alle Zeichen überprüft, um die passenden zu finden, und die Gesamtzahl der Wiederholungen eines Zeichens zurückgibt.

Hier ist der Code für unser Programm:

Durch die Ausführung erhalten wir die folgende Ausgabe. Dies bestätigt, dass PySpark auf Ubuntu 22.04 installiert ist und beim Erstellen verschiedener Python- und Apache Spark-Programme importiert und verwendet werden kann.

Abschluss

Wir haben die Schritte zur Installation von Apache Spark und seinen Abhängigkeiten vorgestellt. Dennoch haben wir gesehen, wie man nach der Installation von Spark überprüft, ob PySpark installiert ist. Darüber hinaus haben wir einen Beispielcode bereitgestellt, um zu beweisen, dass unser PySpark unter Ubuntu 22.04 installiert ist und läuft.

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Nach oben scrollen