Instalando o PySpark em um ambiente virtual Python
publicado em 04/jan/2024
Neste mini-tutorial estou utilizando o Ubuntu na versão 23.10, e o Python na versão 3.11, porém acredito que este procedimento funcione com o python3.7 em diante, e em outras distribuições do Ubuntu.
Também já tenho o Java instalado em meu pc, certifique-se que os comandos seja reconhecido em seu terminal.
java --version
javac --version
O primeiro passo é criar um ambiente Virtual
python -m venv venv-bigdata
Agora ativaremos o ambiente virtual recém criado
source venv-bigdata/bin/activate
No momento não há nada instalado em nosso ambiente
pip list
Instalando o pyspark
pip install pyspark
Executando o comando ‘pip list’ novamente para vermos o que foi instalado, teremos como output o seguinte resultado:
O PySpark e sua dependência py4j foram instalados com sucesso
pyspark