Spark10 Pyspark (on Jupyter notebook) In [1]: from IPython.core.display import display, HTML display(HTML("")) View Source In [1]: !pip list | grep pyspark pyspark 3.3.0 In [2]: from pyspark.sql import SparkSession 1. hdfs 에 파일올리기¶ $ hadoop fs -ls $ hadoop fs -mkdir /user/philhoonoh $ hadoop fs hadoop fs -put /Users/philhoonoh/Desktop/Hadoop/data.csv /user/philhoonoh/ 2. Spark Session 으로 data.csv를 dataframe 으로 불러오기¶ In [3]: spark = .. 2022. 8. 24. Spark Shell Basic Command Spark Shell 실행 $ cd $SPARK_HOME $ ./bin/spark-shell org.apache.spark.SparkContext scala> sc org.apache.spark.sql.SparkSession scala> spark String = local[*] master node 정보 확인 scala> sc.master Option[String] = Some(http://172.16.100.49:4040) spark UI 정보 scala> sc.uiWebUrl SparkShell clear scala> (Ctrl + L) SparkShell exit scala> :quit 프로세스 확인 (SparkSubmit) Spark SHELL 밖에서 $ jsp 406 96633 Jps 9502.. 2022. 8. 23. Hadoop HDFS CLI Basic Command Hadoop version 확인 $ hadoop versionHadoop dfs 실행 $ cd $HADOOP_HOME $ sbin/start-dfs.sh $ sbin/stop-dfs.shHadoop yarn 실행 $ cd $HADOOP_HOME $ sbin/start-yarn.sh $ sbin/stop-yarn.shhadoop hdfs CLI 사용 - (아래 2개 동일) - prefix 같이 사용 $ hdfs dfs $ hadoop fs hadoop hdfs CLI + Linux 명령어 형식 $ hadoop fs -mkdir /user/philhoonoh/input $ hadoop fs -ls /user/philhoonohput : Local -> HDFS $ hadoop fs -help put $ ha.. 2022. 8. 23. Apache Spark 6. Spark Monitoring/Runtime/Deployment Ref. 아파치 스파크 입문 Apache Hadoop 2022. 8. 23. Apache Spark 5. Structured APIs (Dataframe, Spark SQL, Dataset) Ref. 아파치 스파크 입문 Apache Hadoop 2022. 8. 23. Troubleshooting (Hadoop: Setting up a Single Node Cluster) Local 에 SingleNodeCluster 로 하둡을 실행시 에러 발생 $ sbin/start-dfs.sh첫번째 에러 Operation Not Permitted Error Mac 에서의 권한 에러 해결방법 sshd-keygen-wrapper 의 Full Disk Access 설정 System Preference -> Setting -> Security & Privacy -> Privacy -> Full Disk Access 두번째 에러 secondary namenode 에서 DNS 가 적절히 입력되지 않음 $ Starting secondary namenodes \[XXX.XXX.XXX.XXX\] $ XXX.XXX.XXX.XXX: ssh: Could not resolve hostname XXX.XXX... 2022. 8. 22. Apache Spark 4. What is RDD & DAG? Ref. 아파치 스파크 입문 Apache Hadoop 2022. 8. 22. Apache Spark 3. Apache Spark Streaming Ref. 아파치 스파크 입문 Apache Hadoop 2022. 8. 22. Apache Spark 2. What is Apache Spark? Ref. 아파치 스파크 입문 Apache Hadoop 2022. 8. 22. 이전 1 2 다음