徹底實戰(zhàn)詳解使用IntelliJ IDEA下的Spark程序開發(fā)
1、下載安裝包(Windows)
2、本地java8和Scala 2.10.4軟件套件的安裝
3、為IDEA安裝Scala,這個過程是IDEA的自動化的插件管理,所以點擊后會自動下載
4、指定JDK1.8.x和Scala2.10.4
5、File->Project Structure 來設(shè)置工程的Libraries核心是添加Spark的jar依賴
6、添加Spark的jar依賴
為什么不能再IDE中直接發(fā)布Spark程序到Spark集群中
1、內(nèi)存和core的限制,默認情況下Spark程序的Driver會在提交Spark的機器上,所以如果在IDE中提交程序的話,那IDE機器就必須非常強大
2、driver要指揮集群中的worker運行,并頻繁地發(fā)生通信,如果開發(fā)環(huán)境IDEA和Spark集群不在同一個網(wǎng)絡(luò)下,就會出現(xiàn)任務(wù)丟失,運行緩慢等多種不必要的問題
3、這是不安全的
打包:
File->Project Structure-> Artifacts -> 加號 -> jar -> From module with dependencies
注意要把Spark和Scala的jar去掉
|