使用Anaconda集成IPython、Spark和TensorFlow、Orange,形成統(tǒng)一管理的分布式機器學習研究環(huán)境??梢詫⒘鞒淘O計、算法評估、神經(jīng)網(wǎng)絡、分布式計算和包管理集成到一起等,以及可以將其與git/jenkins/sonarqube等集成到一起,實現(xiàn)完整的大規(guī)模數(shù)據(jù)處理與分析的DevOps。不過,目前這些項目還是各自為陣的狀態(tài),集成度和自動化程度都還不高。
為了方便管理,將其安裝在由conda管理的獨立虛擬環(huán)境中。
1、Anaconda,python集成環(huán)境
由https://www.開發(fā)。集成了很多優(yōu)秀的python項目,包括conda虛擬運行環(huán)境管理和軟件包管理軟件,可以部分替代virtualenv和pip的作用。
從 https://www./downloads 下載并且安裝。
1 2 3 | #創(chuàng)建python虛擬環(huán)境。
conda create -n tensor python=3
source activate tensor
|
2、IPython,高級Python運行環(huán)境
現(xiàn)已更名為Jupyter(http:///),支持通過notebook進行算法模型的共享。
Spark,高性能并行計算環(huán)境
從 https://conda./anaconda-cluster 可以訪問到集成的Spark版本。
安裝:
1 | conda install -n tensor -c https://conda./anaconda-cluster spark
|
3、TensorFlow,機器學習引擎
TensorFlow是由Google開源的基于神經(jīng)網(wǎng)絡的機器學習引擎,從 https://www./ 訪問詳細信息。
安裝:
1 | conda install -n tensor -c https://conda./jjhelmus tensorflow
|
4、Orange,可視化機器學習環(huán)境
網(wǎng)站:http://orange./
原始項目為安裝在virtualenv里的指南,這里將安裝在conda環(huán)境下。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 | #安裝基礎支持庫
sudo apt-get update
sudo apt-get -y install git python-pip python-virtualenv
python3-dev python3-numpy python3-scipy python3-pyqt4 python-qt4-dev python3-sip-dev libqt4-dev
#首先安裝Anaconda
./Anaconda3-2.5.0-Linux-x86_64.sh
#退出控制臺窗口,重新進入,以讓路徑設置生效。
#輸入conda list,可以查看anaconda安裝的包,檢查安裝是否成功。
#創(chuàng)建python虛擬環(huán)境。
conda create -n tensor python=3
#激活所創(chuàng)建的python虛擬環(huán)境,后續(xù)的軟件將安裝在該環(huán)境中。
source activte tensor
#復制orange源代碼。
git clone https://github.com/biolab/orange3
#安裝Orange的依賴庫代碼
cd orange3
pip install -r requirements-core.txt
pip install -r requirements-dev.txt
pip install -r requirements-doc.txt
pip install -r requirements-gui.txt
pip install -r requirements-sql.txt
python setup.py develop
cd ..
#安裝擴展庫
git clone https://github.com/biolab/orange-bio
cd orange-bio
python setup.py develop
cd ..
#退出虛擬環(huán)境
source deactivate
|
運行,將下面代碼保存到start.sh,然后啟動即可:
1 2 3 | #運行
source activate tensor
python -m Orange.canvas
|
Orange安裝完畢,運行與官方的安裝結果完全一樣,只是python擴展包現(xiàn)在交由conda而不是virtualenv管理。
下一步就需要考慮如何將TensorFlow和Spark等結合起來,在分布式環(huán)境下使用。以及將Orange的widget代碼放到Spark環(huán)境下去分布式運行。
|