A tutorial repository for Strata Beijing 2016. It contains setup instructions and example code.
- 安装Git
- 使用Git将本项目clone到本地
- 安装最新的JDK,设置JAVA_HOME环境变量
- 安装最新的maven
- 安装Apache Spark, 设置HADOOP_HOME环境变量(注意:在Windows环境下需要把HADOOP_HOME环境变量设为项目中hadoop\win64所在的路径),运行
spark-shell
检查Spark是否装好(注意:Windows下Saprk退出时会有无法删除临时目录的Exception)。 - 使用maven构建项目代码,即运行
mvn pakcage
- 运行第一个示例,即运行
spark-submit --class Pipeline target/strata-tutorial-1.0-SNAPSHOT-jar-with-dependencies.jar dataset\adult.data dataset\adult.test
- 运行第二个示例,即运行
spark-submit --class GridSearch target/strata-tutorial-1.0-SNAPSHOT-jar-with-dependencies.jar dataset\adult.data dataset\adult.test
- 运行第三个示例,即运行
spark-submit --class Persist target/strata-tutorial-1.0-SNAPSHOT-jar-with-dependencies.jar dataset\adult.data dataset\adult.test
有问题可以给[email protected]发邮件。