近期要开始阅读Spark的源码了,董的博客里的这篇文章已经把大致的环境搭建思路说得很清楚了。不过由于我没有专用的Linux工作机,在VM里开IDE阅读代码不仅对我8GB内存的小本是种摧残,对我的精神更是种折磨,于是开始琢磨怎么在Windows下配置这个环境。

其实那篇博文已经比较老了(注意到那个发布时间是2014年),不仅Spark有了飞越,Scala同样也是,版本问题似乎已经不再那么至关重要(版本依然重要)下面列出我的配置流水:

  • 安装JDK 1.8,配置CLASS_PATH、系统Path
  • 安装Scala 2.10.6(2.10.x的最新版),安装的时候没什么特殊情况的话,会自动加入Path
  • 安装Git for Windows,这个记得安装的时候不要选Bash,要选Command Prompt
  • 安装SBT,这个似乎不是必要的,因为IDEA自带这个,不过如果希望自己动动命令行手动构建的话,可以装个玩玩,记得加入Path,然后命令行执行sbt命令来进行初始化(有可能需要VPN,有些库被墙得厉害)
  • 安装IDEA,最好的Java IDE没有之一,在我心目中和Visual Studio地位一样高,因此我也十足信任他在Scala上的能力。安装后记得安装Scala扩展

接下来就简单了,下载Spark 1.6的源码,解压到你希望的目录。

打开你的IDEA,选择导入项目,选中你解压后的源码根目录,之后再选SBT方式Finish就可以了。(接下来可能需要等一万年……能科学上网还是科学上网吧,我这个从夜里2点挂到了今天上午11点才算完事)

spark

接下来做你该做的事情就好了。(不过你看最下面,SBT还在继续搞事……国内做研究真是麻烦啊啊啊)

—补充—

sbt的解决依赖似乎有问题,IDEA会提示识别到了未管理的pom文件,这个时候选择把它加入到项目就可以了,然后又是一通解决依赖(啊啊啊,整整16小时了都)。最后的最后……

spark1

右边的红道道终于不见了,Build也可以顺利进行了,各种IDE提供的跳转功能也进入工作状态!

P.S.未来我会根据我阅读的论文和源码的情况在本博客写一系列短文章,来介绍Spark的一些八卦(雾)。

说点什么

您将是第一位评论人!

提醒
wpDiscuz