低本钱攒机跑深度学习AI

[复制链接]
查看861 | 回复0 | 2023-8-23 11:51:14 | 显示全部楼层 |阅读模式

媒介

随着人工智能的不停发展,深度学习这门技能也越来越重要,AI绘图、深度学习的训练都必要GPU盘算节点,随着GPU代价的回落,普通人搭建GPU盘算集群用来深度学习也成为了致富新蹊径。本文深度记录了本人一些丐中丐GPU集群攒机履历,给各位友友们分享~

一、入手GPU

GPU种类繁多,无论是矿卡照旧新卡,茫茫多的GPU在选择的时间多少让人有点选择困难。但其实不考虑打游戏,单纯用于AI的话,最具性价比的卡按性能、显存和能耗以及个人主管看法来看,排名如下:

  • Nvidia Telsa P100(250W 16GB)性能较强,且有Tensor core,现实运行双精度求解要比别的卡省显存,所以别看显存只有16GB,用起来大概赶上32GB的显存,海鲜市场价大概1300~1600左右,性价比照旧可以的;
  • Nvidia Telsa P40 (250W 24GB) 目前很香的一张卡,大概1/3个3090,没有Tensor core,盘算起来大概VGG-19数据团体感5~10分钟左右,没法测那么准但总之就是可以担当,同时24G大显存,满足你大模子的空想,可以说是贫民跑大模子的首选了。缺点就是你一搜P40险些都是华为的手机,而且近来海鲜市场的P40不知为何都从南京一个地方发货,代价800元-1000。尚有个缺点就是基本上应该都是矿卡;
  • Nvidia Telsa K40/M40 (250W 24GB) 这个档次的卡主打一个丐帮AI,性能不性能无所谓,省不省电无所谓,爷有的是时间炼丹。没有Tensor core,跑什么都一天起步(固然有些夸张,但重点就是突出慢),代价五百左右很美丽;
    留意上述三张卡都没有主动散热,所以要么买个3D打印的小风扇,要么自己手动改散热(有大概导致之后卖不出去)。
  • Nvidia RTX 2080Ti/2080 (250W 11GB) 性能上很强,有Tensor core,用来AI绘图绰绰有余,但跑大模子就不行了,代价上2800左右,目前有所上涨,这卡以及背面先容的卡都有一个前面没有的上风就是可以打游戏,也就是可以当做主力机,所以假如不是有很大的模子要跑,2080的性价比反而更高,而且近来也有了改22G显存的方案(不太保举,改坏了等于三千打水漂)。缺点就是基本上应该都是矿卡;
  • Nvidia RTX 3060 12G版 (170W 12GB) 性能上大概一个半的P40(用3090为标杆对比,主要我没现实拿这俩卡跑benchmark比过),显存上12GB富足九成的AI模子运行了(什么你说你模子分分钟20G?归去重新做数据预处理去),当然也不肯定,毕竟不是全部的数据都好做的,尤其是一些必要end-to-end的玩法。这卡应该海鲜市场也都是矿卡,大概1500~1600;
  • Nvidia GTX 1080Ti (250W 10GB) AI老友,浩繁实验室机房淘汰下来大量1080ti,以及矿山里的大量1080ti都在海鲜市场蓄势待发,和P40一个性能,由于可以打游戏所以代价皮鞭在1200~1800左右,成色这玩意纯属没啥用你看也看不出来,金手指也未必能辨别的那么准确,就当是矿渣,要是1300以下拿下那还行,太贵了的话你就当是打游戏用,那也不赶3060,总之能跑但不太保举;
  • Nvidia RTX 2070 (300W 8GB) 打游戏不错,用来AI比力玄妙。1000左右的代价让它兼具游戏与AI的性价比,然而8G显存着实拖后腿,属于是处理数据调参的高手能玩的得心应手,新手的话极其不保举,显存的管理以及feature的处理你驾御不住;
  • Nvidia RTX 3090 (350W 24GB) 性能和显存上无论怎样都很恰当AI,打游戏也很不错;
  • Nvidia RTX 4090 (450W 24GB) 富哥可以直接V我50看看实力;
  • Nvidia Telsa A100 (400W 48GB) 富哥直接上服务器,电源记得配EVGA的;
  • Nvidia Telsa V100 (400W 32GB) 富哥直接上服务器,电源记得配EVGA的,但也得记得问问显存,要是买到16GB的我以为不如P100(不是说性能,性价比上来讲);
二、主板发起

1.AMD系列

目前测试B450M以上(B550M、B650M等)都可以使用Telsa显卡,但要包管BIOS是最新版
而且bios必要有above 4G decoding选项
留意该类型主板一样平常不支持服务器内存!!
当然你要是用EPYC的另说,富哥应该不太必要担心这些
更新Bios驱动方法如下
先去官网下载最新的驱动

得到一个压缩文件夹,找到一个U盘,格式化成FAT32格式,将压缩包的东西解压进U盘里,接着U盘插到主板上
进入Bios

进入Bios的Flash模式

选择唯逐一个形貌不是DIR的文件


接下来就会开始更新BIOS,确保不要断电

Tips:假如你没有效来亮机的卡,确保VGA detection的选项是“Ignore”
留意选择CPU的时间看清楚是否支持128G内存,理论上3500x以上锐龙都可以,3200g到3400不确定,再往下肯定是不行的。
2.Intel系列

理论上Prime Z170以上的主板都可以支持above 4g decoding,但要留意更新到最新bios,更新方法与amd系列一样,这里不在赘述;
留意选择CPU的时间看清楚是否支持128G内存,理论上10代以上i5、i7、i9都可以,貌似i3是全系不支持128G及以上的。
留意该类型主板一样平常不支持服务器内存!!
3.X99系列

首推华南金牌X99,本人选择的是华南金牌X99-f8(最大内存256GB),固然这个系列主板会有许多小标题,但对于一个丐版AI服务器来说,这个板对得起它的代价,更况且这个主板支持使用服务器内存,意味着你可以以很自制的代价(大概200多买到32G)拿到服务器,运气好的直接去什么废弃机房捞,DDR4的机房内存一大堆
X99适配的CPU有许多,大概范围是LGa2011-3的CPU都支持,详细一点的话那就是cpuCorei7-5960X、i7-5930K、i7-5820KXEONE5-2699v3、E5-2698v3、E5-2695v3、E5-2690v3、E5-2687Wv3、E5-2685v3、E5-2680v3、XeonE5-2670v3、E5-2667v3、E5-2660v3、E5-2650v3、E5-2650Lv3、E5-2640v3、E5-2630v3、XeonE5-2629v3、E5-2623v3、E5-2622v3、E5-2620v3、E5-2609v3、E5-2603v3、E5-1680v3、XeonE5-1650v3、XeonE5-1630v3、XeonE5-1620v3
代价都在100-200左右,贵的没必要,跑AI不是太吃CPU,当然也别太电子垃圾了。
放一张X99-f8的板子,三个Pcie插槽,三卡齐飞,乃至可以用来玩分布式,不过不要对带宽抱太大盼望,咱主打一个性价比AI,你不嫌他烂,他不嫌你穷。

然而X99主板在2018年的Bios才推出above 4g decoding,因此想要用来跑AI,大概率必要你升级Bios。
X99主板升级Bios和其他主板不太一样,必要做一个dos体系U盘
这里保举Rufus,一个快速做装机盘的软件,自带dos体系



这里选择FreeDOS即可,会主动刷进去一个dos体系,记着是FAT32格式
之后点击开始,期待完成即可
进入X99-f8的官网,下载最新的bios
http://www.huananzhi.com/download1.php?lm=13

将压缩包里的文件直接放进U盘根目录里,

接着U盘插到主板上,设置引导进入U盘里的DOS体系

输入你放在U盘里的exe文件(比如上图的fpt.exe)
之后就会主动开始更新bios的过程,中心会不停弹出一些yes or no的选项,无脑全输入y或则yes就可以
更新完成后按ctrl+alt+del重启,开机就能看到logo了
三、电源和机箱发起

这个部分其实很简朴,长城1000W电源大概航嘉1000W电源,代价100(海鲜市场)-500左右。想要安全一些的上EVGA的电源,代价800(海鲜市场)-1000左右,有些EVGA的也能自制一些,但就个人来看,其他地方省钱就省了,电源我们整好点不过分。
机箱方面,海景房是肯定够放的,PDD上动力火车代价就很美丽,

既然要丐,那机箱也可以盗窟~
大概直接服务器机箱,可以配上1.5A以上的暴力风扇,也可以选择静音扇,但那样就必须要搭配3D打印的显卡风扇了。
四、安装体系以及cuda

windows体系以及cuda应该不是很必要先容怎样安装了
这里主要教学linux体系
猛烈保举ubuntu20.04体系,基本上支持统统cuda版本以及torch、tf版本,非常好用
安装ubuntu依然可以使用上述的Rufus,镜像文件选择ubuntu的iso就可以了,留意看好是desktop的照旧server的
进入体系以跋文得禁用nouveau
1.禁用bios中的secure boot,由于secure boot会阻止第三方源安装的驱动,禁用不会带来多大隐患。
2.禁用nouveau驱动,这是Ubuntu默认的开源显卡驱动,与N卡驱动一起使用会导致兼容性标题,比如卡在登录界面无法进入图形界面。
创建设置文件:
  1. sudo gedit /etc/modprobe.d/blacklist_nouveau.conf
复制代码
添加
  1. blacklist nouveau
  2. options nouveau modeset=0
复制代码
生存并重启
输入下列指令检察是否见效
  1. lsmod | grep nouveau
复制代码
假如没有输出那就是见效了
接着进入纯下令行界面
  1. sudo init 3
复制代码
下载nvidia官网恰当版本的驱动,比如cuda12
https://developer.nvidia.com/cuda-downloads

一起选择体系以及必要的文件类型,比如这里选择runfile
  1. wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda_12.1.0_530.30.02_linux.run
  2. sudo sh cuda_12.1.0_530.30.02_linux.run
复制代码
输入accept

选择install

期待安装完成即可
输入
  1. nvidia-smi
复制代码


总结

丐版的AI服务器长时间开机,所以肯定要留意清灰以及电源的安全性,别的硬盘近来代价也不高了,可以顺势多屯点硬盘,让AI服务器不但可以训练人工智障,同时当个NAS看看电影,岂不美哉~

来源:https://blog.csdn.net/weixin_43934886/article/details/130117384
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则