分布式机器学习(Parameter Server)

首页 > 资讯 > > 内容页

分布式机器学习(Parameter Server)

发表于: 2023-05-27 21:25:14 来源：博客园

分布式机器学习中，参数服务器(Parameter Server)用于管理和共享模型参数，其基本思想是将模型参数存储在一个或多个中央服务器上，并通过网络将这些参数共享给参与训练的各个计算节点。每个计算节点可以从参数服务器中获取当前模型参数，并将计算结果返回给参数服务器进行更新。

为了保持模型一致性，通常采用下列两种方法：

将模型参数保存在一个集中的节点上，当一个计算节点要进行模型训练时，可从集中节点获取参数，进行模型训练，然后将更新后的模型推送回集中节点。由于所有计算节点都从同一个集中节点获取参数，因此可以保证模型一致性。每个计算节点都保存模型参数的副本，因此要定期强制同步模型副本，每个计算节点使用自己的训练数据分区来训练本地模型副本。在每个训练迭代后，由于使用不同的输入数据进行训练，存储在不同计算节点上的模型副本可能会有所不同。因此，每一次训练迭代后插入一个全局同步的步骤，这将对不同计算节点上的参数进行平均，以便以完全分布式的方式保证模型的一致性，即All-Reduce范式PS架构

在该架构中，包含两个角色：parameter server和worker

(相关资料图)

parameter server将被视为master节点在Master/Worker架构，而worker将充当计算节点负责模型训练

整个系统的工作流程分为4个阶段：

Pull Weights: 所有worker从参数服务器获取权重参数Push Gradients: 每一个worker使用本地的训练数据训练本地模型，生成本地梯度，之后将梯度上传参数服务器Aggregate Gradients：收集到所有计算节点发送的梯度后，对梯度进行求和Model Update：计算出累加梯度，参数服务器使用这个累加梯度来更新位于集中服务器上的模型参数

可见，上述的Pull Weights和Push Gradients涉及到通信，首先对于Pull Weights来说，参数服务器同时向worker发送权重，这是一对多的通信模式，称为fan-out通信模式。假设每个节点（参数服务器和工作节点）的通信带宽都为1。假设在这个数据并行训练作业中有N个工作节点，由于集中式参数服务器需要同时将模型发送给N个工作节点，因此每个工作节点的发送带宽（BW）仅为1/N。另一方面，每个工作节点的接收带宽为1，远大于参数服务器的发送带宽1/N。因此，在拉取权重阶段，参数服务器端存在通信瓶颈。

对于Push Gradients来说，所有的worker并发地发送梯度给参数服务器，称为fan-in通信模式，参数服务器同样存在通信瓶颈。

基于上述讨论，通信瓶颈总是发生在参数服务器端，将通过负载均衡解决这个问题

将模型划分为N个参数服务器，每个参数服务器负责更新1/N的模型参数。实际上是将模型参数分片（sharded model）并存储在多个参数服务器上，可以缓解参数服务器一侧的网络瓶颈问题，使得参数服务器之间的通信负载减少，提高整体的通信效率。

代码实现

定义网络结构：

class Net(nn.Module):    def __init__(self):        super(Net,self).__init__()        if torch.cuda.is_available():            device = torch.device("cuda:0")        else:            device = torch.device("cpu")        self.conv1 = nn.Conv2d(1,32,3,1).to(device)        self.dropout1 = nn.Dropout2d(0.5).to(device)        self.conv2 = nn.Conv2d(32,64,3,1).to(device)        self.dropout2 = nn.Dropout2d(0.75).to(device)        self.fc1 = nn.Linear(9216,128).to(device)        self.fc2 = nn.Linear(128,20).to(device)        self.fc3 = nn.Linear(20,10).to(device)    def forward(self,x):        x = self.conv1(x)        x = self.dropout1(x)        x = F.relu(x)        x = self.conv2(x)        x = self.dropout2(x)        x = F.max_pool2d(x,2)        x = torch.flatten(x,1)        x = self.fc1(x)        x = F.relu(x)        x = self.fc2(x)        x = F.relu(x)        x = self.fc3(x)        output = F.log_softmax(x,dim=1)        return output

如上定义了一个简单的CNN

实现参数服务器：

class ParamServer(nn.Module):    def __init__(self):        super().__init__()        self.model = Net()        if torch.cuda.is_available():            self.input_device = torch.device("cuda:0")        else:            self.input_device = torch.device("cpu")        self.optimizer = optim.SGD(self.model.parameters(),lr=0.5)    def get_weights(self):        return self.model.state_dict()    def update_model(self,grads):        for para,grad in zip(self.model.parameters(),grads):            para.grad = grad        self.optimizer.step()        self.optimizer.zero_grad()

get_weights获取权重参数，update_model更新模型，采用SGD优化器

实现worker:

class Worker(nn.Module):    def __init__(self):        super().__init__()        self.model = Net()        if torch.cuda.is_available():            self.input_device = torch.device("cuda:0")        else:            self.input_device = torch.device("cpu")    def pull_weights(self,model_params):        self.model.load_state_dict(model_params)    def push_gradients(self,batch_idx,data,target):        data,target = data.to(self.input_device),target.to(self.input_device)        output = self.model(data)        data.requires_grad = True        loss = F.nll_loss(output,target)        loss.backward()        grads = []        for layer in self.parameters():            grad = layer.grad            grads.append(grad)        print(f"batch {batch_idx} training :: loss {loss.item()}")        return grads

Pull_weights获取模型参数，push_gradients上传梯度

训练

训练数据集为MNIST

import torchfrom torchvision import datasets,transformsfrom network import Netfrom worker import *from server import *train_loader = torch.utils.data.DataLoader(datasets.MNIST("./mnist_data", download=True, train=True,               transform = transforms.Compose([transforms.ToTensor(),               transforms.Normalize((0.1307,),(0.3081,))])),               batch_size=128, shuffle=True)test_loader = torch.utils.data.DataLoader(datasets.MNIST("./mnist_data", download=True, train=False,              transform = transforms.Compose([transforms.ToTensor(),              transforms.Normalize((0.1307,),(0.3081,))])),              batch_size=128, shuffle=True)def main():    server = ParamServer()    worker = Worker()    for batch_idx, (data,target) in enumerate(train_loader):        params = server.get_weights()        worker.pull_weights(params)        grads = worker.push_gradients(batch_idx,data,target)        server.update_model(grads)    print("Done Training")if __name__ == "__main__":    main()

标签：

山东青岛：楼宇经济体劳动争议预防调解联盟成立

2022-02-15查看详情

电力巡线工“偏向虎山行”

2022-02-15查看详情

听！城市的脉动

2022-02-15查看详情

分布式机器学习(Parameter Server)

分布式机器学习(Parameter Server)

淄博不眠不休的120小时

全球头条：汽车天窗的优缺点买车的要看完_汽车天窗的优缺点

时讯：关于长征的革命故事_关于长征

莫西莫西日语_莫西莫西_世界头条

吃火锅最佳的配菜? 世界今日讯

环球速讯：牙齿裂开一条缝很痛要拔 牙齿裂开一条缝

世界速读：青海省民航市场加速恢复

股价跌到7毛7，千亿明星房企陷入退市危机！高管集体出手从跌停拉涨停，当地政府也表态了

天天速读：青农商行与青岛前首富决裂？多次减持，“巴龙系”持有上亿元股权将拍卖

悦安新材：5月26日融券卖出6952股，融资融券余额1.54亿元|环球快讯

动态焦点:司机半路昏睡不醒，110、120、119全来了

气厥 关于气厥介绍

天天新动态：李斯丹妮张雨绮（李斯丹妮吧）

人福医药：5月26日融券卖出17.79万股，融资融券余额3.46亿元

首次中药饮片集采结果揭晓，平均降价29.5%|世界快报

每日看点！单身公寓的产权是多少年（公寓的产权是多少年）

教学管理包括哪些方面的内容_教学管理包括哪些方面|速看

武汉重光科技有限公司|报资讯

消息！信丰：治山理水 显山露水

怎么关闭花呗分期付款功能_怎么关闭花呗

豪森股份：公司产品为高度非标准化、高度集成的智能生产线|全球快消息

劳动技能秀出来！《武汉市小学校园劳动清单》正式发布 世界热闻

龙图光罩科创板IPO审核状态更新为“已受理”-今亮点

环球快看点丨孟文能：综合政策框架能保物价和金融稳定

世界速读：刘国梁肖战太心急了！白送日本1400分，强拆2大王牌对不起林高远

50：0全票通过，联合国重要机构放上海，总部搬出纽约可摆脱困境 环球实时

1998年一日元等于多少人民币(一日元等于多少人民币2023年) 世界头条

iOS版ChatGPT应用已在40多个国家和地区上线 世界热门

王晓璐：善小常为 良好家风代代传|天天信息

事关高考！南昌红谷滩区发布倡议书|天天报资讯

世界热门:卡罗拉预碰撞安全系统有用吗（卡罗拉预碰撞系统怎么用）

环球通讯！和江山艺术馆：李舜“万物逐光”展览对谈本周六举行

国产大飞机C919商业航班本周日首飞！从上海飞往北京

全球热资讯！生命的悲剧意识_关于生命的悲剧意识介绍

荣科科技：公司严格按照深圳证券交易所的相关规定履行信息披露义务|全球信息

慈溪新城河建投15亿私募债获上交所反馈 世界最资讯

环球短讯！AI造假乱象频发 上市公司在AI安全领域积极布局

青浦水城门装电梯啦！-世界快播

每日动态!5.26早看点|据消息称天津出台公积金新政，执行认房不认贷

【618】性价比之选，好用的1080P、2K、4K高刷显示器推荐_环球聚焦

每日速看!ChatGPT 标注指南来了！数据是关键

讯息：兰州大学一教师被指抹黑抗美援朝，校方回应，真相终于浮出水面

最后的避难所(对于最后的避难所简单介绍)

新民一村_关于新民一村简介_全球视讯

环球时讯：红安县永河小学：春风化雨润桃李，无声润物自成蹊

2023年养老金补发时间:6月份养老金会补发吗？有两笔钱将发放 天天热议

热点！常山北明（000158）：5月25日北向资金增持105.59万股

普安县经济社会发展报告：2019(关于普安县经济社会发展报告：2019的简介)

揭秘杨紫琼《瞬息全宇宙》中，母女关系的3大隐喻，get到人生大智慧

天天精选！做联系全球创新资源的重要纽带，国际科技组织密集落地北京

南安市女企业家联谊会暨拥军协会第四届理事会、首届监事会就职典礼举行|每日短讯

英伟达超预期业绩引爆A股，多只概念股股价大涨

淘宝起诉抖音旗下两家公司 要求其停止侵权

【瞰全球】美债“闹剧”折损美国影响力 美元地位频遭质疑

建行切实提升纪检委员的履职能力

大产权房拆了怎么补偿？房屋拆迁时有证和没证补偿区别是什么？

狐说商用车05期 | 全场景的跨界轻客，试驾南京依维柯聚星-焦点热闻

为何大家放着4%~5%的理财产品不要，却钟情于2%~3%存款

初中生怎么自考大专？文凭有什么用处？

快报：5月25日 14:19分 九 芝 堂（000989）股价快速拉升

【图片新闻】张掖市甘州区农民开展除草、病虫害防治等田间管理|全球今日报

伤残鉴定可以找关系吗（伤残鉴定要找谁）

远东宏信(03360)：宏信建发5月25日在联交所主板上市|世界时快讯

西藏城投于上海新成立商管公司 天天观察

环球消息！组织百名青年博士驻企服务 浙江湖州启动“蒲公英计划”

天天滚动:遭长城汽车举报 比亚迪AH股短线跳水 公司回应来了

天天头条：历史上唐僧罕见的存世书法真迹

七彩虹多款RTX 4060 Ti 8GB显卡开售！3199元起

李凯尔回应中国男篮归化：我的根扎在中国

电脑能玩安卓游戏了，手机热门应用将一网打尽！

提能力 转作风 抓落实丨鹤岗，高分答卷的背后

看热讯：宁波西北梦电子商务有限公司

飞机失速_每日速读

这些地方周末体感近40℃，这些地方暴雨强对流出没|世界微动态

环球观天下！广州到重庆高铁多少公里路程_广州到重庆高铁多少公里

今日最新更新内容 老人赶集卖的鸭被闷死 路人纷纷买下减少老人损失 世界观速讯

电动汽车的维护项目有哪些方面（电动汽车的维护项目有哪些？）

钱江摩托：我司已关注该事件，并由公司广宣部门协同法务部门推进解决中 天天速看

环球速讯：牙齿裂开一条缝很痛要拔牙齿裂开一条缝

气厥关于气厥介绍

消息！信丰：治山理水显山露水

劳动技能秀出来！《武汉市小学校园劳动清单》正式发布世界热闻

50：0全票通过，联合国重要机构放上海，总部搬出纽约可摆脱困境环球实时

iOS版ChatGPT应用已在40多个国家和地区上线世界热门

王晓璐：善小常为良好家风代代传|天天信息

慈溪新城河建投15亿私募债获上交所反馈世界最资讯

环球短讯！AI造假乱象频发上市公司在AI安全领域积极布局

2023年养老金补发时间:6月份养老金会补发吗？有两笔钱将发放天天热议

淘宝起诉抖音旗下两家公司要求其停止侵权

【瞰全球】美债“闹剧”折损美国影响力美元地位频遭质疑

快报：5月25日 14:19分九芝堂（000989）股价快速拉升

西藏城投于上海新成立商管公司天天观察

环球消息！组织百名青年博士驻企服务浙江湖州启动“蒲公英计划”

天天滚动:遭长城汽车举报比亚迪AH股短线跳水公司回应来了

提能力转作风抓落实丨鹤岗，高分答卷的背后

今日最新更新内容老人赶集卖的鸭被闷死路人纷纷买下减少老人损失世界观速讯

钱江摩托：我司已关注该事件，并由公司广宣部门协同法务部门推进解决中天天速看

世界新消息丨优化营商环境 | 淮滨经侦：“警”跟“企”盼护航企业高质量发展

定本·育儿百科礼品装_全球观点

西和：文旅融合让古村落焕发新生机天天日报

富春染织：拟开展不超5000万元期货套期保值业务全球时快讯

工行连线：债务上限谈判现转机国际金价震荡收跌

中国睡眠研究会睡眠障碍专委会年会在湖南衡阳举行全球快资讯

庄信万丰和Hystar结成战略伙伴全球今日讯

《2022年粤港澳大湾区风投创投竞争力研究案例》揭晓全球热点评

猕猴桃硬的可以放冰箱吗猕猴桃硬的可以放冰箱吗多久|每日短讯

环球新资讯：南宁争议停车收费涉事公司停止运营：路边停车一天上百有人欠6.4万

卡罗拉双擎E+/思皓E50A全面对比哪款车的销量更高？-全球快资讯

全球即时：建设智慧城市需人工智能与多项前沿技术融合

端午节吃什么食物_端午节吃什么食物介绍每日消息

微速讯：【国际3分钟】中国-中亚峰会成功举办成果清单让我憧憬未来

要闻：民呼我应！武汉军山街黄陵社区帮助孤寡老人清理门前杂草

长安汽车将成立东南亚事业部、欧洲区域总部，2025年新能源销环球热议

每日动态!最高法发布人民法院能动司法（执行）典型案例江苏2例入选