当前位置:返回首页

Karpathy新教程爆火网友抢着送他H100：从头复现GPT-2训练

日期：2024-05-31 来源：原创/投稿/转载浏览次数：67

　　挑战成功本身并不意外，但是只花费20美元、90分钟完成训练，Loss和评测还超越原版，就！有！点！过！分！了！。

　　不过有人按照教程用H100跑了一把，不仅训练时间更短，还更省钱了：43分钟完成，只花14美元。

　　但1.5B大杯版，照计算要花1周时间和2500美元，有点玩不起了，主要他手里也没有H100。

　　原版WebText从未公开，无法在控制变量在相同条件下实验，另外今天的互联网数据分布，也可能与5年前大不相同了。

　　另外有网友注意到，训练时的GPU利用效率也比OpenAI的工作高，不过Karpathy表示主要是由于用了单个云服务节点，不需要考虑服务器间通信问题。

　　自今年二月份再次从OpenAI辞职之后，Karpathy已经用C语言搞出不少大模型成果，从Llama到GPT玩了一遍。

关键字：

上一篇：甲骨文“文”字的意蕴是一场世代相继的文明接力下一篇：再见H系列发动机！

推荐阅读

本网转载作品的目的在于传递更多信息，涉及作品内容、

版权等问题，请联系我们进行修改或删除！

欢迎访问！