neopenx 最近的时间轴更新
neopenx

neopenx

V2EX 第 502557 号会员,加入于 2020-08-05 23:17:39 +08:00
neopenx 最近回复了
64 天前
回复了 wangbin11 创建的主题 ? 程序员 ? 你们有搞 gpu 算力平台的吗
ToC 做分布式算力,用户机器的稳定性和数据隐私都是问题。自己搞搞玩玩可以,出了事故就完蛋了
@LeeReamond 并没有啥问题啊。你的维度困惑在于把 Q·K 理解成逐元素向量乘法了..上面一堆回答都歪了..
你可能不熟悉矩阵乘法把。Q·K 的注意力矩阵乘法是[2,3]@[3, 2], 也就是做了 2x2 四次向量点积,每个点积都用到了全部三维。这是单头注意力情况。维度更高需要用多头减少每组点积向量的维度,避免参与的维度过多导致注意力不 diverse
158 天前
回复了 Rorysky 创建的主题 ? Apple ? Apple 发布新的机器学习框架 MLX
看起来目前只是一个跑一些简单的 metal compute kernels 的练习作品,连 MPS routines 都没 dispatch
Python API 山寨 PyTorch 不说,还相当简陋。
193 天前
回复了 oppurst 创建的主题 ? Apple ? M3 Max 的神经引擎是否已经不够看了?
ANE 需要走 CoreML 跑。18T 应该就是 FP16 的设计峰值。
要是通过 GPU 走 Metal 的话,满血 M2 Max 的 FP32 才 14T 。
苹果短期内应该不打算融合 ANE 和 GPU ,也就是维持 ANE 以低功耗优势,继续挤牙膏。
鬼知道几年后可以追平 3060 的 50T FP16 TensorFlops 设计峰值。
206 天前
回复了 ZekeChin 创建的主题 ? macOS ? 也许是一个 M 芯片上 3A 大作的原因
metal 是兼容 amd gpu ,但是 mps 在 kernel 上是单独实现的。通过 assert 可以发现 M1 走的是 A14 的 kernel 。也就也是说 apple 的工程师大概率就是摆烂写个巨慢的 kernel 给 AMD gpu ,尤其是卷积这种吃架构优化的,只要保证计算结果的正确性就好了。
282 天前
回复了 746970179 创建的主题 ? Apple ? 关于 mac 的内存的好奇
@iamqk apple silicon 的延迟确实比 X86 非统一大,M1 是 110ns ,没比 PS5 的 140ns 好到哪里去。高带宽牺牲延迟是很正常的
282 天前
回复了 746970179 创建的主题 ? Apple ? 关于 mac 的内存的好奇
大于 100GB/s 以上的带宽基本是给 GPU 用的。通过 CPU 大量的 memcpy 基本很难跑到 100 以上。
但是对于 Metal 的 MTLBuffer ,就有足够大的 Blob 把带宽跑上去了。在 CPU 应用上和 X86 比没什么优势。
@lrigi M2Max 只是 FP32 的 FLOPS 接近 V100 而已。FP16 的硬件加速在 ANE 上,做不了训练而且峰值还不如 FP32 。
Transformer 的实际需要空间复杂度有很多技术降下去,果子这点小聪明只能说聊胜于无
跑的大部分都是矩阵乘法,M2U 也就和 3060 五五开
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2789 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms · UTC 00:26 · PVG 08:26 · LAX 17:26 · JFK 20:26
Developed with CodeLauncher
? Do have faith in what you're doing.


http://www.vxiaotou.com