分享

如何避免一万三千元毁于一旦?浅谈40系显卡保护

烬生 发表于 2022-11-21 12:12:09 [显示全部楼层] 只看大图 回帖奖励 倒序浏览 阅读模式 1 560
相信最近显卡领域讨论最多的除了“赌卡”,就是40系显卡的上市和不断的烧卡新闻了。从首发时有自媒体up主尝试超频时烧卡,到现在国内外的用户拿到卡后出现的4090烧卡事故。价值1万三千元的卡如此脆弱到底是怎么回事?

工作环境更恶劣的次世代显卡



众所周知,这一代RTX4090显卡的TGP(总图形功率,也就是除开散热冷却灯效等功耗的“裸卡功耗”)高达450W,如果在超频状态下,诸如ROG STRIX一类的非公卡皇,TGP可以轻松达到500W以上!
640?wx_fmt=jpeg.jpg
640?wx_fmt=jpeg.jpg
ROG STRIX RTX4090在非超频模式下烤机功率已经接近跑满理论TGP,结温达到68.5℃。当核心超到3GHz时,TGP轻松突破500W
而传统的ATX2.X规范下,三8pin显卡供电头的供电能力,一共只有450W,部分电源产品(比如海盗船某些ATX2.X电源的PCIe模组)可以达到468W水平。
也就是说,还是采用老的转接套路的话,供电口将极为巨大,增大了散热负担和用料成本,所以已经不能走老路了。这就是为啥要采用新的12VHPWR 16pin接口的原因——除开支持更符合次世代显卡功耗迁移的ATX3.0特性外,至少它满足了供电口尺寸和功率的需求。
而同时,次世代显卡的功耗迁移也非常巨大,一块总功率600W的卡,也能在瞬间(100微秒级)通过功耗迁移,将功耗提升到1800W的水平,从而保证突然爆发的应用需求——换句话说,当功耗迁移能成功发挥时,能更好避免要游戏中因为场景切换、突然的爆炸性大场面造成的卡顿,或者生产力软件渲染过程中的死机。
640?wx_fmt=png.jpg
640?wx_fmt=jpeg.jpg ATX3.0一大改变就是针对PCIe设备制定了功率迁移的规范
当然,这也给4090为代表的次世代显卡带来了更恶劣的生存环境——尤其是当这些次世代显卡在功耗层面已经是ATX3.0的供电标准水平,但为了照顾广大的用户,依然兼容现有ATX2.X供电标准的时候。
比如,为了这个向广大用户和主流电源市场的妥协,英伟达采用的是配送12VHPWR转接线的方式来解决接口供电问题,同时将入门电源门槛定为ATX2.X的850W级别。其实纵观全球首发的评测,除了部分个人自媒体,专业媒体几乎清一色的1000W和1200W电源,且很多采用的是ATX3.0规范电源。
然而根据英特尔参与制定ATX3.0和PCIe5.0后相关人员一次访谈的信息,他们的建议比英伟达的“宽容”门槛就高了不少:
当试图改造一个现有的ATX 2.X电源来运行同样的300W的下一代显卡时,可能需要一个1100W的电源来支持GPU、CPU并处理功率迁移/偏移现象。这取决于旧规范的电源的设计和用料,以及新一代显卡进行高功率偏移的频率。
因此,对大部分通过升级安装方式进入用户机箱的RTX4090显卡来说,生存环境其实非常恶劣,频繁出现翻车也就不难理解了。

最大问题居然是转接线?



而几次4090“自燃”事故,我们可以发现,几乎使用的都是显卡包装内内置的12VHPWR转接线。而这个转接线的规格则是英伟达统一的。它其实和原生的ATX3.0模组电源的PCIe 12VHPWR接口线有一些细微的区别:比如更短、线材的材质有一定的区别等。
实际上当第一起4090供电口自燃事件浮出水面时,英伟达就展开了调查,这是有充分理由的,因为随后供电口的烧毁、崩溃开始变多。
由于大部分事件里,“起火点”或者说“熔融点”都是转接口和线缆结合部,用户反馈显示出问题可能出在附带的12VHPWR电源转接头的设计上。其实早在12VHPWR转接线首次在GeForce RTX 4090上亮相之前,PCI-SIG这个制定PCIe5.0标准的组织就记录了潜在的热变化问题:
640?wx_fmt=jpeg.jpg
从上图的PCI-SIG评测报告可以看出,多个厂商的转接线未能通过测试。而问题就在于转接线本身,而不是12VHPWR接口。
这些转接线的电缆,即使它们是品质不高的低绕线组工艺,只要它们是拉直的没有弯曲,就不会失效。但一旦通过理线或者转接线线缆本身有弯曲,导致线缆的弯曲距离转接头小于30mm,弯曲电缆就会太靠近接头,导致一些供电端子松动,形成不均匀的接口和线缆配合:
640?wx_fmt=jpeg.jpg
此外,它会使其他终端之间的负载失衡。
最终,就会引发熔毁。
640?wx_fmt=jpeg.jpg
转接口上超过40个连接周期(拔插次数)也会导致本来是直插的线缆也出现问题。
最终PCI-SIG的结论是:12VHPWR接口的安全性是有效的,但只有当使用的电源与“原生”12VHPWR接头有良好的质量,采用16AWG规格电缆,或至少使用的12VHPWR到4x 6+2的转接引脚适配器质量过关时,安全性才有效。
为了证实这个说法,最近德国知名的硬件实验室igor,也对附带转接线+4090的工况进行了调查。
首先通过观察,大家发现网上用户提供的转接线烧融情况确实和PCI-SIG的实验报告很相似,特别是烧毁的引脚位置:
640?wx_fmt=png.jpg
接着分析下4090公版转接线的线路图:
640?wx_fmt=png.jpg (图源:igor实验室)
注意转接口的上面六个黄色连接,包括所使用的转接桥电路。从电气原理上说,可以发现所有12V引脚仍然相互连接,然后再次连接到四根馈电线: 一共有四根粗大的14AWG电线分布在总共六个触点上,两根外部导线分别与一个引脚焊接,两根中间导线分别与两个引脚焊接。焊基是一个仅有0.2毫米的薄铜基,每根进线的宽度为2毫米,然后导致每对中间连接的宽度为4毫米。将一根甚至两根14AWG的电线焊接在上面是非常不稳定的。
而这种状态随着转接线在装机理线时的弯曲,或者是拔插次数增多后,变得严重,最终变成了外面的两根线断了,那么中间的整个电流就会流过剩下的两根线,然后才会再次分布在插头里,类似PC-SIG报告里的蓝色原理图。但即使是这种 "箔 "也很薄,不能取代真正的14AWG。最后转接头工况变得非常热,发生烧融事故。
因此igor持和PCI-SIG的实验结论一样的论点,12VHPWR接口没啥问题,问题在于目前显卡的转接线长度过短,线材工艺质量没考虑到装机弯曲后的工作状态:将四根14AWG导线分别焊接在12VHPWR转接头的6个针脚上,把它们焊接在太薄的桥架上是很危险的,因为导线的末端可能在焊点处断裂(例如,当扭结或弯曲几次时)。
此时直接在适配器的接头处弯曲或扭结导线,会给焊点和桥架带来太大的压力,这样它们就会断掉。
引脚之间的内桥太薄(导致横截面),无法补偿两个或三个而不是四个连接的12V线路上的电流流动,最终出现事故。
他们也把整个分析和结果提前告知了NVIDIA。
而如果使用优质的ATX3.0的原生PCIe模组线呢?可以看看下面的be quite!的ATX3.0电源原生PCIe 12VHPWR模组线。线径和大部分显卡内自带转接线比粗了不少,并且在理线需要弯曲处进行了特别缠绕加固。
640?wx_fmt=png.jpg

如何保住1.3万元的4090?



到此,4090的频繁“自燃”基本上有了比较明确的原因思路。
因此,小狮子在这里对已经使用或者将要使用4090的朋友的建议是:
  • 优先使用ATX3.0电源及其原生的12VHPWR PCIe模组线;
  • 使用ATX2.X电源上4090显卡时,留出更大的功率冗余;
  • 使用第三方厂商的更好的转接线,暂时不要使用包装内附带的现有规格转接线。如海韵等厂商,已经在打样解决扭曲问题并加强加工工艺的90°垂直接头转接线,很快就会推出。
  • 暂时观望,等待NVIDIA和各个AIB/AIC厂商换代附带转接线。


640?wx_fmt=jpeg.jpg
编辑|熊乐

回复

使用道具 举报

已有(1)人评论

跳转到指定楼层
曾祥清 发表于 2022-11-24 15:23:35
<script type="text/javascript">var jd_union_pid="1666359147085";var jd_union_euid="";</script><script type="text/javascript" src="//ads-union.jd.com/static/js/union.js"></script>
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则