良好的可靠性数据在计算中倍受青睐,并且很难获得。有时候,像SquareTrade这样的第三方公司会发布自己的数据,但这些报告很少而且相差甚远。如果没有一套一致的标准和多年的跟踪,就不可能跟踪制造商每年的发展情况。欧洲经销商Mindfactory最近选择共享其AMD和Nvidia产品的GPU RMA数据,结果非常有趣。
我之前已经写过Mindfactory的数据,并且愿意将它们用作本文的来源,但是我想指出一个重要的警告,我没有解释。根据此数据集,Mindfactory仅售出了很少的RTX 2070和2080,并且仅售出了少数SKU。我怀疑这意味着数据仅涵盖了前12个月。如果我们要得出关于这些GPU建立在其中的进程节点的相对年龄的任何结论,那将很重要。该报告涵盖了44,100个AMD GPU和76,280个Nvidia GPU,并且可能是该两家公司在相关时间段内在欧洲销售的所有零售通道卡的统计上重要的样本。
所有通常的警告均适用。Mindfactory是一家欧洲零售商。这不是一家美国公司,其数据只是整个市场的快照,仅此而已。这些结果不应该作为决定性的结果,应该带着一粒盐阅读,在阿拉斯加或夏威夷无效的比赛,无需参加比赛,请参阅商店以获取详细信息,等等。
以下是图表中的高级摘要,无特定顺序:
- 较不复杂,不那么强大的GPU发生故障的频率要比更复杂,更强大的GPU少。
- AMD的中端和廉价卡失败的次数不会比Nvidia 的中端和廉价卡失败多。
- PowerColor AMD GPU发生故障的可能性比其他品牌更高。
- RTX 2080 Ti是统计上最有可能发生故障的GPU。这是多家供应商报告的唯一出现两位数故障率(11%)的GPU。
- 从绝对意义上讲,即使我们从AMD数据中消除了PowerColor的影响,AMD高端GPU的故障绝对也比Nvidia GPU多。但是,如果您这样做的话,差距要小得多。
几年前,一份报告显示了不同类型RAM之间的故障率。如果有人能记得它,请给我开个链接-我没有找到这篇文章的运气。结果表明,高端发烧友DRAM发生故障的情况比金斯敦或Crucial等低端基本部件更为普遍。故障率与时钟并不完全相关,但是随着时钟速度的提高,RMA率也随之上升。我回想的文章不是Google 2009研究,也不是2012年后续研究,我也不是Microsoft 2012研究。它基于消费类硬件,而不是企业或服务器技术。关键是,在可能的裕度范围内运行的发烧友硬件比在时钟和电压裕度范围内的沼泽标准部件的故障率更高。
我们在这里看到了非常相似的趋势的证据。如果我们假设该数据涵盖了2019年7月至2020年7月,则意味着在GPU推出将近一年之后,NVIDIA公司仍在RTX 2080 Ti上遇到真正的问题,而该公司早已开始出售该卡。相反,如果数据集来自Turing的发射,则意味着它所做的只是捕获RTX 2080 Ti 已知的高发射失败率。
我希望我们能有对RTX 2070和2080更多的数据,因为我们有限的数据做有建议对耕升显卡换取RTX 2080和KFA2卡的RTX 2070 RTX的2070中超和RTX 2080超级回报的一些高利率率非常好。是因为Nvidia有数月的时间来完善Turing,所以它们是优秀的,还是一开始就出色?鉴于5700 XT和5700采用全新的7纳米工艺推出,该问题的答案将对我们如何解释AMD更高的RMA率产生有意义的影响。
我们发现两家公司在更简单,更小的GPU上降低故障率的趋势很可能相关。RTX 2080 Ti更高的故障率与此相吻合-该芯片是光罩破片,将工程技术推向了极限。至于不同的制造商故障率,除了问题我们什么都没有。为什么MSI的Gaming Z Trio RTX 2080 Ti的失效率为1%,返还2个(售出200个GPU),而MSI Lightning Z的失效率为11%,返还14个(售出130个GPU)?
GPU故障率的急剧变化可能暗示了制造商的散热习惯,或者反映了一个事实,即公司在一年的时间内推出了新型号的GPU,而这些后来的显卡出现故障的频率则更低。AMD卡的更高故障率可能反映了AMD将其GPU推向稳定性边缘或更高边缘的事实。表示AMD的OEM合作伙伴愿意在AMD卡上比在Nvidia上略胜一筹,因为Nvidia有更多的权力和机会进行强硬竞争(并要求其GPU得到正确的支持)。AMD主板历来不如Intel主板可靠的原因之一是,AMD既不能强迫VIA修复其错误(如臭名昭著的KT133A南桥问题),也不能要求主板供应商投入等量的时间调试和改进AMD主板BIOS因为他们愿意投资英特尔董事会。类似的动态在这里起作用吗?它可能是。关键是,我们不知道。没有任何蓝宝石GPU的故障率超过2%,并且与任何Nvidia卡相匹配的故障率为2%。这是AMD问题还是PowerColor问题-但是如果我们说这是PowerColor问题,
这就是制造商不喜欢发布质量数据的原因。问题生问题生问题。即使我们知道相关的时间段,也不会知道Mindfactory销售的GPU的实际制造时间。也许零售商获得了大量的各种故障的初始GPU,而如今,所有卡和制造商之间的所有故障率基本相等(1-2%)。也许最近的故障率上升了,因为COVID-19破坏了质量控制,而公司只是在竭尽所能。没有更多信息,我们将无法知道-正是公司不想一开始就交出的“更多信息”。
发表回复