AMD果然牛叉，RYZEN AI MAX+395最强CPU与集显牛啊！ - 第3页 - ThinkPad新区 - 专门网

sss668800 发表于 2025-2-22 21:16

jsntrgsy 发表于 2025-2-22 21:11
Fab 对应制程的PDK会自动给出PRQ之后的数据

我如果不是厂家内部人员，比如华为910B和910C，NVIDIA的5090/A100/H100，良品率我能拿到么？

jsntrgsy 发表于 2025-2-22 21:17

sss668800 发表于 2025-2-22 21:16
我如果不是厂家内部人员，比如华为910B和910C，NVIDIA的5090/A100/H100，良品率我能拿到么？ ...

你的问题不就很天真么

sss668800 发表于 2025-2-22 21:18

jsntrgsy 发表于 2025-2-22 21:17
你的问题不就很天真么

所以，厂家没公布良率的情况下，除了用模型去猜，还有没有其他办法？

terry_1222 发表于 2025-2-23 10:05

楼上很热闹啊，而且很技术。如果我没猜错的话，谈的不少是工艺，制造成本。

我说说我的观点：

首先，技术分3个层级，技术上可行，业务上有价值，变现上有市场。技术也很大一个范畴，架构，研发，设计，仿真，制造等等。。。

我看好AMD这个源头思路上的架构，再者，最好的技术不一定市场，请问多少人在用4080，5080 产品？笔记本的功耗待机问题和性能问题平衡很重要。

最后，回过头来，我用过不少ThinkPad机器，X1Carbon 目前仍是商务主力，因为他平衡，但他用的是集显，与AMD比，完败。

成本是可以分摊的，工艺是在进步的（虽然现在有垄断），问问：苹果赚的钱，是富士康羡慕的么？都很重要，但源头和架构，市场和营销，是最重要的两端，得这俩者得天下，AMD有这个倾向哈哈^t^

newnbuser 发表于 2025-2-23 10:34

膜拜下

jsntrgsy 发表于 2025-2-23 11:23

terry_1222 发表于 2025-2-23 10:05
楼上很热闹啊，而且很技术。如果我没猜错的话，谈的不少是工艺，制造成本。

我说说我的观点：

16FF之后制程成本是只升不降的

此外
1、N5 N3e N2的6T HDC SRAM BitCell Size都是0.021μm2，只是所谓优化提高Bitcell array占比（利用率）提高密度（推高延迟）目前N3e N2 均可以提供38Mb/mm2的方案

2、老黄对于消费端已经无所谓所以供货压缩，价格无限拉高，毕竟同样的Die 做成专业卡与推理卡更高利润，而AMD并没有这个市场份额，NV净利率比AMD毛利率还高

3、不要跟apple比，Apple对于整个供应链都有绝对议价权，TSMC N3b最初是直接亏本供应的，因为只有数字快消品巨大市场才能推动先进制程成熟商业化，而且只有apple 华为这种才会在PRQ初期就下足够订单（保证TSMC 毛利维持50-55%）

4、移动端市场 AMD市场份额稳健的在20%上下波动，AMD的产品没性能问题但是厂家都不想先用，因为对接服务太坑了，bug修不完，甚至直接放弃修补直接Ref

terry_1222 发表于 2025-2-23 12:18

本帖最后由 terry_1222 于 2025-2-23 12:35 编辑

jsntrgsy 发表于 2025-2-23 11:23
16FF之后制程成本是只升不降的

此外

如果成本和收益没有取得某种平衡，那么说明继续提升成本去提高制程，在当前可能不是合理的，也不是划算的投资，还可能是方向错了，事倍功半。当然，在消费端也就是通常意义上人们常说的 “cpu目前够用，提升有限，性能过剩，cpu不是瓶颈了。”

老黄最早的对手是3dfx，3dfx 的失败主要还是在在当时如日中天的微软帝国下，同时开启两场战争，即用Glide和微软的Direct3D大战，同时用自己的Voodoo显卡和nVIDIA GPU大战，而当时干掉3dfx主力还是微软，95-97年，90%的3D游戏都只支持Glide API。当时的3D游戏都是“3dfx独占”的。所以对微软来说，怎么可能让外人主导Windows下面的3D图形API？对微软来说，无法容忍，而当时的微软，如日中天正快速崛起，所以他必须干掉3dfx的Glide，最后NVIDIA收购得到了3dfx。

今天的格局，AMD似乎也在同时面临两场战争，不同的是，他在两个领域跟跑了两个老大许久（intel，nvidia），他也在和微软加强合作。他还知道nvidia的dlss软件算法和硬件的结合将主导未来的游戏市场，他还清楚必须扩大服务器和ai市场，底子和基础都有。驱动和软件不完善，这些都是as is，我看好的是cpu+gpu一体化的方向，很多行业和事业，都不是短跑，而是长跑，跑过马拉松的都知道，跟住第一，跟跑是很好的策略，往往有后发优势。

最后，我不是技术工程师，既不是amd吹，也不是nvidia黑，更不是这几家厂商的。我从事软件行业工作。一家之言，没有对错，仅供探讨。不管怎么样，软件改变世界，已经是共识。，我也比较认可，软硬结合，才是正道和未来。

jsntrgsy 发表于 2025-2-23 13:36

terry_1222 发表于 2025-2-23 12:18
如果成本和收益没有取得某种平衡，那么说明继续提升成本去提高制程，在当前可能不是合理的，也不是划算的 ...

制程需求是快消品尤其是智能手机的需求毕竟6~10K的手机哪怕拉长了换代周期也就是30个月
所以无论是台积电还是apple 都能维持足够高的利润

剩下的都是追不起制程但是又被迫不得不升级制程的

amd的问题就是既不能主导技术方向又不能圈住自己的生态
（根源还是没钱玩儿不起

所谓CPU+GPU一体化就是走回原来的老路儿而已但是硅基半导体支持不了目前一体化性能基准需求的，必须上碳基半导体，也就是金刚石衬底，这个即使老黄的超级芯片都在犹豫

terry_1222 发表于 2025-2-23 15:26

本帖最后由 terry_1222 于 2025-2-23 15:30 编辑

jsntrgsy 发表于 2025-2-23 13:36
制程需求是快消品尤其是智能手机的需求毕竟6~10K的手机哪怕拉长了换代周期也就是30个月
所以无论是台 ...
从硬件，工艺，材料视角，摩尔定律很多年了，终有瓶颈和天花板。。但从软件维度，未必如此。。

举2个例子给你：

1.运用软件和仿真算法，可以直接获得与物理试验无限接近的可采纳的实验结果，且可穷举无限种工况，材质和场景获取。比如，现在的飞行员，可以无需上天，一样考出证件。未来在汽车，也许也可以，这些背后是软件和算法及软硬结合。

2. 以前外科医生，需要借助尸体进行操练，现在有些手术是不可逆的。接下来借助数字软件和算法，可构建“数字人体”并无数次操练和做手术。

所有这一切，搜需要软硬结合，硬件天花板或许早出现，软件还未到极限，两者结合，更是有巨大空间和应用。。

所以，严谨的说：我看好GPU+CPU+算法这条路的未来，AMD有这个条件和可能。

jsntrgsy 发表于 2025-2-23 18:29

terry_1222 发表于 2025-2-23 15:26
从硬件，工艺，材料视角，摩尔定律很多年了，终有瓶颈和天花板。。但从软件维度，未必如此。。

你说的就是硬件提升到平台期会倒逼软件优化

你还是没明白我说的是什么

CPU+GPU+算法本身就是旧路现在只不过再拿出来再谈而已，历史就是轮回
但是AMD有软件生态么？有这个资金么？
就是Apple都无法复刻消费级上的生态护城河来推进M系列

36年历史的VLIW是最适合作为软硬件协同优化的典范，然而36年来只有谷歌的TPU成功的实现了8wide 编译器优化，其他全部是失败的（包括intel 安腾 IA64）

terry_1222 发表于 2025-2-23 19:03

你太技术的我确实不了解，毕竟隔行如隔山嘛。哈哈，我是软件领域的，而且是偏工业的。我的理解是：intel和nvidia现在没有整合的可能，很多东西本身就是一个轮回，我认为AMD在X86架构下走的路是对的，apple产品线路很广，利润重心不与nvidia和intel 冲突，有自己的玩法。。AMD在GPU和CPU都崛起的态势下，最有可能把这这三者玩到极致（GPU+CPU+算法），这是他全部的身家和华山一条路，这是我的观点。^,^

jsntrgsy 发表于 2025-2-23 20:09

xdni336 发表于 2025-2-22 20:25

70b 需要128G 内存，加上apple care+ 就要4万多了，64G 只能跑起来，但没有实用价值。 ...

看了大卫黄的测试，70-72B目前在STX-H平台使用Ilama.cpp q4上限大约在5-6 t/s，vLLM＋投机解码可以实现＞10 t/s！ROCM实现实在是一坨xx

xdni336 发表于 2025-2-23 22:52

本帖最后由 xdni336 于 2025-2-23 22:53 编辑

jsntrgsy 发表于 2025-2-23 20:09
看了大卫黄的测试，70-72B目前在STX-H平台使用Ilama.cpp q4上限大约在5-6 t/s，vLLM＋投机解码可以实现＞ ...
估计你进不了本坛水区，本坛有人已经在M2 Studio运行了671B, 如果是70B，那是秒出，他正在对外提供咨询服务。这个平台应付个人和小团队使用足够了。只要不是满血的Deep Seek, Mac 基本能跑起来。我的2023 MBP用ollama 运行8B和14B，基本不用等。你有机会也试一下把。

bessel 发表于 2025-2-23 23:50

terry_1222 发表于 2025-2-22 13:29
我在之前的帖子之前就预测过，未来一体化CPU+GPU会是笔记本的重要方向，而不是Intel+NVIDIA 把笔记本功耗带 ...

tp有出这个打算么？

目前已知的就幻x的平板电脑，以及hp的工作站机器用这个。

jsntrgsy 发表于 2025-2-24 07:44

xdni336 发表于 2025-2-23 22:52

估计你进不了本坛水区，本坛有人已经在M2 Studio运行了671B, 如果是70B，那是秒出，他正在对外提供咨询服 ...

笑死秒出？你这自己都没用过吧，小团队要2000t/s才够多人使用的，8B 智能手机都可以跑 😂

jsntrgsy 发表于 2025-2-24 07:53

xdni336 发表于 2025-2-23 22:52

估计你进不了本坛水区，本坛有人已经在M2 Studio运行了671B, 如果是70B，那是秒出，他正在对外提供咨询服 ...

另外你再看清楚它的量化精度是多少，能支持多大的上下文，再看每秒能输出多少 token

xdni336 发表于 2025-2-24 08:01

jsntrgsy 发表于 2025-2-24 07:53
另外你再看清楚它的量化精度是多少，能支持多大的上下文，再看每秒能输出多少 token ...
你去水区跟他讨论吧。我前面已经说过，我们已经用于内部研发。这个话题我就说到此了。

sss668800 发表于 2025-2-24 10:04

xdni336 发表于 2025-2-24 08:01
你去水区跟他讨论吧。我前面已经说过，我们已经用于内部研发。这个话题我就说到此了。...

求个地址看看，想知道M2咋部署的

terry_1222 发表于 2025-2-24 14:11

bessel 发表于 2025-2-23 23:50
tp有出这个打算么？

目前已知的就幻x的平板电脑，以及hp的工作站机器用这个。

我不知道呀，不是lenovo家的，不过觉得应该给商务旗舰 X1 Carborn 上这个芯，价位在这里了。。{:1_261:}

rmsmajestic 发表于 2025-2-26 09:18

sss668800 发表于 2025-2-24 10:04
求个地址看看，想知道M2咋部署的

b站上挺多教程的

rmsmajestic 发表于 2025-2-26 10:04

整个楼爬了下来，技术含量这么高的帖子已经不多了.....
LPDDR5(X) / LPDDR6 + ASIC才是王道

hljgyr 发表于 2025-2-26 10:46

rmsmajestic 发表于 2025-2-26 10:04
整个楼爬了下来，技术含量这么高的帖子已经不多了.....
LPDDR5(X) / LPDDR6 + ASIC才是王道 ...

鉴定为年度最硬核、干货最多的技术贴，颇有当年逼乎遗风

rmsmajestic 发表于 2025-2-26 13:22

hljgyr 发表于 2025-2-26 10:46
鉴定为年度最硬核、干货最多的技术贴，颇有当年逼乎遗风

这个月我也把玩把玩了LLM，发现有些东西还是不亲力亲为不知道，网上99%都在鬼扯。当然即便是技术人员眼光也并不一定全面

P.S. 你的那几个帖子也是相当硬核的，不知道为啥HOPE没加技术分

jsntrgsy 发表于 2025-2-27 16:57

terry_1222 发表于 2025-2-23 12:18

如果成本和收益没有取得某种平衡，那么说明继续提升成本去提高制程，在当前可能不是合理的，也不是划算的 ...

谈软件优化那么NV更加能吹了！英伟达亲自下场，开源了首个基于Blackwell架构的优化方案——DeepSeek-R1-FP4。在新模型的加持下，B200实现了高达21,088 token/s的的推理吞吐量，相比于H100的844 token/s，提升了25倍，也就是成本降低了20倍。模型地址：https://huggingface.co/nvidia/DeepSeek-R1-FP4

hzsw998899 发表于 2025-2-28 08:14

支持一下，现在显卡太贵了

页: 1 2 [3]

专门网's Archiver