sss668800
发表于 2025-2-22 21:16
jsntrgsy 发表于 2025-2-22 21:11
Fab 对应制程的PDK会自动给出PRQ之后的数据
我如果不是厂家内部人员,比如华为910B和910C,NVIDIA的5090/A100/H100,良品率我能拿到么?
jsntrgsy
发表于 2025-2-22 21:17
sss668800 发表于 2025-2-22 21:16
我如果不是厂家内部人员,比如华为910B和910C,NVIDIA的5090/A100/H100,良品率我能拿到么? ...
你的问题 不就很天真么
sss668800
发表于 2025-2-22 21:18
jsntrgsy 发表于 2025-2-22 21:17
你的问题 不就很天真么
所以,厂家没公布良率的情况下,除了用模型去猜,还有没有其他办法?
terry_1222
发表于 2025-2-23 10:05
楼上很热闹啊,而且很技术。如果我没猜错的话,谈的不少是工艺,制造成本。
我说说我的观点:
首先,技术分3个层级,技术上可行,业务上有价值,变现上有市场。技术也很大一个范畴,架构,研发,设计,仿真,制造等等。。。
我看好AMD这个源头思路上的架构,再者,最好的技术不一定市场,请问多少人在用4080,5080 产品?笔记本的功耗待机问题和性能问题平衡很重要。
最后,回过头来,我用过不少ThinkPad机器,X1Carbon 目前仍是商务主力,因为他平衡,但他用的是集显,与AMD比,完败。
成本是可以分摊的,工艺是在进步的(虽然现在有垄断),问问:苹果赚的钱,是富士康羡慕的么?都很重要,但源头和架构,市场和营销,是最重要的两端,得这俩者得天下,AMD有这个倾向哈哈^t^
newnbuser
发表于 2025-2-23 10:34
膜拜下
jsntrgsy
发表于 2025-2-23 11:23
terry_1222 发表于 2025-2-23 10:05
楼上很热闹啊,而且很技术。如果我没猜错的话,谈的不少是工艺,制造成本。
我说说我的观点:
16FF之后制程 成本是只升不降的
此外
1、N5 N3e N2的6T HDC SRAM BitCell Size都是0.021μm2,只是所谓优化提高Bitcell array占比(利用率)提高密度(推高延迟) 目前N3e N2 均可以提供38Mb/mm2的方案
2、老黄对于消费端已经无所谓 所以供货压缩,价格无限拉高,毕竟同样的Die 做成专业卡与推理卡更高利润,而AMD并没有这个市场份额,NV净利率比AMD毛利率还高
3、不要跟apple比,Apple对于整个供应链都有绝对议价权,TSMC N3b最初是直接亏本供应的,因为只有数字快消品巨大市场才能推动先进制程成熟商业化,而且只有apple 华为这种才会在PRQ初期就下足够订单(保证TSMC 毛利维持50-55%)
4、移动端市场 AMD市场份额稳健的在20%上下波动,AMD的产品没性能问题 但是厂家都不想先用,因为对接服务太坑了,bug修不完,甚至直接放弃修补直接Ref
terry_1222
发表于 2025-2-23 12:18
本帖最后由 terry_1222 于 2025-2-23 12:35 编辑
jsntrgsy 发表于 2025-2-23 11:23
16FF之后制程 成本是只升不降的
此外
如果成本和收益没有取得某种平衡,那么说明继续提升成本去提高制程,在当前可能不是合理的,也不是划算的投资,还可能是方向错了,事倍功半。当然,在消费端也就是通常意义上人们常说的 “cpu目前够用,提升有限,性能过剩,cpu不是瓶颈了。”
老黄最早的对手是3dfx,3dfx 的失败主要还是在在当时 如日中天的微软帝国下,同时开启两场战争,即用Glide和微软的Direct3D大战,同时用自己的Voodoo显卡和nVIDIA GPU大战,而当时干掉3dfx主力还是微软,95-97年,90%的3D游戏都只支持Glide API。当时的3D游戏都是“3dfx独占”的。所以对微软来说,怎么可能让外人主导Windows下面的3D图形API?对微软来说,无法容忍,而当时的微软,如日中天正快速崛起,所以他必须干掉3dfx的Glide,最后NVIDIA收购得到了3dfx。
今天的格局,AMD似乎也在同时面临两场战争,不同的是,他在两个领域跟跑了两个老大许久(intel,nvidia),他也在和微软加强合作。 他还知道nvidia的dlss软件算法和硬件的结合将主导未来的游戏市场,他还清楚必须扩大服务器和ai市场,底子和基础都有。驱动和软件不完善,这些都是as is,我看好的是cpu+gpu一体化的方向,很多行业和事业,都不是短跑,而是长跑,跑过马拉松的都知道,跟住第一,跟跑是很好的策略,往往有后发优势。
最后,我不是技术工程师,既不是amd吹,也不是nvidia黑,更不是这几家厂商的。我从事软件行业工作。一家之言,没有对错,仅供探讨。不管怎么样,软件改变世界,已经是共识。,我也比较认可,软硬结合,才是正道和未来。
jsntrgsy
发表于 2025-2-23 13:36
terry_1222 发表于 2025-2-23 12:18
如果成本和收益没有取得某种平衡,那么说明继续提升成本去提高制程,在当前可能不是合理的,也不是划算的 ...
制程需求是快消品 尤其是智能手机的需求 毕竟6~10K的手机 哪怕拉长了换代周期也就是30个月
所以无论是台积电还是apple 都能维持足够高的利润
剩下的都是追不起制程但是又被迫不得不升级制程的
amd的问题就是既不能主导技术方向 又不能圈住自己的生态
(根源还是没钱 玩儿不起
所谓CPU+GPU一体化 就是走回原来的老路儿而已 但是硅基半导体支持不了目前一体化性能基准需求的,必须上碳基半导体,也就是金刚石衬底,这个即使老黄的超级芯片都在犹豫
terry_1222
发表于 2025-2-23 15:26
本帖最后由 terry_1222 于 2025-2-23 15:30 编辑
jsntrgsy 发表于 2025-2-23 13:36
制程需求是快消品 尤其是智能手机的需求 毕竟6~10K的手机 哪怕拉长了换代周期也就是30个月
所以无论是台 ...
从 硬件,工艺,材料视角,摩尔定律很多年了,终有瓶颈和天花板。。但从软件维度,未必如此。。
举2个例子给你:
1.运用软件和仿真算法,可以直接获得与物理试验无限接近的可采纳的实验结果,且可穷举无限种工况,材质和场景获取。比如,现在的飞行员,可以无需上天,一样考出证件。未来在汽车,也许也可以,这些背后是软件和算法及软硬结合。
2. 以前外科医生,需要借助尸体进行操练,现在有些手术是不可逆的。接下来借助数字软件和算法,可构建“数字人体”并无数次操练和做手术。
所有这一切,搜需要软硬结合,硬件天花板或许早出现,软件还未到极限,两者结合,更是有巨大空间和应用。。
所以,严谨的说:我看好GPU+CPU+算法 这条路的未来,AMD有这个条件和可能。
jsntrgsy
发表于 2025-2-23 18:29
terry_1222 发表于 2025-2-23 15:26
从 硬件,工艺,材料视角,摩尔定律很多年了,终有瓶颈和天花板。。但从软件维度,未必如此。。
你说的就是硬件提升到平台期会倒逼软件优化
你还是没明白我说的是什么
CPU+GPU+算法本身就是旧路 现在只不过再拿出来再谈而已,历史就是轮回
但是AMD有软件生态么?有这个资金么?
就是Apple都无法复刻消费级上的生态护城河来推进M系列
36年历史的VLIW是最适合作为软硬件协同优化的典范,然而36年来只有谷歌的TPU成功的实现了8wide 编译器优化,其他全部是失败的(包括intel 安腾 IA64)
terry_1222
发表于 2025-2-23 19:03
你太技术的我确实不了解,毕竟隔行如隔山嘛。哈哈,我是软件领域的,而且是偏工业的。我的理解是:intel和nvidia现在没有整合的可能,很多东西本身就是一个轮回,我认为AMD在X86架构下走的路是对的,apple产品线路很广,利润重心不与nvidia和intel 冲突,有自己的玩法。。AMD在GPU和CPU都崛起的态势下,最有可能把这这三者玩到极致(GPU+CPU+算法),这是他全部的身家和华山一条路,这是我的观点。^,^
jsntrgsy
发表于 2025-2-23 20:09
xdni336 发表于 2025-2-22 20:25
70b 需要128G 内存,加上apple care+ 就要4万多了,64G 只能跑起来,但没有实用价值。 ...
看了大卫黄的测试,70-72B目前在STX-H平台使用Ilama.cpp q4上限大约在5-6 t/s,vLLM+投机解码可以实现>10 t/s!ROCM实现实在是一坨xx
xdni336
发表于 2025-2-23 22:52
本帖最后由 xdni336 于 2025-2-23 22:53 编辑
jsntrgsy 发表于 2025-2-23 20:09
看了大卫黄的测试,70-72B目前在STX-H平台使用Ilama.cpp q4上限大约在5-6 t/s,vLLM+投机解码可以实现> ...
估计你进不了本坛水区, 本坛有人已经在M2 Studio运行了671B, 如果是70B,那是秒出,他正在对外提供咨询服务。 这个平台应付个人和小团队使用足够了。 只要不是满血的Deep Seek, Mac 基本能跑起来。 我的2023 MBP用ollama 运行8B和14B, 基本不用等。你有机会也试一下把。
bessel
发表于 2025-2-23 23:50
terry_1222 发表于 2025-2-22 13:29
我在之前的帖子之前就预测过,未来一体化CPU+GPU会是笔记本的重要方向,而不是Intel+NVIDIA 把笔记本功耗带 ...
tp有出这个打算么?
目前已知的就幻x的平板电脑,以及hp的工作站机器用这个。
jsntrgsy
发表于 2025-2-24 07:44
xdni336 发表于 2025-2-23 22:52
估计你进不了本坛水区, 本坛有人已经在M2 Studio运行了671B, 如果是70B,那是秒出,他正在对外提供咨询服 ...
笑死 秒出?你这自己都没用过吧,小团队 要2000t/s才够多人使用的,8B 智能手机都可以跑 😂
jsntrgsy
发表于 2025-2-24 07:53
xdni336 发表于 2025-2-23 22:52
估计你进不了本坛水区, 本坛有人已经在M2 Studio运行了671B, 如果是70B,那是秒出,他正在对外提供咨询服 ...
另外你再看清楚它的量化精度是多少,能支持多大的上下文,再看每秒能输出多少 token
xdni336
发表于 2025-2-24 08:01
jsntrgsy 发表于 2025-2-24 07:53
另外你再看清楚它的量化精度是多少,能支持多大的上下文,再看每秒能输出多少 token ...
你去水区跟他讨论吧。我前面已经说过,我们已经用于内部研发。这个话题我就说到此了。
sss668800
发表于 2025-2-24 10:04
xdni336 发表于 2025-2-24 08:01
你去水区跟他讨论吧。我前面已经说过,我们已经用于内部研发。这个话题我就说到此了。...
求个地址看看,想知道M2咋部署的
terry_1222
发表于 2025-2-24 14:11
bessel 发表于 2025-2-23 23:50
tp有出这个打算么?
目前已知的就幻x的平板电脑,以及hp的工作站机器用这个。
我不知道呀,不是lenovo家的,不过觉得应该给 商务旗舰 X1 Carborn 上这个芯,价位在这里了。。{:1_261:}
rmsmajestic
发表于 2025-2-26 09:18
sss668800 发表于 2025-2-24 10:04
求个地址看看,想知道M2咋部署的
b站上挺多教程的
rmsmajestic
发表于 2025-2-26 10:04
整个楼爬了下来,技术含量这么高的帖子已经不多了.....
LPDDR5(X) / LPDDR6 + ASIC才是王道
hljgyr
发表于 2025-2-26 10:46
rmsmajestic 发表于 2025-2-26 10:04
整个楼爬了下来,技术含量这么高的帖子已经不多了.....
LPDDR5(X) / LPDDR6 + ASIC才是王道 ...
鉴定为年度最硬核、干货最多的技术贴,颇有当年逼乎遗风
rmsmajestic
发表于 2025-2-26 13:22
hljgyr 发表于 2025-2-26 10:46
鉴定为年度最硬核、干货最多的技术贴,颇有当年逼乎遗风
这个月我也把玩把玩了LLM,发现有些东西还是不亲力亲为不知道,网上99%都在鬼扯。当然即便是技术人员眼光也并不一定全面
P.S. 你的那几个帖子也是相当硬核的,不知道为啥HOPE没加技术分
jsntrgsy
发表于 2025-2-27 16:57
terry_1222 发表于 2025-2-23 12:18
如果成本和收益没有取得某种平衡,那么说明继续提升成本去提高制程,在当前可能不是合理的,也不是划算的 ...
谈软件优化 那么NV更加能吹了!英伟达亲自下场,开源了首个基于Blackwell架构的优化方案——DeepSeek-R1-FP4。在新模型的加持下,B200实现了高达21,088 token/s的的推理吞吐量,相比于H100的844 token/s,提升了25倍,也就是成本降低了20倍。模型地址:https://huggingface.co/nvidia/DeepSeek-R1-FP4
hzsw998899
发表于 2025-2-28 08:14
支持一下,现在显卡太贵了