让硅谷震惊的中国大模型!
国际电子商情27日讯 过去一周,来自中国的DeepSeek R1模型“搅动”整个海外AI圈。SgYesmc
什么是DeepSeek?它为何在全球范围内引起轰动?与DeepSeek相关的公司有哪些?SgYesmc
公开资料显示,中国AI初创公司深度求索(DeepSeek)成立于2023年5月,是一家大模型创业公司。仅成立半年后,DeepSeek就推出了免费商用、完全开源的代码大模型DeepSeek Coder。2024年5月,该公司发布开源模型DeepSeek V2,将推理成本降低近百倍,一跃成名。SgYesmc
2024年12月27日,DeepSeek推出了开源模型DeepSeek-V3。SgYesmc
这款模型在多项基准测试表现优异,超越业内主流顶尖模型,特别是在知识问答、长文本处理、代码生成和数学能力等方面。例如,在MMLU、GPQA等知识类任务中,DeepSeek-V3的表现接近国际顶尖模型Claude-3.5-Sonnet。SgYesmc
在数学能力方面,更是在AIME 2024和CNMO 2024等测试中创造了新的记录,超越所有已知的开源和闭源模型。同时,其生成速度较上代提升了200%,达到60TPS,大幅改善了用户体验。SgYesmc
当时,在国外大模型排名Arena上,DeepSeek-V3在所有模型中排名第七,在开源模型排第一。而且,DeepSeek-V3是全球前十中性价比最高的模型。SgYesmc
SgYesmc
意料之外的是,在DeepSeek-V3发布不到1个月之后,更“炸街”的DeepSeek-R1来了!SgYesmc
2025年1月20日,DeepSeek正式开源R1推理模型。性能对齐OpenAI-o1,正式版DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。SgYesmc
目前普遍认为,DeepSeek的R1发布标志着推理模型研究的重要转折点,而在此之前推理模型一直是工业研究的重要领域,但缺乏一篇开创性的论文,就像AlphaGo使用强化学习下了无数盘围棋并优化其策略以获胜一样,DeepSeek正在使用相同的方法来提升其能力,因此2025年可能会成为强化学习的元年。SgYesmc
1月24日,在国外大模型排名Arena上,DeepSeek-R1基准测试已经升至全类别大模型第三,其中在风格控制类模型(StyleCtrl)分类中与OpenAI o1并列第一。而其竞技场得分达到1357分,略超OpenAI o1的1352分。SgYesmc
为何DeepSeek火爆出圈?一方面,它以较低的训练成本实现了媲美OpenAI o1性能的效果,诠释了中国在工程能力和规模创新上的优势;另一方面,它也秉持开源精神,热衷分享技术细节。SgYesmc
值得注意的是,据DeepSeek发布的技术报告显示,DeepSeek-R1的训练费用仅为OpenAI最新大模型的三十分之一。SgYesmc
DeepSeek-V3在仅使用2048块H800 GPU的情况下,完成了6710亿参数模型的训练,成本仅为557.6万美元,远低于其他顶级模型的训练成本。SgYesmc
作为参照,斯坦福大学和Epoch AI的研究人员去年年中发表了一项研究表明,到2027年,最大型的模型的训练成本将超过10亿美元。另外,第三方研究公司Gartner研究预测显示,到2028年Google、Microsoft和AWS等超大规模企业仅在AI服务器上的支出就将高达5000亿美元。SgYesmc
因此,不少业者认为,DeepSeek的低成本意味着,大模型对算力投入的需求可能会从训练侧向推理侧倾斜,即未来对推理算力的需求将成为主要驱动力。而英伟达等硬件商的传统优势更多集中在训练侧,这可能会对其市场地位和战略布局产生影响。SgYesmc
DeepSeek的另一个显著优势是“开源”。SgYesmc
在开源策略上,R1采用MIT License,给予用户最大程度的使用自由,支持模型蒸馏,可将推理能力蒸馏到更小的模型,如32B和70B模型在多项能力上实现了对标o1-mini的效果,开源力度甚至超越了此前一直被诟病的Meta。SgYesmc
Meta首席AI科学家Yann Lecun评价称,DeepSeek-R1面世与其说意味着中国公司在AI领域正在超越美国公司,不如说意味着开源大模型正在超越闭源。SgYesmc
1月22日,美国媒体Business Insider报道称,DeepSeek-R1模型秉承开放精神,完全开源,为美国AI玩家带来了麻烦。开源的先进AI可能挑战那些试图通过出售技术赚取巨额利润的公司。SgYesmc
据不完全统计,目前DeepSeek的关联公司涵盖四类:股权关联方、算力基础设施供应商、垂直领域合作方、业务协同方。SgYesmc
(1)股权关联方SgYesmc
每日互动:幻方量化(Deepseek母公司)二股东,为DeepSeek提供海量用户行为语料数据等。SgYesmc
浙江东方:通过旗下杭州东方嘉富基金参投Deepseek天使轮。SgYesmc
华金资本:珠海国资旗下投资平台间接参与DeepSeekPre-A轮融资。SgYesmc
(2)算力基础设施供应商SgYesmc
中科曙光:承建DeepSeek杭州训练中心液冷系统。SgYesmc
浪潮信息:为Deepseek北京亦庄智算中心提供AI服务器集群及英伟达H800+自研AIStation管理平台。SgYesmc
润泽科技:廊坊数据中心为Deepseek提供3000+机柜资源。SgYesmc
航锦科技:旗下超擎数智为Deepseek提供光模块和交换机。SgYesmc
(3)垂直领域合作方SgYesmc
科大讯飞:在教育领域接入了DeepSeek-Math模型,并联合推出了AI数学辅导应用“星火助学”。SgYesmc
拓尔思:与Deepseek联合开发金融奥情大模型,已在中信证券等机构部署智能研报生成系统。SgYesmc
金山办公:WPS智能写作接入DeepSeek-Writer API,公文生成效率提升3倍,错误率下降90%。SgYesmc
卓创资讯:与幻方量化在金融语料库方面存在合作,其数据资源或用于Deepseek模型的训练和优化。SgYesmc
(4)业务协同方SgYesmc
并行科技:为DeepSeek提供多种计算技术手段,显著提升其计算能力。SgYesmc
竞业达:与DeepSeek大模型对接中。SgYesmc
可见,随着DeepSeek、Minimax等中国公司在AI领域的崛起,全球AI竟争格局正在发生微妙变化。如果中国公司能够以更低的成本实现同等或更好的性能开源大模型,海外开源和闭源模型或都受到挑战。此外应用端在字节豆包带动下持续对商业化场景展开探索,中国AI公司和开源模型或将持续推动大模型产业和相关AI应用的升级。SgYesmc
微信扫一扫,一键转发
关注“国际电子商情” 微信公众号
2024年,6家上市分销商中有3家实现归母净利润同比增长。
在全球半导体行业面临增长放缓的背景下,安森美(onsemi)在2024年第四季度业绩下滑,并预计2025年第一季度营收将大幅下降。为应对市场挑战,公司宣布将采取“精简”业务等措施以提升竞争力……
工厂正待复产……
当地时间2月10 - 11日,由法国、印度联合主办的人工智能行动峰会(AI Action Summit)在巴黎大皇宫隆重举行。
美国50亿美元的电动汽车充电计划陷入停滞,仅建成126个充电桩。汽车巨头们终于坐不住了,紧急呼吁政府重启这一关键项目……
在汽车行业智能化与电动化浪潮的冲击下,传统汽车巨头纷纷寻求战略转型与资本布局的优化……
近日市场研究机构Counterpoint Research和Canalys均发布了2024年全球销量前十的手机榜单。虽然其中有部分机型或者排名不同,但这两份榜单均仅有苹果和三星两大品牌入选……
国际电子商情10日讯 最新数据显示,2024年全球半导体行业迎来了历史性突破,销售额首次突破6000亿美元大关,达到6276亿美元,同比增长19.1%……
2月9日晚,中国兵器装备集团有限公司(简称“兵器装备集团”)旗下长安汽车、长城军工、建设工业等上市公司发布通告,透露接到兵器装备集团的通知,集团正在与其他国资央企筹划重组事宜。同日,东风汽车集团有限公司(简称“东风公司”)旗下的东风股份、东风科技也宣布,东风公司正在探讨与其他国资央企的重组可能性。
国际电子商情8日讯 韩国正加速布局下一代显示技术,计划投资180亿韩元推动MicroLED等技术研发,以巩固其全球市场地位。
国际电子商情8日讯 在显示器行业长期低迷的背景下,曾因美国干预而搁置出售计划的韩国芯片制造商Magnachip,在时隔数年后再度寻求出售……
国际电子商情8日讯 软银集团(SoftBank)以65亿美元(含债务)估值对美国芯片设计公司Ampere Computing LLC的收购交易接近达成,最快可能在本月官宣。交易若最终完成,将成为2025年全球半导体行业最具标志性的并购事件之一……
近日,Tokyo Electron(以下简称“TEL”)宣布,将在日本宫城县建造一座新的生产大楼,由TEL的制造子公司TEL宫城公司
近日,北京大学物理学院杨学林、沈波团队,联合宽禁带半导体研究中心等多个科研机构,在氮化镓外延薄膜中位错的原
数据中心/云计算可以说是人工智能领域的核心,占据了英伟达总收入的85%~90%。
近日,重庆市人民政府办公厅印发《重庆市推动经济持续向上向好若干政策举措》,提出支持科技领军企业、产业链龙
2月10日消息,据彭博社记者马克·古尔曼报道,苹果公司取消了一款与Mac连接使用的AR眼镜项目,但仍在积极推进独立
韩国媒体TheBell报道,三星正在为旗下自研处理器Exynos2600投入大量资源,以确保其按时量产。
尽管全球平板电脑市场在2024年的大部分时间都保持着两位数的增长,但在2024年Q4,平板电脑出货量仅同比增长3%。
2月7日,日本AR眼镜光学厂商Cellid宣布,公司通过定向增发完成总额1300万美元(约人民币9478.95万元)的融资。
近日,多家媒体发布消息称,瑞芯微前副总经理陈锋将出任Arm在中国的合资公司安谋科技首席执行官(CEO)一职。
美国市场研究机构Gartner发布2024年全球半导体厂商营收排行榜。
随着传统扩展方式的成本和复杂性上升,先进封装已成为满足人工智能(尤其是大型语言模型训练)性能需求的一种方式
2024年Q4,全球笔记本电脑出货量同比增长了6%,达到5450万台。
英飞凌位于曼谷南部沙没巴干府的新后道厂破土动工,该厂将扩大公司在亚洲的生产布局。
2024年,集成电路行业在变革与机遇中持续发展。面对全球经济的新常态、技术创新的加速以及市场需求的不断变化
雅加达,印尼- 2025年1月14日 - 全球技术解决方案供应商艾睿电子(Arrow Electronics)与印尼初创协会合作(STARFIN
无畏挑战 共创未来祥龙回首留胜景,金蛇起舞贺新程。在2025年元旦新年之际,深圳市凯新达科技有限公司(以下简
最新Wi-Fi HaLow片上系统(SoC)为物联网的性能、效率、安全性与多功能性设立新标准;
配套USB网关,轻松实现Wi-
随着与三安光电的碳化硅合资工厂落地重庆,2024年6月,意法半导体与重庆市彭水自治县同步启动了可持续发展合作
凯新达科技 自由之旅 征途同行
NVIDIA Jetson Orin™ Nano Super 开发者套件是一款尺寸小巧且性能强大的超级计算机,重新定义了小型边
德州仪器今日推出了全新的集成式汽车芯片,能够帮助各个价位车辆的驾乘人员,实现更安全、更具沉浸感的驾驶体验
广州飞虹半导体科技有限公司成立于广州越秀区,诚信经营20多年。主要研发、生产、经营:场效应管、三极管等半
近日,半导体存储品牌企业江波龙与工业和信息化部电子第五研究所(中国赛宝实验室,以下简称“电子五所”)在江波龙
深圳迈巨微电子有限公司深耕锂电池管理芯片领域,围绕电池健康和安全,电池电量计算二个核心技术能力,提供完善的
点击查看更多
北京科能广告有限公司深圳分公司 版权所有
分享到微信
分享到微博
分享到QQ空间
推荐使用浏览器内置分享
分享至朋友圈