DeepSeek国运天才85年生人梁文锋横空出世:17岁上浙大,炒股7年,从村小孩子一跃成为亿万富翁,专注人工智能一年半问鼎全球
一生只为一事来
原创作品多多 点击上方蓝字“汶洙草”关注公众号,
每天一篇,第一时间推送给您!
————————————————————————
公众号
(梁文锋照片)
1月26日晚,游戏科学的创始人兼CEO、曾经《斗战神》的制作人、《黑神话:悟空》的主创之一冯骥发文谈DeepSeek,称“DeepSeek可能是个国运级别的科技成果”。
冯骥表示,如果有一个AI大模型做到了以下任何一条,都是超级了不起的突破,DeepSeek全部同时做到了。
1、强大,比肩O1的推理能力,暂时没有之一。
2、便宜,参数少,训练开销与使用费用小了一个数量级。
3、开源,任何人均可自行下载与部署,提供论文详细说明训练步骤与窍门,甚至提供了可以运行在手机上的mini模型。
4、免费,官方目前提供的服务完全免费,任何人随时随地可用。
5、联网,暂时唯一支持联网搜索的推理模型(O1还不支持)
6、本土,深度求索是一家很小规模的年轻中国公司,由没有海外经历甚至没有资深从业经验的本土团队开发完成。
冯骥还力荐大家使用DeepSeek,希望DeepSeek R1会让你对当前最先进的AI祛魅,让AI逐渐变成你生活中的水和电。他说,太幸运了,太开心了,这样震撼的突破来自一个纯粹的中国公司,知识与信息平权至此又往前迈出了坚实的一步。
1月20日,该公司正式发布推理大模型DeepSeek-R1,一经推出,DeepSeek-R1便凭借其“物美价廉”的特性在海外开发者社区中引发了轰动。
作为一款开源模型,R1在数学、代码、自然语言推理等任务上的性能能够比肩OpenAI o1模型正式版,并采用MIT许可协议,支持免费商用、任意修改和衍生开发等。
2024 年 5 月,DeepSeek 一跃成名。起因是他们发布的一款名为 DeepSeek V2 的开源模型,提供了一种史无前例的性价比,开启了国产大模型的价格战。
作为大厂外唯一一家储备万张 A100 芯片的公司,DeepSeek 的很多抉择都与众不同。放弃「既要又要」路线,至今专注在研究和技术,未做 toC 应用的公司,也是唯一一家未全面考虑商业化,坚定选择开源路线甚至都没融过资的公司。
被国外媒体誉为东方神秘力量DeepSeek的创始人梁文峰是何许人也?
梁文锋1985年出生于广东湛江,是吴川市覃巴镇米历岭村人,成长于一个很普通的家庭,父母为人很淳朴,都是小学语文老师。梁文锋从小成绩优异,小学就读于吴川梅菉小学,小学六年级时通过考试被吴川一中录取。吴川一中是当地最好的中学,是广东省国家级示范性中学、广东省一级中学。
梁文峰的父亲十分重视对孩子的教育,并且给他很大的自主学习空间。梁文峰在媒体采访时说,上学的时候,每次回到家中,梁爸爸从来不问孩子的分数和排名,只会问一个问题:“你今天又解决了什么问题?”
梁文锋在小学时期便展现出了极高的课堂专注力,他总是能够全神贯注地倾听讲授,并积极地参与课堂讨论,回答问题。梁文锋对挑战难题抱有浓厚兴趣,善于总结学习方法,具有刻苦钻研的精神,能迅速归纳老师的授课内容,形成自己的知识体系。
梁文锋从小数学天赋异禀,初中就学完了高中的课程,甚至已经开始学大学的数学。他曾把家里的飞跃牌收音机拆装了30多次,显示出强烈的探索欲望。梁文锋的中学老师发现,他学得很聪明,特别擅长总结规律,在初三的数学错题本,一道函数压轴题的解析旁,梁文锋写着:“此题型本质是梯度下降法的二维投影”。
初中时期的老师表示,梁文锋性格很文静,但不是书呆子,他在学习上很有自己的“一套方法”,很注重劳逸结合,仿佛不需要花很多时间来学习就可以学好每一个学科。在吴川一中,梁文锋完成了初中、高中学业,一直是学校里的“尖子生”,并在数学学科表现出极大天赋。高中阶段的同学说,他是一位数学建模爱好者,经常做课题实验,学习刻苦,也热爱足球。
2002年,17岁的梁文以吴川一中“高考状元”的成绩考上浙江大学电子信息工程专业。
2006年,22岁的梁文锋又考上了浙江大学信息与通信工程专业研究生,师从项志宇,主要做机器视觉研究。在大学同学记忆中,他经常抱着一摞《模式识别》和《神经网络原理》的英文原版书,在实验室里呆到深夜。梁文锋大学毕业设计课题是用示波器展示股市波动的规律,2009年他的硕士毕业论文题目是《基于低成本PTZ摄像机的目标跟踪算法研究》。
毕业后,梁文锋毅然踏上了自主创业之路,从2008年就开始就决心从事量化交易,堪称吃螃蟹的人。2013年,他与校友徐进共同创立了杭州雅克比投资管理有限公司,专注于量化投资领域;2015年,他又创立了杭州幻方科技有限公司;梁文锋创立深度求索品牌DeepSeek。
DeepSeek 究竟是如何炼成的?「暗涌」团队采访了非常低调甚至神秘的 DeepSeek 创始人梁文锋。
这位理想主义者,高举着崇高的创新信仰大旗,在人工智能科技创新的世界里求索前行......
以下为梁文锋超燃采访语录,让人备受鼓舞,同时又让人热泪盈眶!
梁文锋:我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。
梁文锋:非常意外。没想到价格让大家这么敏感。我们只是按照自己的步调来做事,然后核算成本定价。我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。
梁文锋:智谱 AI 降的是一个入门级产品,和我们同级别的模型仍然收费很贵。字节是真正第一个跟进的。旗舰模型降到和我们一样的价格,然后触发了其它大厂纷纷降价。因为大厂的模型成本比我们高很多,所以我们没想到会有人亏钱做这件事,最后就变成了互联网时代的烧钱补贴的逻辑。
梁文锋:抢用户并不是我们的主要目的。我们降价一方面是因为我们在探索下一代模型的结构中,成本先降下来了,另一方面也觉得无论 API,还是 AI,都应该是普惠的、人人可以用得起的东西。
梁文锋:如果目标是做应用,那沿用 Llama 结构,短平快上产品也是合理选择。但我们目的地是 AGI,这意味着我们需要研究新的模型结构,在有限资源下,实现更强的模型能力。这是 scale up 到更大模型所需要做的基础研究之一。
除了模型结构,我们还做了大量其他的研究,包括怎么构造数据,如何让模型更像人类等,这都体现在我们发布的模型里。另外,Llama 的结构,在训练效率和推理成本上,和国外先进水平估计也已有两代差距。
梁文锋:首先训练效率有差距。我们估计,国内最好的水平和国外最好的相比,模型结构和训练动力学上可能有一倍的差距,光这一点我们要消耗两倍的算力才能达到同样效果。另外数据效率上可能也有一倍差距,也就是我们要消耗两倍的训练数据和算力,才能达到同样的效果。合起来就要多消耗 4 倍算力。我们要做的,正是不停地去缩小这些差距。
梁文锋:因为我们觉得现在最重要的是参与到全球创新的浪潮里去。过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。
梁文锋:我们认为随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。过去三十多年 IT 浪潮里,我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降,躺在家里 18 个月就会出来更好的硬件和软件。Scaling Law 也在被如此对待。
但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。
梁文锋:在美国每天发生的大量创新里,这是非常普通的一个。他们之所以惊讶,是因为这是一个中国公司,在以创新贡献者的身份,加入到他们游戏里去。毕竟大部分中国公司习惯 follow,而不是创新。
梁文锋:创新的成本肯定不低,过去那种拿来主义的惯性也和过去的国情有关。但现在,你看无论中国的经济体量,还是字节、腾讯这些大厂的利润,放在全球都不低。我们创新缺的肯定不是资本,而是缺乏信心以及不知道怎么组织高密度的人才实现有效的创新。
梁文锋:过去三十年,我们都只强调赚钱,对创新是忽视的。创新不完全是商业驱动的,还需要好奇心和创造欲。我们只是被过去那种惯性束缚了,但它也是阶段性的。
梁文锋:在颠覆性的技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。所以我们把价值沉淀在团队上,我们的同事在这个过程中得到成长,积累很多 know-how, 形成可以创新的组织和文化,就是我们的护城河。
开源,发论文,其实并没有失去什么。对于技术人员来说,被 follow 是很有成就感的事。其实,开源更像一个文化行为,而非商业行为。给予其实是一种额外的荣誉。一个公司这么做也会有文化的吸引力。
梁文锋:朱啸虎是自洽的,但他的打法更适合快速赚钱的公司,而你看美国最赚钱的公司,都是厚积薄发的高科技公司。
梁文锋:我们看到的是中国AI不可能永远处在跟随的位置。我们经常说中国 AI 和美国有一两年差距,但真实的 gap 是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。
英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。他们能看到下一代的技术趋势,手里有路线图。中国 AI 的发展,同样需要这样的生态。很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,所以中国必然需要有人站到技术的前沿。
梁文锋:我们做大模型,其实跟量化和金融都没有直接关系。我们独建了一个名为深度求索的新公司来做这件事。幻方的主要班底里,很多人是做人工智能的。当时我们尝试了很多场景,最终切入了足够复杂的金融,而通用人工智能可能是下一个最难的事之一,所以对我们来说,这是一个怎么做的问题,而不是为什么做的问题。
梁文锋:我们要做的是通用人工智能,也就是 AGI。语言大模型可能是通往 AGI 的必经之路,并且初步具备了 AGI 的特征,所以我们会从这里开始,后边也会有视觉等。
梁文锋:我们不会过早设计基于模型的一些应用,会专注在大模型上。
梁文锋:现在看起来,无论大厂,还是创业公司,都很难在短时间内建立起碾压对手的技术优势。因为有 OpenAI 指路,又都基于公开论文和代码,最晚明年,大厂和创业公司都会把自己的大语言模型做出来。大厂和创业公司都各有机会。现有垂类场景不掌握在初创公司手上,这个阶段对初创公司不太友好。但因为这种场景说到底也是分散的、碎片化的小需求,所以它又是更适合灵活的创业型组织的。
从长期看,大模型应用门槛会越来越低,初创公司在未来 20 年任何时候下场,也都有机会。我们的目标也很明确,就是不做垂类和应用,而是做研究,做探索。
梁文锋:一种好奇心驱动。从远处说,我们想去验证一些猜想。比如我们理解人类智能本质可能就是语言,人的思维可能就是一个语言的过程。你以为你在思考,其实可能是你在脑子里编织语言。这意味着,在语言大模型上可能诞生出类人的人工智能(AGI)。从近处说,GPT4 还有很多待解之谜。我们去复刻的同时,也会做研究揭秘。
梁文锋:我们选人的标准一直都是热爱和好奇心,所以很多人会有一些奇特的经历,很有意思。很多人对做研究的渴望,远超对钱的在意。
梁文锋:不管是 Google 实验室,还是 OpenAI,甚至中国大厂的 AI Lab,都很有价值的。最后是 OpenAI 做出来,也有历史的偶然性。
梁文锋:我觉得创新首先是一个信念问题。为什么硅谷那么有创新精神?首先是敢。ChatGPT 出来时,整个国内对做前沿创新都缺乏信心,从投资人到大厂,都觉得差距太大了,还是做应用吧。但创新首先需要自信。这种信心通常在年轻人身上更明显。
梁文锋:因为我们在做最难的事。对顶级人才吸引最大的,肯定是去解决世界上最难的问题。其实,顶尖人才在中国是被低估的。因为整个社会层面的硬核创新太少了,使得他们没有机会被识别出来。我们在做最难的事,对他们就是有吸引力的。
梁文锋:我们偏乐观,整个行业看起来都符合预期。OpenAI 也不是神,不可能一直冲在前面。
梁文锋:可能是 2 年、5 年或者 10 年,总之会在我们有生之年实现。至于路线图,即使在我们公司内部,也没有统一意见。但我们确实押注了三个方向。一是数学和代码,二是多模态,三是自然语言本身。数学和代码是 AGI 天然的试验场,有点像围棋,是一个封闭的、可验证的系统,有可能通过自我学习就能实现很高的智能。另一方面,可能多模态、参与到人类的真实世界里学习,对 AGI 也是必要的。我们对一切可能性都保持开放。
梁文锋:会有专门公司提供基础模型和基础服务, 会有很长链条的专业分工。更多人在之上去满足整个社会多样化的需求。
梁文锋:主要的精力在研究下一代的大模型。还有很多未解决的问题。
梁文锋:所有的套路都是上一代的产物,未来不一定成立。拿互联网的商业逻辑去讨论未来 AI 的盈利模式,就像马化腾创业时,你去讨论通用电气和可口可乐一样。很可能是一种刻舟求剑。
梁文锋:幻方某种程度上增强了我们对技术驱动型创新的信心,但也不都是坦途。我们经历了一个漫长的积累过程。外部看到的是幻方 2015 年后的部分,但其实我们做了 16 年。
梁文锋:我倒觉得未必。中国产业结构的调整,会更依赖硬核技术的创新。当很多人发现过去赚快钱很可能来自时代运气,就会更愿意俯身去做真正的创新。
梁文锋:我是八十年代在广东一个五线城市长大的。我的父亲是小学老师,九十年代,广东赚钱机会很多,当时有不少家长到我家里来,基本就是家长觉得读书没用。但现在回去看,观念都变了。因为钱不好赚了,连开出租车的机会可能都没了。一代人的时间就变了。
以后硬核创新会越来越多。现在可能还不容易被理解,是因为整个社会群体需要被事实教育。当这个社会让硬核创新的人功成名就,群体性想法就会改变。我们只是还需要一堆事实和一个过程。
梁文锋:我们不会闭源。我们认为先有一个强大的技术生态更重要。
梁文锋:短期内没有融资计划,我们面临的问题从来不是钱,而是高端芯片被禁运。
梁文锋:更多的投入并不一定产生更多的创新。否则大厂可以把所有的创新包揽了。
梁文锋:我们认为当前阶段是技术创新的爆发期,而不是应用的爆发期。长远来说,我们希望形成一种生态,就是业界直接使用我们的技术和产出,我们只负责基础模型和前沿的创新,然后其它公司在 DeepSeek 的基础上构建 toB、toC 的业务。如果能形成完整的产业上下游,我们就没必要自己做应用。当然,如果需要,我们做应用也没障碍,但研究和技术创新永远是我们第一优先级。
梁文锋:未来的世界很可能是专业化分工的,基础大模型需要持续创新,大厂有它的能力边界,并不一定适合。
梁文锋:技术没有秘密,但重置需要时间和成本。英伟达的显卡,理论上没有任何技术秘密,很容易复制,但重新组织团队以及追赶下一代技术都需要时间,所以实际的护城河还是很宽。
梁文锋:说实话我们不太 care 这件事,只是顺便做了这件事。提供云服务不是我们的主要目标。我们的目标还是去实现 AGI。
目前没有看到什么新解法,但大厂也没有明显占优。大厂有现成的用户,但它的现金流业务也是它的包袱,也会让它成为随时被颠覆的对象。
梁文锋:可能活下来 2 到 3 家。现在都还处在烧钱阶段,所以那些自我定位清晰、更能精细化运营的,更有机会活下来。其它公司可能会脱胎换骨。有价值的东西不会烟消云散,但会换一种方式。
梁文锋:我经常思考的是,一个东西能不能让社会的运行效率变高,以及你能否在它的产业分工链条上找到擅长的位置。只要终局是让社会效率更高,就是成立的。中间很多都是阶段性的,过度关注必然眼花缭乱。
梁文锋:初始团队已经集结到位,前期因为人手不够,会从幻方临时借调一部分人过去。去年底 ChatGPT3.5 风靡时,我们就开始动手招聘了,不过我们依然需要更多的人加入。
梁文锋:如果追求短期目标,找现成有经验的人是对的。但如果看长远,经验就没那么重要,基础能力、创造性、热爱等更重要。从这个角度看,国内合适的候选人就不少。
梁文锋:不一定是做过这件事的人才能做这件事。幻方招人有条原则是,看能力,而不是看经验。我们的核心技术岗位,基本以应届和毕业一两年的人为主。
梁文锋:做一件事,有经验的人会不假思索告诉你,应该这样做,但没有经验的人,会反复摸索、很认真去想应该怎么做,然后找到一个符合当前实际情况的解决办法。
梁文锋:我们的核心团队,连我自己,一开始都没有量化经验,这一点很特殊。不能说是成功的秘密,但这是幻方的文化之一。我们不会故意回避有经验的人,但更多是看能力。
拿销售这个岗位举个例子。我们的两个主力销售,都是这个行业的素人。一个原来做德国机械品类外贸的,一个是原来在券商做后台写代码。他们进入这个行业时,没有经验,没有资源,没有积累。
而现在我们可能是唯一一家能以直销为主的大私募。做直销意味着不用给中间商分费用,同样规模和业绩下,利润率更高,很多家会试图模仿我们,但并没有成功。
梁文锋:因为仅凭这一点不足以让创新发生。它需要和公司的文化和管理相匹配。事实上,第一年他们什么都做不出来,第二年才开始有点成绩。但我们的考核标准和一般公司不太一样。我们没有 KPI,也没有所谓的任务。
梁文锋:我们不像一般公司,看重客户下单量,我们的销售卖多少和提成不是一开始就算好的,而会更鼓励销售去发展自己的圈子,认识更多人,产生更大影响力。因为我们认为,一个让客户信任的正直的销售,可能在短时间内做不到让客户来下单,但可以让你觉得他是个靠谱的人。
梁文锋:交给他重要的事,并且不干预他。让他自己想办法,自己发挥。其实,一家公司的基因是很难被模仿的。比如说招没有经验的人,怎么判断他的潜力,招进来之后如何才能让他成长,这些都没法直接模仿。
梁文锋:我们的总结是,创新需要尽可能少的干预和管理,让每个人有自由发挥的空间和试错机会。创新往往都是自己产生的,不是刻意安排的,更不是教出来的。
梁文锋:招人时确保价值观一致,然后通过企业文化来确保步调一致。当然,我们并没有一个成文的企业文化,因为所有成文东西,又会阻碍创新。更多时候,是管理者的以身示范,遇到一件事,你如何做决策,会成为一种准则。
梁文锋:按照教科书的方法论来推导创业公司,在当下,他们做的事,都是活不下来的。但市场是变化的。真正的决定力量往往不是一些现成的规则和条件,而是一种适应和调整变化的能力。很多大公司的组织结构已经不能快速响应和快速做事,而且他们很容易让之前的经验和惯性成为束缚,而这波 AI 新浪潮之下,一定会有一批新公司诞生。
梁文锋:去搞清我们的猜想是不是事实,如果是对的,就会很兴奋了。
梁文锋:热爱,扎实的基础能力。其他都没那么重要。
梁文锋:他们的热情通常会表现出来,因为他真的很想做这件事,所以这些人往往同时也在找你。
梁文锋:创新就是昂贵且低效的,有时候伴随着浪费。所以经济发展到一定程度之后,才能够出现创新。很穷的时候,或者不是创新驱动的行业,成本和效率非常关键。看 OpenAI 也是烧了很多钱才出来。
梁文锋:不知道是不是疯狂,但这个世界存在很多无法用逻辑解释的事,就像很多程序员,也是开源社区的疯狂贡献者,一天很累了,还要去贡献代码。
梁文锋:类似你徒步 50 公里,整个身体是瘫掉的,但精神很满足。
梁文锋:不是所有人都能疯狂一辈子,但大部分人,在他年轻的那些年,可以完全没有功利目的,投入地去做一件事。
(梁文锋出现在央视《新闻联播》画面中,和国务院总理李强交流中)
DeepSeek国运天才85年生人梁文锋,17岁上浙大,炒股7年,从乡村孩子一跃成为亿万富翁,专注人工智能一年半问鼎全球!
梁文锋的横空出世,让我们知晓一个事实:中国不缺天才,只是天才被限制在条条框框里面,掩盖了天才的光芒!