研硕

研硕 https://yansoul.com 研硕's blog Fri, 08 May 2026 03:36:58 GMT https://validator.w3.org/feed/docs/rss2.html https://github.com/jpmonette/feed 研硕 https://yansoul.com/favicon.ico https://yansoul.com All rights reserved 研硕 2026 <![CDATA[0224]]> https://yansoul.com/blogs/0224 https://yansoul.com/blogs/0224 Mon, 24 Feb 2025 00:00:00 GMT 想起玉伯发即刻说创业者其实根本不需要加班。还挺难理解他的状态的，他是真的一到点就放得下，完全没有执念地在创业吗。 --- ]]> i@yanshuo.com (研硕) <![CDATA[advX2024 碎片集]]> https://yansoul.com/blogs/adventureX2024 https://yansoul.com/blogs/adventureX2024 Fri, 26 Jul 2024 00:00:00 GMT i@yanshuo.com (研硕) <![CDATA[用 AI 干掉自己]]> https://yansoul.com/blogs/ai-employee https://yansoul.com/blogs/ai-employee Wed, 12 Nov 2025 00:00:00 GMT i@yanshuo.com (研硕) <![CDATA[AI 套壳，不在于 AI，在壳。]]> https://yansoul.com/blogs/ai-warpper https://yansoul.com/blogs/ai-warpper Sun, 29 Jun 2025 00:00:00 GMT i@yanshuo.com (研硕) <![CDATA[【论文精读】Attention is all you need]]> https://yansoul.com/blogs/attention-is-all-you-need https://yansoul.com/blogs/attention-is-all-you-need Sun, 06 Apr 2025 00:00:00 GMT The dominant sequence transduction models are based on complex recurrent or convolutional neural networks that include an encoder and a decoder. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. Experiments on two machine translation tasks show these models to be superior in quality while being more parallelizable and requiring signiﬁcantly less time to train. Our model achieves 28.4 BLEU on the WMT 2014 Englishto-German translation task, improving over the existing best results, including ensembles, by over 2 BLEU. On the WMT 2014 English-to-French translation task, our model establishes a new single-model state-of-the-art BLEU score of 41.8 after training for 3.5 days on eight GPUs, a small fraction of the training costs of the best models from the literature. We show that the Transformer generalizes well to other tasks by applying it successfully to English constituency parsing both with large and limited training data. ## 详细解释 - 背景介绍： - 主流*（截止文章发表时的 2017 年）*的序列转录模型*（意思是 Input 是一个序列，Output 也是一个序列，典型的场景就是翻译）*都是基于复杂循环或者卷积神经网络，它们都包含编码器和解码器。 - 最好的模型在编码器和解码器中还引入了注意力机制 - 本文做了什么工作： - 提出了一个新的简单的架构，叫 Transformer ，它是纯基于注意力机制，摒弃了循环神经网络和卷积神经网络 - 测试了两个机器翻译任务，取得的成绩： - 更好的翻译效果——英德翻译取得 28.4 BLEU*（BLEU 是机器翻译领域的一个计量单位，反正知道这个数字不低就行）*的分数，比最好的结果高了两个 BLEU - 更好的并行计算能力 - 更低的训练成本——英法翻译任务上，做到了单模型效果最好的同时，只在 8 个 GPU 上训练了 3.5 天 - 展望 - 这个架构可以泛化到别的任务上 ### 批注这个摘要可以一句话概括为：“我们用了一个新的训练方法让机器翻译的翻译质量提升了” 这篇广为流传的经典文章，最开始其实只是聚焦在「机器翻译」这个很小的场景下，用一种新方法提升了机器翻译的效果。没有什么 AGI 的宏大故事，就是一个很垂的领域，很小的场景。这几个研究员在当时可能也预料不到 Transformer 这么大的潜力吧。来自 Google 的几只蝴蝶扇动了一下翅膀，几年后在全球掀起一场至今看不见尽头的风暴。 # 2. Conclusion 看完摘要下一步就是直接看结论——先把握整体，再看细节。 > In this work, we presented the Transformer, the ﬁrst sequence transduction model based entirely on attention, replacing the recurrent layers most commonly used in encoder-decoder architectures with multi-headed self-attention. > > For translation tasks, the Transformer can be trained signiﬁcantly faster than architectures based on recurrent or convolutional layers. On both WMT 2014 English-to-German and WMT 2014 English-to-French translation tasks, we achieve a new state of the art. In the former task our best model outperforms even all previously reported ensembles. > > We are excited about the future of attention-based models and plan to apply them to other tasks. We plan to extend the Transformer to problems involving input and output modalities other than text and to investigate local, restricted attention mechanisms to efﬁciently handle large inputs and outputs such as images, audio and video. Making generation less sequential is another research goals of ours. > > The code we used to train and evaluate our models is available at [https://github.com/ tensorflow/tensor2tensor](https://github.com/tensorflow/tensor2tensor). ## 详细解释 - 这是在序列转录任务中，第一个仅仅使用注意力机制的模型，把过往的所有循环层，全部替换成了多头自注意力 (multi-header self-attention) - 在机器翻译任务中，Transformer 可以训练得比其他任务都快很多，且结果质量也更好 - 作者对于这种纯基于注意力机制的模型感到很激动，认为可以用在文本以外的别的任务上，包括图片、语音、视频*（后续其他人的工作，证明了作者这个预测是对的）* - 代码库在 [https://github.com/ tensorflow/tensor2tensor](https://github.com/tensorflow/tensor2tensor). # 3. Intro > 对摘要的扩充 - 当时时序模型中最常用的还是 RNN，包括 LSTM 和 GRNN。主流的工作都在语言模型和编/解码器的架构上。 - RNN 的计算方式是，从左往右一步步递归计算这个序列的下一个词，第 t 个词的隐藏状态 ht 由这两个参数决定：ht-1 和第 t 个词本身。简单来说就是 RNN 在把之前的所有信息放到一个隐藏状态里，以此计算下一个词的隐藏状态并预测 - RNN 的问题： - 他是一步一步递归计算的，无法并行，计算性能很低。 - 时序信息是一步一步累计的，很早期的信息会像滑动窗口那样很容易丢掉，如果不想丢失信息的话，对内存要求又会极高 - 上述问题有很多改进方案，但这些问题依然存在。 - Attention 的应用：在这篇文章之前，编解码器已经在成功应用 Attention 机制了，它与 RNN 一起使用，可以更好地将编码器的信息传递给解码器 - Transformer：完全摒弃了 RNN，完全使用 Attention，可以做到很高的并行度 # 4. Background 讲了一下相关的前人工作以及这篇文章与前人这些工作的联系、区别。整理一下大概意思： - 用到 multi-head 去实现多输出通道（似乎是可以识别不一样的模式？）的效果。这是一个 RNN 中一个比较好的方式，用纯注意力机制后，可以通过 multi-head 去模拟这个效果。 - 用到了自注意力机制。前人提出过，不是这篇论文创新，这里提一嘴然后引用一下。 - 这是第一个纯自注意力机制的模型 # 5. 模型架构太细节的看不懂，从整体理解一下： - 编/解码器的架构： - 编码器：将原始的输入变成机器学习可以理解的向量数据。 - 解码器：拿到编码器的输出，生成一个序列。 - 机制上的区别： - 编码器是一次性从整个句子的角度生成的数据（比如翻译任务中，编码器会一次性给出整个句子的翻译），但是解码器需要通过自回归的方式（把输出作为下一个 token 的输入）一个词一个词地解码 ![img](https://m-baigua-com.oss-cn-beijing.aliyuncs.com/images/image-ixrw.png) 架构图 # 6. 模型+实验这一块基本都是模型训练过程中的细节设计与实验步骤。由于自己没有复现一个 Transformer 的需求，略过。 # 7. 评价 - NLP 领域的贡献 - Transform 最初提出时是应用在机器翻译任务上。后来大家发现这个架构不仅能用在机器翻译上，而是能在几乎所有 NLP 任务中都显著提升模型性能，曾经的 NLP 需要做大量的文本预处理并基于不同任务专门设计不同的模型架构，而 Transform 给后续的研究者提供了一个几乎通用、必学的统一架构，同时也让 pre-train 变得更加简单。 - 横向贡献 - 再往后，大家发现这个架构不仅仅在 NLP 领域，而是在图像、音频、视频上都适用。曾经是不同领域有不同架构，比如 CV 用 CNN，NLP 领域用 RNN，其他领域都有各自的不同架构，但 Transform 之后，大一统了各个领域的模型架构。 - 进一步地，由于 Transform 的通用性，让各个领域研究者使用了相同的研究语言，从而任何一个领域取得的突破，都可以很快地在别的领域得到使用、迁移。极大缩短了一项新技术在其他领域被应用的时间。 - 给了研究者一个鼓励：原来还有新的架构是可以打败统治了多年的 CNN/RNN 的。这种对固有认知的打破，也许会促生出更多有意思的研究。 - 研究问题——我们对 Attention 的理解依然是不够的 - 虽然标题叫「Attention is all you need」，但实际上它只是这个模型的一部分，后续的 MLP、残差连接等都是不可缺少的。并不是只靠 Attention 就能解决一切问题。 - 注意力的代价：Attention 根本不会对具体数据进行建模，而是用一种更广泛/一般化的方式处理信息，这会导致模型对训练数据中的信息抓取的能力变差，以至于必须要更多的数据、更大的模型，才能获取较好的效果 --- ]]> i@yanshuo.com (研硕) <![CDATA[这段贯口听得我鸡皮疙瘩起来了]]> https://yansoul.com/blogs/bannatie https://yansoul.com/blogs/bannatie Sun, 16 Nov 2025 00:00:00 GMT 摘录自播客《半拿铁》中国互联网故事 2————中国接入世界：1994 我实在忍不住把它摘录出来—— "2250万，这就是00年底的中国网民的数量。这2000万人到底有多大的商业价值，未来到底有多少人会上网等等，没有人知道。 "那个时候的中国互联网全是迷茫，全是探索。迷茫探索之中，很多我们的熟悉的名字都在蛰伏之中。杭州的教师马云创办了翻译社，并且做了一家公司，推出了第一个自己的互联网产品中国黄页。中国黄页卖出之后，他正准备给自己的新项目起名叫阿里巴巴。 "在杭州旁边的宁波电信局，员工丁磊提着行李辞职去广东创业，跟同年同月出生的一个网友，一个网上认识的好朋友马化腾见面，两个人半夜喝着啤酒，相谈甚欢。97年他成立网易，98年推出了163免费邮箱。网易虽然也有门户，但丁磊的风头当年被王志东抢走了。王志东那个时候四通立方已经改名叫新浪网，世界杯期间成为了全国的顶级门户。新浪网天下闻名，在门户兴起的时候，也有一些靠给门户网站提供技术支持赚钱的当乙方赚钱的。比如说门户网站，它就需要站内搜索技术，回国做搜索的李彦宏把技术卖给新浪和搜狐。 "两年之后，有一个网名叫搜索引擎9238的网友加入了百度，负责百度几乎所有to c的产品，他叫俞军。此后百度成为了一家to c的公司，俞军被认为是当年产品经理的精神领袖。还有把整个公司卖给门户网站的，比如说广州一个叫陈一舟的留学生做出的ChinaRen，这是中国最早的社交网站，就卖给搜狐了。卖给搜狐之后，ChinaRen团队里一个叫王小川的程序员也就加入了搜狐，成为搜狐的技术骨干。六年之后他会开发出搜狗输入法。方正集团的一个程序员，他倒是认为门户网站，域名这种形式不好用，他开发了自己的中文网址寻址工具3721，他叫周鸿祎。 "门户网站最早的深度报道来自于李学凌这个记者。李学凌连发了三篇文章，告诉你一个真实的新浪，告诉你一个真实的搜狐，告诉你一个是的网易，一战成名。多年之后，李学凌亲自下场创业，做出了欢聚时代，也就是YY另一个门户网站的员工。搜狐网的CFO正在为上市的事儿焦头烂额，他不知道自己五年之后会离开搜狐网，并且成立自己的创业公司优酷网，他叫古永强。还有一个门户网站，新浪网的用户都是最早接触互联网的一批人，也有的已经出来创业了，比如说在新浪网上写出中文互联网第一篇报文的老荣，老荣创办的8848要立志成为中国的亚马逊，要做电子商务。 "李国庆、俞渝这个时候他们两个刚刚认识，刚认识三个月，干柴烈火就闪婚了。闪婚之后几年，他们成立了当当网，主打卖图书。想靠卖书做大做强的不光李国庆和俞渝夫妇，还有金山的一个总经理，他叫雷军，他主导投资的卓越网迅速崛起，成为中国电子商务的明星。这个时候他自己还在金山工作，还没想过要做硬件，更不要说做汽车了。雷军现在正在焦头烂额，解决的是WPS陷入了跟巨头微软的持久战的问题。他想到的办法是开发金山毒霸，给WPS输血。 "电商在红红火火的时候，中关村出现了一家卖光盘卖设备的门头店，这个门头店叫京东老板刘强东，他做的事目前跟电商毫无关系。但是他天天搬货，跟消费者打交道，让他更能理解什么是零售。还有一个北漂青年，他连个店都没有，他身上只有2000块钱，他叫唐岩。两年之后他好容易找到一个正经工作，一个网易编辑的工作，慢慢找到了做互联网产品的感觉。 "对比来看，一个上海的创业团队就特别豪华，四个年轻的行业专家凑在了一块。甲骨文的中国区咨询总监梁建章，做智能大楼系统的季琦，华尔街的高管沈南鹏、上海旅行社的总经理范敏，他们共同在上海创立携程，后来他们被称为携程四君子。季琦后来离开了携程，创办了华住集团，他旗下有31个酒店品牌。而沈南鹏成为红杉中国的创始人，目光来到深圳，从润讯公司出来的程序员马化腾创业，做他熟悉的寻呼机业务。到了第二年，他开始琢磨着做纯线上的即时聊天服务。但是第三年他马上就要破产了。这个时候他还不知道用户量和DAU有什么用，他也不会想到未来自己会做成全球最大的游戏公司。 "说到游戏公司，上海这边复旦也有一个刚毕业的年轻人开始创业了。他目光远大，给自己的公司起名叫盛大，他叫陈天桥。这个时候他们还没有想做游戏，更没有代理传奇，他们要做互联网虚拟社区。但是北京有一家公司叫联众，他们已经想清楚自己要搞什么游戏了，就搞棋牌。在厦门巨人大厦停工了，史玉柱在想着怎么还债，他还是选择了做保健品。不过七年之后，他会用征途这款游戏改变整个中国网游的行业格局。 "那个时候的互联网创业者里面，蔡文胜可以说是少有的不打算做产品的。他在疯狂投资域名，他成为中国知名的域名大佬，他靠域名赚了少说有一个亿美金。当然多年之后我们还是用上了他做的产品，叫美图秀秀。喜欢做域名买卖的还有一个刚从中国海洋大学毕业的年轻人，他叫姚劲波。他掌握了大量的数字域名，五年之后他会拿着自己的一个数字域名58.com成立58同城。 "这五年里，张一鸣在福建龙岩读高中，黄峥在杭州外国语学校读高中，宿华在湖南永顺读高中。那个时候，这三个高中生还没怎么接触互联网，但是石家庄四中的一个同样在读高中的小伙子，早早已经开办了自己的个人网站，叫显卡之家，他叫李想，高中毕业前，他一个月的收入是石家庄平均收入的六倍。在北京清华大学26号楼619宿舍里的两个上下铺的哥们儿志趣相投，他们一起集资买了电脑，下铺叫王慧文，他用电脑打游戏。上铺叫王兴，他受学长的影响，在用电脑研究创业。八年之后，他们会一起建立一个叫校内网的网站，他们的创业引路人，清华的学长沐言也会跟自己的同学在这一年成立一家叫百合网的网站。 "黄峥，未来的引路人段永平决定离开小霸王，创办新公司步步高。步步高将在多年之后孵化出两家手机公司，OPPO和vivo。2000年人民日报刊登了一篇文章，这篇文章叫免费软件，免费软件饿着肚子挥洒冲动。他讲的是什么呢？讲的是免费软件的悲情现状。它以一款叫做fox mail的已经有100万用户的邮箱软件为例，这个软件的开发者现在依然饿着肚子，是一分钱没赚着。原文说的是foxmail没有带来任何经济上或者社会地位上的好处，而foxmail的作者张小龙说，我也不知道下一步该怎么办。文章最后说，张小龙的朋友都觉得他可怜，在一百多万台计算机屏幕上留下大名的人只是一个悲剧人物。 "这些就是1995年到2000年发生的事情，虽然我们看到很缓慢很迷茫，但是无数的种子已经种下来了。这些都还是微弱火种的小公司，未来会组成万丈光芒。" > 读至此，我想起毛泽东在《沁园春雪》中那下半阙：**江山如此多娇，引无数英雄竞折腰。惜秦皇汉武，略输文采；唐宗宋祖，稍逊风骚。一代天骄，成吉思汗，只识弯弓射大雕。俱往矣，数风流人物，还看今朝。** --- ]]> i@yanshuo.com (研硕) <![CDATA[AI 产品，交付的是信心]]> https://yansoul.com/blogs/confidence-of-ai https://yansoul.com/blogs/confidence-of-ai Wed, 09 Jul 2025 00:00:00 GMT i@yanshuo.com (研硕) <![CDATA[分别心]]> https://yansoul.com/blogs/ego https://yansoul.com/blogs/ego Thu, 28 Aug 2025 00:00:00 GMT i@yanshuo.com (研硕) <![CDATA[恐惧是一个机会]]> https://yansoul.com/blogs/fear https://yansoul.com/blogs/fear Sun, 21 Sep 2025 00:00:00 GMT i@yanshuo.com (研硕) <![CDATA[哥飞年中分享会]]> https://yansoul.com/blogs/gefei https://yansoul.com/blogs/gefei Sat, 24 May 2025 00:00:00 GMT i@yanshuo.com (研硕) <![CDATA[关于造车，雷军访谈]]> https://yansoul.com/blogs/leijun https://yansoul.com/blogs/leijun Sat, 10 Aug 2024 00:00:00 GMT 这三点战略，让人感到的是极致的「务实」，ego 小 # 为什么世界 500 强的公司，做新业务总是失败？ > 微软的 Mobile Phone，Intel 的手机芯片，苹果的汽车。都是这样 - 偶像包袱（ego 太大） - 惯性思维，过于依赖过去的经验 - 认知错位 > All I want to know is where I'm going to die so I'll never go there. ——Charlie Munger # 关于“营销之神”评价的回应其实产品和营销是一体两面，都需要对用户需求的深刻洞察，当你做了大量用户访谈和调研，真正解决了汽车工业百年来没有人去解决的问题时（不是没有人有能力，只是没有人在意），哪怕你只是平常地说出来，都会极具穿透力 # 战略——利基市场新能源车全是 SUV、大车，因而小米起步就做最难的轿车是最不被看好的；但在油车时代，明明轿车与 SUV 就是 1:1 的，凭什么就不能做呢？ SUV 是厂商基于成本和实施难度的做出的决策，而不是基于用户需求的决策。需求存在，只是尚未被挖掘出来。当 SUV 赛道已经站满了人时，尚未被满足的轿车市场反而是一片利基市场。 > [【雷军】关于造车，雷军近年唯一深度专访，206分钟完整无删节版](https://www.bilibili.com/video/BV1LT421r7vn/?vd_source=aaf3364ab2eeb516e7589433b35c4ed0) --- ]]> i@yanshuo.com (研硕) <![CDATA[清华 Hackathon]]> https://yansoul.com/blogs/thu-hackathon https://yansoul.com/blogs/thu-hackathon Sat, 26 Oct 2024 00:00:00 GMT 1. 在那场 presentation 中，「拒绝总结」四个字成功 hack 到张涛老师本人的认同感。亲身体会到这件事的魔力 > 2. 当一个人被某个板机调动起来的时候，他自己大概率没有 mindfulness，他只是给出 reaction - Where massive content needs exist - Don'ts - New hardware but old use case - 要能够回答：为什么不是一个 app，为什么手机完全解决不了 - Something like travel (本地生活) - 这类产品，最终决定用户价值、用户体验的，根本不是 AI，而是供应链本身——酒店便不便宜、有没有我要的房间 Case: 外卖推荐算法中，最难的是供给。 #### Possibilities - Let intelligence shine - AI = human 的地方 - Make it massive - Value add through intelligence - 降本增效之间，一定是优先选择增效 - AI > human 的地方 - 科研、语音克隆、编码、... - Make it worth - Generation is the new creation 生成的过程，就是创作 - Craftsmanship comes frome details - Make pipeline transparent and intuitive：把模型的过程拆解出来，让大家参与进来。生成即创作 - Everything can be a prompt - Low/Zero prompt - **「如果你真的是我的助理，你一定知道我最近关注什么」** - Context trigger：**场景触发**，不要用户主动触发（在你需要的时候自己出现） > Human in the loop. #### It's all about content - **Content is your new product.** - **Content is for consumption, not for generation** - **Content become brutal force for hacking humans** 世界范围：AI 产品渗透率——5% **关于壁垒：** 壁垒是在动态的竞争中**打出来的**。战争结束时会有一个记者来到现场，事后报道胜利方是因为有自己的「壁垒」。但壁垒从来不是在一开始就可以靠预先的规划「做」出来的 - 大厂做了怎么办？——大厂消化不了技术红利，达不到这样的速度 - Infra 不支持：大厂复杂而成熟的技术基建，快速变向是很困难的 - 组织的消化速度跟不上：大厂内部团队的核心利益与整个公司层面的利益是不一致的 - 但这有时间窗口，技术不会一直这样频繁地更迭 --- ]]> i@yanshuo.com (研硕) <![CDATA[不要只关注用户价值]]> https://yansoul.com/blogs/user-value https://yansoul.com/blogs/user-value Wed, 18 Jun 2025 00:00:00 GMT 附原文：https://mp.weixin.qq.com/s/gHRZFcuq7B_ytpQjN7AGdA?scene=1 --- ]]> i@yanshuo.com (研硕) <![CDATA[山雨欲来了]]> https://yansoul.com/blogs/vlm https://yansoul.com/blogs/vlm Sun, 12 Oct 2025 00:00:00 GMT i@yanshuo.com (研硕) <![CDATA[研硕的自媒体实践v0.0.1]]> https://yansoul.com/blogs/yansoul-media https://yansoul.com/blogs/yansoul-media Sat, 11 Oct 2025 00:00:00 GMT i@yanshuo.com (研硕)