@Lenciel

Nvidia新GPU与算法工程师

今天看到介绍 Nvidia 新 GPU 的帖子,副标题是,「4nm 制程 800 亿晶体管,20 张即可承载全球互联网流量,全新 Hopper 架构太炸了」。

有点像爽文了,对不对。

正好,上周末看到特斯拉的 Andrej Karpathy 一篇关于神经网络的文章,自己也去把 Yann LeCun 的那个识别手写邮编号码的实验又做了一遍。

说「又」,是当年读研的时候,因为搞的是控制,也弄过一下神经网络,就查到过Yann LeCun 的那篇论文,也仿照着做过实验。

当时的数据我已经不太记得了。

这一次,基于 Karpathy 基于 PyTorch 的 Repo ,仍然用文章里最初采用的 Bootou 和 LeCun 在 88 年搞出来的的反向传播模拟器的实现机制,在 MacBook Pro (14-inch, 2021,M1 Pro 芯片)上训练数据集(很小,7291 个图例)只用了十几秒钟(论文里在 SUN-4/260 平台上花了三天左右),并得到了几乎一致的结果。

换句话说,过去的 33 年里,因为硬件体系结构的变化,带来的性能提升是近万倍的(如果 PyTorch 能够把 M1 Pro 里的 GPU 和 NPU 也用起来的话应该会更快)。

但,如果换个思路,要在「软一点」的层面去优化一下这个神经网络,会有什么样的效果呢?

首先,这个 33 年前的神经网络,麻雀虽小五脏俱全:它有一个数据集,有完整的架构和实现,还给出了训练集和测试集的实验结果和错误率。

然后,无论是像原来论文里留的 todo 一样去加上 weight normalization,还是把激活函数从 TanH 升级到 ReLu (这个主要是对 dropout 有帮助,但也会引入更多的噪声,使得训练时间变长),带来的收益都是很线性的。

最后,连 Karpathy 这样吃这碗饭的行家,想出来的不增加时间成本的优化方案,也是扩大数据集(这主要是因为最近 30 多年很多的进展或者优化都是基于更大数据集的,在这样的样本空间上,其实没有特别大的效果)。

所以,站在一个比较大的时间尺度上,深度学习在算法本身上的突破是线性的甚至可能是停滞的。但是数据集(当年不过万,现在动不动就是几个亿的样本)和算力(当年可以玩几千个参数,现在随便玩几万亿参数)方面带来的突破却可能是指数的。

一个背后的推论也许是,今天动辄百万年薪的算法工程师,可能未必是一个长期存在的行业。以后我们训练一个 AI,大概跟今天打开手机拍个照一样容易:于是掌握在暗房里冲洗胶卷的手艺的人大量下岗了。

类似的情况发生在各种有趣的地方。比如今天我们去看 NES 时代的《超级玛丽》或者说街机时代的《街头霸王》这样的游戏,在如何压榨有限的内存和存储,把音乐、图像、动效等综合处理和呈现做到极致,有过很多让人赞叹的设计和实现。

但突然有一天,硬件升级了,相关的所有需要大量理论和经验支撑的设计或者调优技巧全部都变得不重要了。

现在很多的程序员甚至不真正理解内存和存储。

我相信,世界上肯定有一些人做算法研究或者是在有限资源下的游戏开发,完全是出于兴趣,并不会被这样的改变剥夺所有的成就感。

但大部分人,投入工作是为了更好的生活。面对复杂的问题,能不能识别出关键杠杆,并且把红利真正吃下去,可能是会改变生活的决定。

这一点,在移动互联网红利终于消耗殆尽,下一个时代还不知道由什么硬件来承载,每个社交网络上都有一群挂着售价几十万美金的 NFT 头像的年轻人,在热烈讨论要不要辞职或者是辍学投入到 Web3 事业的今天,真是个特别有意思的话题。

创业维艰(1) - 什么是创业,它难在哪里

早上看到妖叔朋友圈里一条消息:《卖了4套房,创业12年,如今负债1亿,无家可归》(https://mp.weixin.qq.com/s/w-3wjxh_kRxAZ5KOiWB5Hg){:target=”_blank”}。

想起之前浙江的「大学生创业政府兜底」的政策,引起了很多讨论和解读。

创业,一点不浪漫。但没有创过业,对它有点儿浪漫化的理解也很正常:毕竟对成功创业者的宣传,让每个咖啡馆都飘荡着几个亿的生意。

抛开创业怎么及时止损,怎么做风险隔离,这些技术层面的问题不说。我想,可能很多人对「创业」两个字还有点误会。那么,究竟什么是创业,创业难在哪里?

1. 究竟什么是创业?

每年中国要成立大概1400万家公司,这还不算那些个体工商户(小吃店、理发店),这些都可以叫「创业」,但这些是不是都叫「创业公司」?

「创业公司」最主要的衡量指标是规模和增长。以前有 VC 说自己的标准是周的增长至少要到 5%。在某公司的时候我们说要求业务要每年翻倍,然后业务负责人就说开什么玩笑,怎么可能每年翻倍。然后就给他算这个账:每周涨 1%,一年大概是 1.7 倍,如果你一周 1% 的增长都做不到,就别干了。

有一些创业者会觉得,高速增长的公司不就是 to VC,或者靠营销吗。

首先,高速增长主要是靠产品力,特别是在今天的市场环境和流量成本下(这是我一直不太看好很多国潮、美妆、茶饮的原因);

其次,除非你是想开个下午两点开门五点收摊全靠口碑一天限量200斤的卤肉铺,营销并不是做好产品的对立面,不用排斥它;

最后,高速增长不是指数增长,往往是「大象曲线」(这个以后再说)。

所以,总结一下,站在创业者自己的角度,什么是「创业公司」可以有很多答案:初心、宏愿、对行业痛点的把握,对用户需求的洞察。但是站在市场的角度,创业公司就是高速增长的公司,千万不要自己骗自己。

2. 创业难在哪里?

if (创业 = 高速增长),then 创业难在哪里?

首先,难在开头:需要对机会的洞察和出手的胆量。

洞察机会需要的是综合素质,比如对商业敏感,比如思考和判断力。

举个例子。

美国禁过酒,如果你是一个当时的美国人,听说要禁酒了,你想到了什么?

有很多人禁酒了之后都想的是我要写文章,我要批判政府限制公民自由,或者是我要赞美政府,我们的妇女儿童终于不用挨醉醺醺的老公揍了。但约翰·彭伯顿,想到了这个时候,我应该去卖点替代品(为什么 coke 在今天也有毒品的意思?因为可卡因确实是从 coca ,即古柯叶,里提取的,并且当时的可口可乐里确实加了可卡因…)。

洞察机会之后,还得出手。今天的中国,商业机会还是很多的。看到这些机会,能有胆量真正迈出一步,躬身入局的人,还是少的。有句话说创业是「嚼着玻璃渣凝视深渊」,它确实同时需要韧性和胆量。

然后,比开头更难的事情来了:增长如何持续。

举个例子。

支付宝刚刚创业的时候,郭靖说只要当年完成任务就去西湖裸奔。然后真的裸奔了,裸奔完了开了一个很盛大的年会,请了马云。马云听了一下他们在干嘛,过了两个月就把他干掉了。

发生了什么呢?因为马云看到,当时的支付宝体验极差,支付成功率才 40% 多:它就像是铁路上的扳道工,火车来了,我发现你是工商银行的,就给你扳到工商银行的…它自己不具备做金融的能力,就是一个代销、一个渠道,银行自己的支付成功率有多低,支付宝就有多低。所以虽然他当时日交易量 12 个亿,数字是很好看。但马云觉得他一头只是依赖淘宝的交易量,一头只是依赖银行的支付通道,没有自己做出增长曲线,所以还是被干掉了。

这个故事的后续很多人都知道:彭蕾进去干了一年就把支付成功率从百分之四十几提升到百分之九十几了。定这个目标的时候,内部很多人都说这个不可能:「这个是银行管的事情,我们永远不可能做得到」。

那为什么别人就能做到?

我的看法是:跟她引入的人才和组织机制有蛮大的关系。

现在已经过了你有很好的商业敏感度,就能够把一个公司干得非常的漂亮的时代了:在改革开放初期,可以看到很多这样的例子,因为信息不对称,识别出或者掌握了那个信息差的人,就可以赚很多的钱。

现在,信息的的不对称已经被消解的差不多了,信息不是太少而是太多。领导者或者管理者一个人,识别不出来所有的机会,也把握不住所有的机会。

所以,今天的创业公司,甚至说任何公司,难在战略和组织这两个东西得不停地高速地变化。变化的目的,并不是为了折腾,是为了生存。

我一般认为一个互联网业务最核心的是产品、研发、运营和销售,这四条腿的组织流程,共创机制搭建得不好,商业上就不会有好结果。

回到支付宝,它当时不是一个很官僚的组织,相反,很有朝气。蚂蚁干的 FinTech 也是一个很新的行业,为什么一开始郭靖做得不好?根上,是因为支付宝最开始的那一波负责人都是阿里地推过去的,他们在做地推、做销售上,确实在全中国都是非常好的一个组织。

但是他们其实是没有产品创新能力的,这一点在大量产研的人加入之后有了一些提升,但到了今天,仍然还是瘸腿的。

这里不展开,我想说的就是,一个创业公司,业务做的不好,可以首先看看,产品、研发、运营和销售,这四条腿有没有哪条是瘸的。然后,有没有一个机制,能让这四条腿一起行动,对战略和组织做不断的革新,持续的共创。

以上。