27岁华裔亿万富翁:中美AI技术差距不断缩小 未来面临数据稀缺挑战

提到华裔年轻富豪,很多人第一反应会想到扎克伯格身边那位陈医生,或者是TikTok的老板周受资。其实在AI领域,还有一位更年轻的亿万富翁,名字叫陈垚杰,今年才刚满27岁。

他是AI公司Cohere的联合创始人,这家公司做企业级大模型服务,去年最新一轮融资后估值超过20亿美元,算下来他手里的股份早就突破亿万美金门槛。最近他在接受媒体采访的时候聊到了对中美AI发展的看法,不少观点都挺实在,没有那些行业大佬的空架子。

陈垚杰是从小在加拿大长大的华裔,本科读的是计算机,早年还在谷歌研究院待过,和OpenAI的几位创始人算是同圈子的研究者。出来创业做Cohere,一开始就是瞄准企业大模型的方向,没去挤ToC聊天机器人的红海,这几年走得反而挺稳。

他说自己因为工作关系,两边跑的时间多,接触过中美两地的AI创业团队和大公司,能直观感觉到变化。放在十年前,甚至五年前,美国AI技术领先的优势确实很明显,不管是基础研究的积累,还是顶尖人才的数量,都比国内多。

但这几年完全不一样了。

国内的AI发展速度快到超出很多人的预期,尤其是大模型概念火了之后,不管是互联网大厂,还是新出来的创业公司,都在猛砸钱搞研发。陈垚杰说,现在看顶会论文,来自国内研究团队的成果占比越来越高,很多细分方向上,国内的水平已经追上甚至反超了。顶尖人才的流动也在变,以前很多学AI的留学生毕业都留在美国进大厂,现在不少人会选择回国发展,国内的科研环境和薪资待遇都不比美国差,机会反而更多。

他举了个很简单的例子,现在大家聊生成式AI,美国最早出了ChatGPT,国内没隔多久就出来好几个体验差不多的产品,普通用户根本感觉不到太大的体验差距。放在早十年,这种追赶速度是想都不敢想的。

所以说现在中美AI的技术差距,其实一直在不断缩小,不是以前那种差好几个身位的情况了。

不过被问到未来AI发展最大的挑战是什么的时候,他的回答不是芯片卡脖子,也不是人才竞争,反而是大家现在还没太当回事的数据稀缺问题。

很多人可能会说,我们现在不是天天都在产生数据吗?上网刷视频、聊天、买东西,到处都是数据,怎么会缺?

其实这里说的缺,不是缺普通的用户数据,缺的是能用来训练高端大模型的高质量标注数据。

你想,现在大模型的参数规模越来越大,从十亿级到千亿级,现在连万亿参数的模型都出来了。训练模型需要大量优质、合规、贴合领域需求的数据,互联网上公开的那些数据,好挖的早就被挖得差不多了。剩下的要么质量差,错误多,要么涉及版权问题,不能随便拿来用。

更关键的是,你要训练垂直领域的专业模型,比如医疗、法律、工业这些方向,需要的都是对应领域的专业数据。这些数据本来就少,还分散在各个机构手里,没法随便拿出来共享。很多创业公司就算有钱,也买不到足够的合适数据来训练模型。

陈垚杰说,现在很多公司其实都遇到了这个瓶颈,模型架构早就想好了,就是找不到足够的高质量数据来训练,效果出不来。而且这个问题未来会越来越严重,你模型越做越大,需要的数据就越多,现在公开数据的储备,根本跟不上大模型迭代的速度。

还有隐私合规的问题,现在不管是中国还是美国,对用户数据隐私的监管都越来越严。以前随便爬用户数据拿来训练的时代已经过去了,以后能用的数据,必须是合规授权的,这么一来,符合要求的数据就更少了。

他提到,现在已经有公司在想办法解决这个问题,比如用合成数据来训练,就是让已经有的大模型生成符合要求的新数据,再用来训练下一代模型。但这个方法也有问题,就是会把旧模型里的错误一代代传下去,时间长了模型的准确率反而会下降,不能从根本上解决问题。

还有人说搞小模型,用更少的数据达到差不多的效果,这确实是一个方向,但高端的通用大模型,还是需要大量数据堆出来,数据的缺口还是存在。

聊到未来AI行业的格局,陈垚杰说不用太在意所谓的技术差距焦虑。现在两地的AI发展其实各有优势,美国在基础研究上的积累还是深,起步早,有不少先发优势。但中国的市场大,应用场景多,迭代速度快,很多落地创新反而走在前面。两边的技术追平只是时间问题,接下来真正比拼的,就是谁能先解决数据稀缺的问题,谁能拿到更多高质量的合规数据,谁就能跑在前面。

他自己作为华裔创业者,也说希望未来能有更多机会两边合作,毕竟AI是全人类的技术,把两边的优势结合起来,才能把这个行业做得更大。很多人喜欢炒技术对立,但对真正做事情的人来说,能解决问题,把技术落地给用户创造价值,才是最要紧的。

27岁就能坐到亿万富翁的位置,还能在行业里说上话,靠的不是运气,是真的在这个行业里泡了很多年,看到了别人没注意到的问题。这次他点破数据稀缺这个未来的挑战,其实也给很多盲目冲进去做AI的创业者提了醒,不要光盯着参数和算力,数据这块的瓶颈,才是未来真正要跨过去的坎。

华裔亿万富翁,陈垚杰,中美AI技术差距,AI技术发展,数据稀缺挑战,AI大模型,高质量AI数据,AI训练数据,Cohere,AI创业

[Q]:这位27岁华裔亿万富翁是谁?
[A]:这位27岁华裔亿万富翁是陈垚杰,他是AI公司Cohere的联合创始人,该公司做企业级大模型服务,最新估值超20亿美元,他的身家已经突破亿万美金门槛。
[Q]:陈垚杰对中美AI技术差距有什么判断?
[A]:陈垚杰认为,之前美国AI技术有明显领先优势,但近几年中国AI发展速度极快,技术水平提升迅速,中美AI的技术差距正在不断缩小,很多细分方向国内已经追上甚至实现反超。
[Q]:陈垚杰认为未来AI发展最大的挑战是什么?
[A]:陈垚杰认为未来AI发展最大的挑战不是芯片或是人才竞争,而是数据稀缺,尤其是能用于训练高端大模型的高质量标注数据十分短缺。
[Q]:为什么AI行业会面临数据稀缺问题?
[A]:互联网公开的优质数据已经被开发得差不多了,剩余数据要么质量差要么涉及版权问题;垂直专业领域的专业数据本就分散稀少,还难以流通;加上各国对数据隐私监管越来越严格,合规可用的数据就更少了。
[Q]:现在已经有哪些解决数据稀缺的尝试?
[A]:目前有企业尝试用合成数据训练模型,也就是让现有大模型生成数据训练下一代模型,不过这种方法会累积旧模型的错误,无法从根本解决问题;也有人研发小模型,减少对数据的需求,不过高端通用大模型依然存在很大的数据缺口。
[Q]:中美AI发展分别有什么优势?
[A]:美国AI发展起步早,在基础研究上积累更深,有先发优势;中国拥有更大的市场和更多样的应用场景,技术落地迭代速度更快,在落地创新上更有优势。
[Q]:Cohere公司的主要业务方向是什么?
[A]:Cohere主打企业级大模型服务,创业之初就没有挤ToC聊天机器人的红海赛道,发展路径相对稳健。
[Q]:陈垚杰认为未来AI行业的核心竞争点在哪里?
[A]:陈垚杰认为中美AI技术追平只是时间问题,未来AI行业真正的核心竞争点是谁能先解决数据稀缺问题,拿到更多高质量合规数据,谁就能占据行业优势。
share