一个词来介绍我,我是个经历者,但更像一个观察者。我其实是整个软件行业过去 20 多年的一个见证者和观察者。作为观察者要有客观总结能力,然后包括对未来的一些看法,但是未来的看法不一定对,比如说 GPT 的看法没有人能打包票。
——PingCAP 副总裁 刘松
每个时代都需要观察者,尤其是在技术变革加速的今天。在 GPT 带来的震荡之中,各领域技术都在寻找新的方向, 数据库技术也不例外,动作快的数据库和服务厂商也已经集成了 AI 工具做SQL自动生成与性能优化。然而,面对“来势汹汹”的 AI 技术浪潮,数据库技术的方向在哪?又该如何用好 AI?OSCHINA 采访了 GOTC2023 出品人、PingCAP 副总裁刘松,请他谈谈最近大热的 AI 技术,以及在新浪潮之下,数据技术的未来。
刘松
PingCAP 副总裁
曾经担任甲骨文大中国区技术战略部总经理,阿里云副总裁等职务,曾负责阿里云的云计算生态构建,智库合作,人才培养计划等工作。刘松长期活跃于中国软件产业,亲身观察互联网与信息化产业融合趋势,在软件与互联网行业发展趋势,云计算和开源产业的商业模式构建,数据库技术发展趋势,企业数字化转型等方面多年的实践经验。
5 月 28 日,刘松担任 GOTC 2023 “数据与数据库技术”分论坛出品人,并发表《从 HTAP 到 Serverless,TiDB 的技术演进之路》主题演讲,敬请期待!
参会报名,请访问: https://www.bagevent.com/event/8387611
OSCHINA:您最近这段时间很关注 GPT 的动态,到目前为止,对它最深的感触是什么?
刘松:
我觉得可以用一个词——涌现,Emergency。
我个人是一个复杂性系统科学的爱好者,大家可能听说过圣达菲研究所,致力于复杂系统科学的研究。在八九十年代的美国,涌现有一个时代特定的含义——当一个复杂性系统超过某个临界点,就会诞生很多按照原本系统的线性思维下预测不可能发生的事情。
首先是大模型,过了千亿级别以后,一下子就变得有智能了,这是一种涌现。
第二个涌现现在正在发生,当 GPT 这类大模型的技术与我们熟悉的软件事业、各行业场景结合后会有更大一轮的涌现。现在发生了很多原来我没想过的一些非线性的爆发,短时间内突然产生了原来没有的东西,这些东西的形态又是一个爆发状态,像所谓寒武纪大爆发的逻辑。
ChatGPT 从去年 12 月开放,中文世界到了今年 2 月之后,一下子话题爆了。一方面是技术过了临界点,让每个人都有所触动,发现自己懂的东西原来 AI 更懂。另外一点就是,尤其 IT 圈以外的人,都觉得它能改变我的工作甚至是未来的命运,都是有可能的,所以我想这可能是最重要的感触,是一个涌现的开始。
OSCHINA:您最近还说过一句话——十年云舞台,新的舞者是 Serverless+HTAP+AI。怎么理解这句话?
刘松:
我成为一个云的从业者刚好是十年前,2013 年是我在 Oracle 的最后一年,从那时候开始,Oracle 中国的人给我的称谓是 Mr. Cloud。那时候 Oracle 刚开始转型做云,包括数据库、SAAS。后来第二年我就去了阿里云,算是阿里云商业化的第一批人,主要负责云生态,也做了一些垂直行业比如金融云的工作。所以对云的理解差不多正好是十年。
到了前两年我认为云 1.0 差不多算是收官了,以资源型为主的云是基础设施,可以让所有行业应用可以快速、弹性上云。我在云舞台上已经待了十年。现在回头看,云最大的方向是承担全社会数字化转型的最终命题,其中隐含的两个关键技术,一个是数据技术,一个是人工智能,而且这两个东西都强调是以云为主。
在数字化里面,所有用户都希望要有以 HTAP 技术为代表的一体化的数据服务。AI 技术方面,这一波 GPT 的涌现已经告诉所有人,要有巨大的算力支撑才能将 AI 训练到这个级别。
那么这三种技术在未来会有更深地融合。
我们在 1 月 10 发布了一个小产品,在 TiDB Cloud 上面发布了基于 AIGC 的智能数据探索功能 – Chat2Query。大家可以很容易看到自然语言秒内生成 SQL,然后通过 HTAP 这种技术,快速用行存列存混合的方式返回一个要查询的结果。当资源不够的时候,会通过 Serverless 自动扩展。
Serverless+ HTAP + AI,这三种技术在今天也有一个共同的承诺或者说特点——在秒级别去反馈人类的需求,秒级别把你说的话变成 SQL、秒级别做复杂查询、当资源不够时再秒级地做用户无感的云资源调用。
过去十年,很多互联网公司、大型企业数字化讲上云,但本质上是做两件事,第一件事是买云端资源,用户采用租用的模式,付费方式并不是因为某个特定 Query 的查询来付费。过去十年云计算市场形成了通过互联网的方式提供资源租用的形态,但这个形态大家已经进入到同质化的阶段。向上延伸就是把云 1.0 的底座夯实。
夯实算力基础,不管是 CPU 还是 GPU 都是非常重要的。大模型训练也是靠这个,OpenAI 训练的背后很大程度上也是靠微软的云。今天亚马逊云,阿里云也都快速跟进,因为这对云厂商来说绝对是一个机会。
OSCHINA:未来的关键塑造因素在哪?数据库技术可能的服务场景是什么样的?
刘松:
如果说过去的十几年亚马逊在全球靠基础设施的创新,包含软硬件的创新领先。那么往下五到十年,云 2.0 的最大舞台依赖三个关键塑造因素,一个是云自己的云原生,二是数据技术,第三个是 AI 变成一种类似基础服务?当然还有另外一点是,新的大模型和数据库技术能不能在 B 端融合创造出更多新场景,这也是大家非常关注的话题。
云端的 AI 和数据库的融合可能是发生在 B 端。我们现在用 GPT 类产品主要还是普通人在一个公共广场上解决一些科普性的问题,而且大部分是非结构化数据。但是我们试想一下,一个企业的 CEO,他非常关注的话题,GPT 类产品是不能直接解决的,比如说我希望让我的企业的下个月人才提效指标 10% 应该从哪些部门入手?
对于这个问题,一方面需要企业内部的数据库里有大量的专业应用的模型和算法,另一方面还要比对外界的同行、考虑经济环境是怎么样的。所以我们设想一下,假如我们列一个 CEO 的 100 个常见问题。那么未来五到十年,能不能通过自然语言的方式询问?通过 AI 和数据库结合,包括大模型,内外部数据的结合,给到 CEO 这些问题,这个是我们可以憧憬的一个地方。
OSCHINA:数据技术和 AI 技术发展的不同在哪?
刘松:
数据库行业是四世同堂,到今天,你还是可以在云端,比如说 AWS 上买到 Oracle 的数据库服务,无论是之后的开源 MySQL、Redis,还是我们的分布式数据库 NewSQL 像 TiDB 这样的数据库云都有市场。数据库相对来说格局更清晰,四世同堂,每一个都能尽量寻找自己的价值和体验。价值就是你能不能以更好、更快的方式兑现数据价值,体验是指在云端的数据库体验会不会更好。
在数据库领域,数据库领域的多种技术都有存在的意义,另外一方面反过来说,没有一种新技术能够完全替代原来所有的技术。
但 AI 技术正好相反,AI 技术的属性是弑父。新的技术只要一出来,原有的技术,不管是爷爷还是父亲全部都没有意义了,这个就是从 GPT 对于 NLP 的颠覆就能够看出来,这思路就完全变了。那下一代出来的东西很有可能也会把当前的 GPT 模式完全杀掉。这方面看大模型类的AI 应用确实风险等大,但机会也会更大。
我觉得 AI 相关的大模型或者应用生存的关键在于专业门槛,未来无非就是向上和向下两个方向发展。一个是底层技术的先进性,比如大模型本身的先进性,这个大家都看得到。然后 AI 技术向场景延伸时,有两个地方必须闭环,形成门槛:一个是专业领域的数据,比如医疗、汽车等领域,如果大模型能访问到其数据,在这个领域里就会更强;还有向上应用的创建性,面向用户的,可以想象,未来无论是人力资源管理还是所有的客服体系、数字营销、新一代的 BI,广义上的新一代搜索等等,这些可能都会被 GPT 这样的智能技术重新做一遍。
那么重复的门槛在哪里?一个是模型本身,一个就是专业数据的提炼和学习能力,还有一个就是应用构建的友好度,或者说是体验。即 AI 在垂直行业的体验加上价值,在这个基础上,AI 可能要比数据技术面临更大的或然性和挑战。
OSCHINA:PingCAP 现在对未来是什么看法,采取了哪些行动?
刘松:
我们现在有一个新的信念,认为 AI 和数据融合会对于企业用户产生巨大的、全方位的价值。
有三个层次,第一个层次是用户最容易见到的,像 Chat2Query 里做的,就是自然语言代替了 SQL,成为主要的查询语句。在用户想要获取一些洞察及服务的时候,比如一个快递小哥、外送小哥、或者每个消费者去查询你的商品、外卖到哪里了的行为,其实是一种数据消费。如果这样的查询都用自然语言来解决,整个数据库的使用人数和频次可能会大 100 倍、1000 倍,甚至更大。反过来,这对数据技术与 AI 技术的融合带来了更高的要求。
第二个层次,以数据库技术的处理和查询优化为例,这几年数据库技术领域主要有两个流派,一个是 AI For DB,一个是 DB For AI。简单来说,一个是数据库的“自动驾驶”,维护可以用机器学习去优化,这样就不用花太多人力成本,尤其是在云端。另外一个是查询的优化,包括性能的调优,这是数据库领域老大难的问题,现在可以通过 GPT 和相关的 AI 技术来解决。那么这些数据运维,以及数据架构师的工作量就大幅降低了,任何一个项目都会以比之前更快的速度迭代。
最后一层对于数据库技术本身的要求,当 AI 变成每个人通用的、用来做查询和获取洞察的工具的时候,中间有一些工程调优,包括对算法的调用等等,那么数据技术到底应该以什么方式来组织?
我们认为,可能传统数据库的未来会变成一种在线数据服务的形态——Online Data Service,这是广义的,还不是简单的数据库变成了服务。这也是 PingCAP 在过去几年一直在演进的。
我想我们最大的变化是从一个更多地服务互联网场景的分布式数据库,变成了一个以云端为主的数据服务厂商,这是一个广泛意义上的数据服务,不管是交易还是查询都有,我们现在也是一个开放式的架构。
所以我想总结一下,这一波 AI 变成了一个新一代的 GUI,会增加千倍万倍的使用数据的用户。首先对于数据库的所有的从业人员,AI 是提升性能调优和各种项目工程进度的巨大助力。另外在现在这种数据服务这种形态,可能更能够和 AI 做很好地结合。这也回到我刚刚讲的小例子,关于 Chat2Query,用户用秒级自然语言提问的问题,变成 Query,再到通过 HTAP 技术来实现查询,这其实就是一个数据服务,然后很快给用户反馈结果、带来一个决策,那这个闭环是在秒级。这就是我们认为未来,AI 和数据技术在云端,三者形成了一个全新的、组合式的创新,变成了一种新的数据服务形态。
“数据与数据库技术” 分论坛将在 5 月 28 日与大家见面,届时多位数据与数据库技术领域大咖将到现场分享自己项目经验,欢迎感兴趣的小伙伴点击下文链接,报名参会!
参会报名,请访问: https://www.bagevent.com/event/8387611
全球开源技术峰会(Global Open-source Technology Conference),简称 GOTC,是由开放原子开源基金会、上海浦东软件园、Linux 基金会亚太区和开源中国联合发起的,面向全球开发者的一场盛大开源技术盛宴。 5 月 27 日至 28 日,GOTC 2023 将于上海举办为期 2 天的开源行业盛会。大会将以行业展览、主题发言、专题论坛、开源市集的形式展现,与会者将一起探讨元宇宙、3D 与游戏、eBPF、Web3.0、区块链等热门技术主题,以及开源社区、AIGC、汽车软件、AI 编程、开源教育培训、云原生等热门话题,探讨开源未来,助力开源发展。
GOTC 2023 报名通道现已开启,诚邀全球各技术领域开源爱好者共襄盛举!
进入官网了解更多信息,请访问: https://gotc.oschina.net/