AI
一:过去一年/几年,你所关注的开源与技术领域发生了哪些重大变化?
王家军:
人工智能训练数据领域,近几年来,计算机视觉、NLP 等领域的模型训练似乎已经达到了一定成熟度,然而多模态、跨模态等新名词的出现,为这些领域带来了新的挑战。但是随着ChatGPT惊艳亮相,大型模型成为了热门话题,仿佛解开了AI模型的禁锢,完全觉醒了。
这样的发展背后有着不可忽视的开源力量推动大规模创新。而近期,谷歌内部一名员工泄露的文件中称:由于开源技术的迅猛扩张,谷歌已经失去了技术壁垒,同时,“OpenAI 也面临同样的问题”。在开源发展的大潮中,商业企业开始反思如何在这个新的格局下找到自己的竞争优势。
在这个新范式下,技术领域涌现出越来越多的开源大模型,例如 LLaMA、Alpaca、Vicuna、Koala 等大语言模型,以及 Meta 最近发布的 SAM 图像分割大模型。过去,识别类模型通常针对特定目标进行训练,识别能力有限。然而,在当前的大模型时代,模型已经具备了“分割一切”的能力,呈现出类似 AGI 的特征。得益于开源的力量,任何人都可以使用、训练、甚至发展这些模型。
尽管大模型具有强大的能力,但并非万能。我们看到,以 GPT4 为代表的大模型在各种人类专业资格考试中取得高分,人们开始借助大模型进行文艺创作,甚至制定经济决策。然而在更专业的领域,仍然需要传统的训练方法来构建专业化的模型。比如医学领域和自动驾驶等细分市场,对数据质量的要求较高,不允许 AI 给出“看似合理”的解决方案。
因此,面对开源社区的迅速发展,商业企业的竞争壁垒仍然存在于数据、算法和算力。高质量的数据是企业最有价值的资产之一,而优秀的算法以及足够的算力则决定了进行大规模训练的可能性。在这个不断变化的领域,商业企业需要紧密关注开源社区的动态,与之合作共赢,同时不断创新,以保持自身的竞争优势。
王闻宇:
AIGC 领域,过去几年,LLM 大语言模型领域,越来越多的公司和组织开始开源他们的 LLM 模型,以便更多的人可以使用和改进这些模型。例如,OpenAI 的 GPT-3 模型,Google 的 Switch Transformer,Facebook 的 BERT/RoBERTa,斯坦福大学的 Alpaca,中国也有清华系的 ChatGLM, 复旦系也有 MOSS。
同时,在 AIGC 图片生成领域,越来越多的公司和组织开始开源他们的 AIGC 模型,如 Stability AI 的 Stable Diffusion, OpenAI 的 DALL-E 模型,以及 DeepMind 的 GQN 等。
王志涛:
区块链+AIGC领域,区块链技术与 AI 技术正在进一步融合,从而带来了一些新的变化,包括对传统知识产权规则的挑战、数字资产的崛起、商业智能型互联网平台的快速发展,等等。以 ChatGPT 为代表的 AIGC 模式的重大突破,将与区块链技术产生更多更深刻的化学反应,很多行业将被结构性重组。AIGC 的革命性发展,将带来前所未有的创新知识产权的快速增长,另一方面,对这些知识产权的保护和确权也带来了大量的挑战。一定程度上,区块链技术则将扮演“解决方案”的角色。作为知识产权聚合运营的一种创新模式,专利池也将成为“解决方案”的一个重要组成部分。专利池的构建与运营以及其带来的许可交易将影响多个层面的市场竞合关系。IPwe 创造性地颠覆了传统专利池的商业模式,其“智能专利池”旨在推动新兴技术的大规模采用,并在短短1年时间内将“区块链专利池”和“元宇宙专利池”的会员数量发展到了 1200 多家,覆盖全球 50 多个国家和地区,证明了其新一代专利池的市场需求和生命力。更多围绕数字化创新技术的专利池将陆续诞生,并将快速发展为全球性的、开放的许可市场,围绕研发能力和创新市场的竞争将进入一个新的历史阶段。
庄表伟:
http://zhuangbiaowei.github.io/thinking/it/2023/02/11/how-to-evaluate-a-new-technology-like-chatgpt.html)中,我写道:ChatGPT 的出现,是一个远比 Docker 的出现重要的事件。也许是“新工业革命”级别的信号!下一个节点,也许就是 AI 能够找到方法:自我训练,自我调优,自行进化。 由于 GPT 4,甚至 GPT 5 也并非 AI 技术发展的天花板,
因此在未来的 5~10 年,我们需要非常非常关注这个领域,其他所有的技术领域的重要性,都必须往后排了。
二:预测该领域将会有什么样的发展趋势?
王家军:
在第一个问题所说的背景下,细分领域会对模型有着更高的要求,预测将会在各行各业以大模型作为基础,训练出不同领域的小模型,来产出更精确、更可靠的工作成果。而在这个过程中,高质量数据仍然是优质模型的关键,这就要求 MLOps 数据相关软件提供完整的 Data Pipeline,以维持模型对新环境的适应能力。
第二点,从数据训练的角度来说,模型也将更普遍地应用到训练过程中。拿其中的图像+点云融合数据标注来举例,曾经可能每分钟可以完成 20 个立方体框的标注,而像 Xtreme1 这样的开源平台结合模型的能力,甚至可以完成数百个框的建立,极大地提高了训练效率。
第三点,如今模型的迅速发展可能即将淘汰基础的数据标注。举个例子,为了实现更好的聊天效果,ChatGPT 雇佣了大量的 Al Trainers 来进行有监督的模型训练,公开的 InstructGPT 雇佣了 40 个工人,其中 80% 具有本科以上学历。在未来,标注猫猫狗狗的“标注员”也将逐渐被标注癌症、肿瘤等更专业数据的“AI /模型训练师”所取代。这样的背景下,标注工具除了需要具有灵活的模型对接、可视化、高效的交互能力,还需要有精细化的编辑能力,从而可以向模型反馈最准确的正负信息。
人类文明的发展就是一个不断自我进化的过程,每一次工业革命都会带来新的技术,以提升各行各业的生产效率,这必然会导致陈旧生产工艺的淘汰,老的职业消失,新的职业兴起。对于 AI 来讲,也是类似,我们见证了 AI 的快速发展,在某些领域已经实现了接近甚至超越人类的能力。无论是 AI 从业者,还是传统行业的人们,都需要保持不断的学习,不同于以前的学习,这里的学习新增加了如何让 AI 为我所用,因为 AI 现在已然成为了一种新的生产工具。
张健:
大语言模型领域,因为达观数据所在的文本智能处理赛道恰恰就是当前大语言模型所在的赛道,所以我们很早就非常关注大模型技术的演进和发展。在我们看来大语言模型是一个划时代的技术,是需要全力投入的一件事情。所以在今年上半年,我们在北京、上海、成都联合中国人工智能学会、上海人工智能技术协会、数据科学重点实验室等权威组织开展了多次围绕AI生成和大语言模型的专题研讨会。研讨会上就宣布了达观在自研国产、垂直、专用的大模型—曹植。
我觉得大模型从根本上解决了很多困扰已久的难题,能够让自然语言处理领域焕然一新。目前的市场确实很热,我们对此的响应速度也是比较快的,应该在国内的创业公司中是第一批宣布自研大模型。虽然现在百度发布了文心一言,但我认为整体来说在中国的市场才刚开始,国内要真正研发出非常优秀的可用的系统,还是需要摸索一段时间的。
达观数据积极研发国产版GPT“曹植”大语言模型LLM系统,作为垂直、专用、自主可控的国产版ChatGPT模型,该系统结合先进的自然语言处理(NLP)、智能文档处理(IDP)、光学字符识别(OCR)、机器人流程自动化(RPA)、知识图谱等技术,为大型企业和政府机构提供文档智能审阅、文档智能写作、知识搜索与问答、办公流程自动化等智能文本机器人产品。达观数据通过持续投入研发和创新,不断提升产品和服务的质量与效率,为金融企业提供更好的文本智能化解决方案,让计算机协助人工完成业务流程自动化,大幅度提高企业效率与智能化水平。
“垂直”:针对金融等垂直行业来开发特定应用
“专用”:系统可以为每个客户量身定制、私有化部署,确保数据安全私密
“国产”:坚持原创自主,训练数据和算法模型自主可控
作为垂直、专用、自主可控的国产版ChatGPT模型,不仅能实现专业领域的AIGC智能化应用,且可内置在客户各类业务系统中提供专用服务,目前已获得重要技术突破,以大量通用数据和领域数据自监督训练的LLM为基座模型,通过大量通用任务数据和领域任务数据进行Prompt Learning微调,在垂直领域内的理解和生成的任务上都达到了很好的效果。
王志涛:
区块链 + AI + web3.0 领域,无形资产已经崛起并正在进一步崛起成为企业的主要资产类别,在产品市场、技术市场和创新市场三个市场并存的格局中,技术市场和创新市场的比重将显著提高,企业家将不得不更加重视无形资产。无形资产的布局、运用以及对于无形资产的智能管理,将成为企业家的一门必修课。
与此相关,国际会计准则也将不得不做出修改,以适应时代的发展和真实世界的企业资产结构变化。
王闻宇:
三:开源或你所关注的技术领域当前亟待解决的问题是什么?whatever.
王家军:
人工智能训练数据方面,目前急需解决的问题我认为还是安全问题。就在 4 月,三星员工由于使用 ChatGPT 优化代码、整理会议纪要,企业敏感信息遭到了泄漏。隐私泄漏长久以来一直是专家们关心的话题,也正是因为安全问题,意大利数据监管机构禁止了 ChatGPT 的使用,成为了第一个禁止 AI 聊天机器人的欧洲国家。在使用开源 AI 大模型时,公众很容易在无意识中泄露个人或商业隐私信息。当信息交由大模型处理时,数据很可能在背后被吞没,成为模式匹配或其他复杂计算的基础材料。然而,现有的监管法律条款并未跟上技术的快速发展,使得用户与大模型之间的隐私边界依然模糊不清。高速发展且公开的大模型也可能存在许多潜在的漏洞,进而使用户在交互过程中的隐私面临泄露或遭受恶意攻击的风险。此外,开源软件的普及使得恶意软件和攻击者更易于利用其中的漏洞。例如勒索软件和 DDoS 等已成为常见的网络威胁。因此,开源社区亟需加强安全审计,防范类似事件的发生。为应对数据安全问题,从源头出发,首先要在开发过程中从一开始就将安全视为核心考虑因素。实施 SDLC 等方法,确保在需求分析、设计、编码、测试和部署等各个阶段都充分考虑安全因素。同时,可积极鼓励用户和安全研究人员报告潜在的安全漏洞,并推广漏洞奖励计划,以提升整体安全防护能力。
王闻宇:
AIGC 领域,随着 LLM 的不断发展,模型的规模和复杂度不断增加,但是这也会导致模型的性能下降。因此,如何平衡模型的大小和性能是当前亟待解决的问题之一。另一个问题是如何提高 LLM 的可解释性。由于 LLM 的复杂性,很难理解它们如何做出决策。因此,如何提高 LLM 的可解释性也是一个重要的问题。
https://www.bagevent.com/event/8387611
报名通道现已开启,诚邀全球各技术领域开源爱好者共襄盛举!
https://gotc.oschina.net/