OSC 请你来轰趴啦！1028 苏州源创会，一起寻宝 AI 时代

一、前言：

目前，大模型的一个热门应用方向text2sql它可以帮助用户快速生成想要查询的SQL语句。那对于用户来说，大部分简单的sql都是正确的，但对于一些复杂逻辑来说，需要用户在产出SQL的基础上进行简单修改，Text2SQL应用主要还是帮助用户去解决开发时间，减少开发成本。

Text to SQL：简称Text2SQl，是将自然语言文本（Text）转换成结构化查询语言SQL的过程，属于自然语言处理-语义分析（Semantic Parsing）领域中的子任务。

它的目的可以简单概括为：“打破人与结构化数据之间的壁垒”，即普通用户可以通过自然语言描述完成复杂数据库的查询工作，得到想要的结果。

二、背景应用：

目前大家对T2S的做法大致分为两种，

一种是用现有的大模型来直接生成，例如ChatGPT、GPT-4模型，但是对于一些公司来说，数据是属于保密资产，这种方式相当于将自己公司的数据信息透漏给大模型，属于数据泄露行为；
另一种方式是利用开源的大模型做finetune，比如chatglm2-6b来做微调，这个也是目前我们在做的，同时开源的数据集也有很多，简单罗列如下：

数据集	数据集介绍
WikiSQL	WikiSQL是一个大型的语义解析数据集，由80,654个自然语句表述和24,241张表格的sql标注构成。 WikiSQL中每一个问句的查询范围仅限于同一张表，不包含排序、分组、子查询等复杂操作。虽然数据规模大，SQL语法却非常简单；适合做NL2SQL任务入门。
Spider	耶鲁大学在2018年新提出的一个大规模的NL2SQL（Text-to-SQL）数据集。该数据集包含了10,181条自然语言问句、分布在200个独立数据库中的5,693条SQL，内容覆盖了138个不同的领域。涉及的SQL语法最全面，是目前难度最大的NL2SQL数据集。
Cspider	CSpider是Spider的中文版，西湖大学出品。
Sparc	耶鲁大学在2019年提出的基于对话的Text-to-SQL数据集。 SParC是一个跨域上下文语义分析的数据集，是Spider任务的上下文交互版本。SParC由4298个对话（12k+个单独的问题，每个对话平均4-5个子问题，由14个耶鲁学生标注）组成，这些问题通过用户与138个领域的200个复杂数据库进行交互获得。
CHASE	微软亚研院和北航、西安交大联合提出的首个大规模上下文依赖的Text-to-SQL中文数据集。内容分为CHASE-C和CHASE-T两部分，CHASE-C从头标注实现，CHASE-T将Sparc从英文翻译为中；相比以往数据集，CHASE大幅增加了hard类型的数据规模，减少了上下文独立样本的数据量，弥补了Text2SQL多轮交互任务中文数据集的空白。