高春辉、王春生、朱峰：关于开源创业的15件小事

作者 | 搜索技术平台

导读

本文为搜索展现层相关技术，主线会先通过介绍搜索阿拉丁的产品形态，让读者初步了解什么是阿拉丁，及相关展现概念。之后会聚焦场景化产品，场景化是搜索构建沉浸式完美体验（重新组合整页阿拉丁和自然结果）的方案之一，相关检索技术繁多，不能完全覆盖到，本文主要介绍下背后的开发框架支撑 tanGo，会详细介绍下建设过程中的思考、遇到的问题及对应的解决方案。希望读者读完本文，有所收获。

全文4412字，预计阅读时间12分钟。

01 相关背景介绍

了解下什么是阿拉丁，阿拉丁是百度搜索推出的垂直化产品，用户使用搜索的过程中，提到的如百科、天气、POI、影视、体育、股票、汉语、翻译等等 Query 需求（如下示例了部分产品），都在不同程度的召回阿拉丁产品。

上面是搜索对单需求，需求簇（相同需求的多个单结果聚合）的满足样式，对于更复杂的场景，如高考、奥运会等大事件场景，搜索需要能进行场景的识别，进而召回不同的需求簇。

另技术上垂类部分业务也在做 PHP 迁移 Go，在这样的产品和技术背景下，搜索产研团队孵化设计了 tanGo 业务框架，下面会从需求分析->业务抽象->整体设计及核心能力点抽象逻辑等方面展开，介绍下整个框架建设和应用过程中遇到的一些问题和思考。在此之前集团、搜索也已经积累了一些比较成熟的基础网络框架、 lib （含 cgo）资产，基于这些基础，在实际落地的过程中，也提升了很多效率。一个业务框架，要回答好：为什么做？（解决业务问题）怎么做？（设计、落地）怎么衡量？（指标建设），下面讲下具体实践。

02 需求分析

下面从搜索概念上，理解下场景化产品需要满足的不同场景：

1、单结果：召回1条结果，搜索召回的基本单元。比如：资源型召回。查影视、小说等；计算型召回。日历、计算器等。

2、需求簇：相同需求的多个单结果聚合。比如：人物示例『刘德华』里面的百科、人物关系、作品。

3、需求组：多个需求簇的集合。比如：大事件场景高考（主会场、高考日程、批次线、真题、一分一段），每个都是独立的需求簇需求，其他奥运会等大场景都是。

4、结果页：query 对应的整体返回结果。可能包含多需求，即会多个需求组。（例如q=三亚旅游，即包含旅游需求，也包含金融需求）。

03 tanGo设计思路与实践

3.1 业务抽象

3.1.1 场景化产品抽象

从展现技术上看，需求簇和需求组均为单结果的集合，纬度粒度不同，整体将检索请求处理过程，抽象为基础的几个阶段，对各阶段实体化抽象。

1、资源：召回摘要的表示单位，这里的资源可能是从各种检索引擎或者数据库检索出的摘要

资源实体抽象：前置策略（资源），检索解析（资源），检索召回，数据映射

2、卡片：检索展现的最小单位。完成资源调度召回，组装摘要到前端模板的映射

卡片实体抽象：前置策略（卡），检索解析（卡），资源召回调度（负责卡片下的资源列表的图化调度），前端模板组装

3、场景：检索需要依据 query 解析识别出要展示的子场景，完成不同的需求组的召回

调度层：请求级
场景实体抽象：请求前置策略，Q 解析场景计算，卡片调度（负责执行需求簇下卡片集合图化调度），召回后置策略，组织回包

3.1.2 框架建设技术思路

业务流程处理标准化，处理流程核心考虑点

1、协议转换

支持http/nshead等多种协议
支持pb/json等多种数据协议转换
考虑同步、异步检索，能力覆盖结果页、异步情景页、小程序、独立站等开发场景

2、配置化：考虑运维成本，检索请求配置化，可视化

3、组件化，算子化：方便后续共建

4、图化资源调度：卡片调度、资源调度

建立标准化组件共建机制

1、定义标准化数据、检索、策略组件接口

2、组件贡献机制

建立标准化类库共建机制

1、标准 Lib 贡献标准。比如：抽样、DAG、Trace、算法、字符串、协议转换、加减密等等

2、标准 Lib 索引页

其他关键点

1、开发阶段：一键生成、可视化编程、用户手册提升研发效率

2、测试阶段：编译加速、QATest、0级拦截等保障交付

3、上线后：监控体系配套：建设普罗米修斯，业务、下游、检索调度等面板

3.1.3 衡量指标

规模：

应用规模，团队覆盖面

效率：

新项目创建成本
新产品交付周期
新人培养学习成本
通用组件、Lib的数量，及组件沉淀带来的代码行数节约
团队效率，团队交付效率的提升反馈

用户满意度：

NPS，定期的用户满意度反馈

3.2 框架技术框图

基于前面对业务场景的抽象和技术抽象，构建了如下框架建设框图。主要核心点：

1、易用性：端到端打造工具链

2、框架分层结构：业务流程、组件、Lib

3、业务流程：同步检索、异步检索、数据处理

3.3 核心点设计

3.3.1 检索流程设计

设计目标：

一套标准处理流程，抽象检索各阶段

请求级处理
卡片级处理
资源级处理

上图是检索请求的处理过程，各阶段以组件形式组织，组件为架构和业务同学共同开发，不同类型组件在检索的各个的阶段会被调度，业务同学可专注领域组件的研发，其他协议的封装转换框架研发统一提供和对接。

3.3.2 配置化设计

设计目标：

检索过程需在一份配置即可描述
控制学习成本，语法必须简洁、简单

关键技术点：

流程拓扑抽象：三层拓扑（策略、卡片、资源）
组件管理：实现对组件的生命周期的管理和同时对 gc 友好，使用了go反射、对象池等原生能力
配置热加载：实现配置的动态更新

上图是对不同阶段组件配置化的具体化示例，配置化带来的优点：检索过程透明可见；运维成本可控；学习和接受成本低。

3.3.3 资源调度设计

从前面介绍到的场景化处理流程、配置化中可见，在场景计算过程中的卡片调度，卡片处理过程中的资源调度，都用到了串并行拓扑调度，因为需要为框架设计一套简易 DAG 执行引擎。

设计目标：

1、基于 DAG ，设计一套简易语法规则，实现资源调度引擎

2、可以对程序异常、超时等进行捕获和错误信息记录

关键技术点：

1、设计一套简易满足需求的DAG规则语法

基础的流程控制：串行、并行、条件控制语法
异常控制：程序异常、超时等捕获处理
语法简单，上手成本低

2、DAG调度引擎：基于配置的DAG规则执行图谱调度

从图上，可以看到检索请求的处理过程中，会根据用户场景的需求识别，进行着场景、卡片的图化调度，以实现用户对复杂需求的召回响应，组件之间通过上下文串联通信。

3.3.4 共建机制打造

检索流程设计时，考虑框架的可持续性和可扩展性，提取抽象出了组件的概念，上面检索流程处理里面，在不同的阶段调度着各种处理组件响应检索，包含请求级、卡片级、资源级，这些都是可扩展的调度阶段。

整体思路，如图拆分为2类组件，架构和业务共同建设，最大程度的实现可复用、且业务可扩展。

1、架构组件，通用场景，架构统一抽象，最大化垂类之间可复用

2、业务组件，业务根据自己的业务场景自定义的组件

3.3.5 易用性打造

完成了框架的建设后，面临怎么做才能更贴近业务，怎么才能更易用？下面是在易用性方向的建设。

易用性是落地和规模化非常重要的一步，需要站在一线研发视角，端到端看交付全流程问题，然后针对各阶段的问题，配套建设工具链，提高运行效率。

上图是研发不同的阶段，框架团队提供的部分支持，一方面是保障接入、开发效率，同时也积极的例行收集反馈，以更好的改进完善。

04 结论以及展望

本文从介绍搜索阿拉丁产品形态开始，延伸出场景化，并基于搜索场景化产品特点，抽象了 tanGo 框架。接下来聚焦系统详细的分享了 tanGo 框架的技术设计思路与实践，并尽可能表达了其中的核心思考和核心设计点，篇幅不能覆盖所有的设计点，框架也仍然有缺点和不足，后续会持续的进行优化迭代。

后续，框架会更多聚焦产研“全流程”，通过完善框架的能力，对整个研发、测试阶段、上线后进行更全面的支持和覆盖，例如框架通过与代码托管服务的整合，在创建代码库阶段就提升易用性，编译发布标准化，框架与持续集成服务整合，提升上线后可测性等等能力，对研发全流程覆盖的更全面。

一个项目从需求构建到工程落地，再到应用及规模化，各个阶段，细节问题还是比较多的，大家如感兴趣搜索阿拉丁产品或者感兴趣搜索展现技术问题，可以留言交流。

目前『搜索产品研发工程师』岗位正在热招，主要为搜索产研后端，AI应用与架构方向工作。

欢迎有兴趣的同学投递简历至yangye01@baidu.com

——END——

推荐阅读

初识搜索：百度搜索产品经理的第一课

智能问答技术在百度搜索中的应用

通过Python脚本支持OC代码重构实践（一）：模块调用关系分析

CVPR2023优秀论文 | AIGC伪造图像鉴别算法泛化性缺失问题分析

一文搞定专属码的设计与开发

浅谈搜索展现层场景化技术-tanGo实践

01 相关背景介绍

02 需求分析

03 tanGo设计思路与实践

3.1 业务抽象

3.1.1 场景化产品抽象

3.1.2 框架建设技术思路

3.1.3 衡量指标

3.2 框架技术框图

3.3 核心点设计

3.3.1 检索流程设计

3.3.2 配置化设计

3.3.3 资源调度设计

3.3.4 共建机制打造

3.3.5 易用性打造

04 结论以及展望

服务器托管，北京服务器托管，服务器租用，机房机柜带宽租用