postgresql 基础架构
专栏内容:
- postgresql内核源码分析
- 手写数据库toadb
- 并发编程
开源贡献:
- toadb开源库
个人主页:我的主页
管理社区:开源数据库
座右铭:天行健,君子以自强不息;地势坤,君子以厚德载物.
系列文章
- 入门准备
- postgrersql基础架构
- 快速使用
- 初始化集群
- 数据库服务管理
- psql客户端使用
前言
postgresql 数据库是一款通用的关系型数据,在开源数据库中能与商业数据媲美,在业界也越来越流行。
因为是开源数据库,不仅公开源码,还有很多使用案例,好用的插件,所以它的慢慢变成了数据库的先驱和标准,通过postgresql可以很好从使用到原理,彻底搞懂;
如果是学习编程,也可以学到丰富的编程知识,数据结构,编程技巧,它里面还有很多精妙的架构设计,分层思想,可以灵活定制的思想。
本专栏主要介绍postgresql 入门使用,数据库维护管理,通过这些使用来了解数据库原理,慢慢了解postgresql是什么样的数据库,能做那些事情,以及如何做好服务,最关键的是这些知识都是面试的必备项。
概述
本文主要分享PostgreSQL的基础的架构,方便我们对对PostgreSQL的部件之间如何相互作用的理解将会使本节更易理解,在我们使用的时候,不至于与其它类型的数据库产生混淆;
这里我们会介绍两种视角下的架构,
- 一是运行架构,当postgresql运行起来时,它是如何提供服务的;
- 二是逻辑架构,用户创建的各数据库对象之间的关系是怎么样,如何进行组织;
运行架构
原理介绍
在postgresql数据库服务是一种C/S模式,运行之后,之前博客已经介绍过,后台会运行一个主进程,还有几个子进程,它们共同提供服务;
主进程提供网络监听,当客户端有连接到来时,主进程就会创建一个名称为postgres子进程,也叫做后端服务进程,它专门为这个客户端连接提供服务,此时客户端与后端服务进程之间直接通信;
也就是说,服务主进程会为每个客户端连接都创建一个后端服务进程;
客户端可以在不同的机器上,通过tcp/ip协议与服务端进行通讯;
当然客户端是多种多样的,可以是一个面向文本的工具, 也可以是一个图形界面的应用,或者是一个通过访问数据库来显示网页的网页服务器,或者是一个特制的数据库管理工具;
进程介绍
接着上一篇启动的数据库服务继续介绍,我们用psql连接了数据库之后,看看后台进程的变化:
[senllang@hatch bin]$ ps -ef|grep postgres
senllang 149106 1 0 Sep03 ? 00:00:00 /opt/postgres/bin/postgres -D testdemo1
senllang 149107 149106 0 Sep03 ? 00:00:00 postgres: logger
senllang 149108 149106 0 Sep03 ? 00:00:00 postgres: checkpointer
senllang 149109 149106 0 Sep03 ? 00:00:00 postgres: background writer
senllang 149111 149106 0 Sep03 ? 00:00:00 postgres: walwriter
senllang 149112 149106 0 Sep03 ? 00:00:00 postgres: autovacuum launcher
senllang 149113 149106 0 Sep03 ? 00:00:00 postgres: logical replication launcher
senllang 175300 175236 0 08:38 pts/8 00:00:00 ./psql -d postgres
senllang 175301 149106 0 08:38 ? 00:00:00 postgres: senllang postgres [local] idle
较刚启动时,多了两个进程,一个是 psql客户端进程,一个是服务端的子进程postgres,PID为 175301, 进程名称上会显示状态 idle, 当执行SQL时也会显示到这里。
如果有多个客户端连接时,这里就会有多个postgres后端服务进程;
逻辑架构
在使用数据库之前,我们有必要了解一下数据库中的各数据库对象之间的组织关系;
我们已经听说过的数据库里会有:database 数据库, table 表, tablespace 表空间,index 索引, 表字段,数据类型,存储过程,数据库用户,对角访问权限等等,一大堆的概念;
一开始,是不是可以创建表呢,是不可以的,它是有先后顺序的;
它们之间存在两种逻辑上的关联关系:
- 存储空间关系
- 命名空间关系
存储空间关系
存储空间关系是什么呢,简单理解就是,目录层次关系,大的是父目录,小的是子目录,先有前者,才可以有后者的存储位置;这是从磁盘存储的角度来看,各数据库对象之间的关系。
它们的前后顺序关系,或者是大小包含关系为
- 数据库集群目录 这是最大的,这个数据库服务对应的数据都存放在这个目录下面;
- tablespace 表空间,虽然叫做表空间,但是它目的是指定一个存储区域,刚初始化的集群,会有一个默认表空间,就在集群目录下,所有不指定表空间的数据库对象,都在默认表空间下;
- database 数据库,其实每个数据为也对应了一个目录,那么在这个库下的所有内容都存放在此目录下面; 数据库 这个词有多个理解,大的来讲,数据库服务有时也简称数据库,小的来讲,只是database这个数据库对象,这里我们指数据库对象中的database;
表空间这一层级,主要是为了方便扩展存储空间;
因为目录没有办法跨磁盘空间,当集群目录对应的磁盘空间不足时,要么更换更大磁盘,将数据拷过去,这样旧的磁盘又会浪费,而且磁盘空间总不可能无限大,所以要扩展空间的话,可以再建一个表空间,表空间指定存储的位置在新在磁盘空间即可;
我们创建的表,索引,视图,存储过程,都在database这一级下存储;
数据库登陆的用户,角色数据,是最大的数据库集群目录下存储,它是公共数据,只要grant了权限,所有database都可以使用;
对于数据类型,这些大多是系统默认的,还有一部分是用户自定义的,也属于公共数据,存储在集群目录一级;
命名空间关系
命名空间,有点类似于目录关系,但它是逻辑上的,并不像目录是物理存在的;逻辑命名空间的目的,主要是为了方便管理和组织这些数据库对象,在内部可以方便查找,对于用户来讲也可以进行分组管理,精细化的权限控制。
主要分为以下命名空间层次:
- tablespace 这是最大的一层,这与存储层次相同,用户不需要关心表空间,因为访问存在的数据库对象,它的表空间是确定的;如果需要创建时,需要指定,当然必须有对应表空间的使用权限才可以创建对象;
- database 处于第二层,也是登录时必须指定的空间层次,所有在用户登录后,就不需要指定;
- schema 处于第三层,一个database中,可以有多个schema,默认的schema名称为public,访问数据库对象时以 schema名称.数据库对象 的方式引用;
我们举例来说明,先创建一个目录,用来新建表空间
[senllang@hatch bin]$ mkdir tablespace_test1
新建表空间 tblspc_test1, 指定它的存储路径在刚才新建的目录下
postgres=# create tablespace tblspc_test1 location '/opt/postgres/bin/tablespace_test1';
CREATE TABLESPACE
新建一个schema test1
postgres=# create schema test1;
CREATE SCHEMA
设置当前的查找路径, 默认为public,现在设置为public和test1, 这样两个schema下的内容都可以看到
postgres=# set search_path TO 'public' ,'test1';
SET
postgres=# d
List of relations
Schema | Name | Type | Owner
--------+-----------+-------+----------
public | tbl_user | table | senllang
test1 | tbl_test1 | table | senllang
(2 rows)
可以看到 tbl_user 所属的schema为 public, 而test1所属的schema为 test1;
当我们有多个用户,多个应用数据时,它们又需要交互,在后面我们讲到用户和权限时,就可以看到它们真正的用途了。
总结
接触任何事务,都从第一眼看到了解开始,postgresql数据库的了解也是一样,我们可以看到它的服务启动后的进程组,了解它的进程关联;
数据库的数据存储组织的空间关系,有助于我们认识它内部的运行机制,在我们使用SQL进行数据操作时,有会用到命名空间的关系。
本文将从看到的开始,为后续继续学习做好基础,有兴趣的同学关注本专栏;
结尾
非常感谢大家的支持,在浏览的同时别忘了留下您宝贵的评论,如果觉得值得鼓励,请点赞,收藏,我会更加努力!
作者邮箱:study@senllang.onaliyun.com
如有错误或者疏漏欢迎指出,互相学习。
注:未经同意,不得转载!