一、文件的基础知识
无论何种类型的文件,在内存或磁盘上最终都是以二进制编码存储的。根据逻辑上编码的不同,可以区分为文本文件和二进制文件。
文本文件基于字符编码,如ASCII码、Unicode编码等。文本文件存储的是普通字符串,能够用记事本等文本编辑器直接显示字符、进行编辑。
二进制文件是基于值编码的,以字节串的形式存储,其编码长度根据值的大小长度可变。通常在文件的头部相关属性中定义表示值的编码长度。二进制文件不能用文本编辑器显示或编辑,如声音、图像等文件。
1.打开一个文件:
格式:open(name[, mode [, buffering]])
说明:
name是唯一必须提供的参数,即为文件名。
mode和buffering是可选参数,在后面小节对其详细说明。
调用open函数之后,将得到一个文件对象。
2.Python中的文件对象有三种常用属性:
closed属性用于判断文件是否关闭,若文件处于打开状态,则返回False;
mode属性返回文件的打开模式;
name属性返回文件的名称。
在文件读写完毕之后,要注意使用f.close()方法关闭文件,以把缓存区的数据写入磁盘,释放内存资源供其他程序使用。
二、典型数据文件的读写
1、文本文件
open()函数在’r+’、‘w’、‘w+’、 ‘a’和’a+‘等模式下打开文件后,可返回一个文本文件对象,在此基础上可以往文本文件写入数据。文件对象内置读写数据的方法write()、writelines()
open()函数在’r’、‘r+’、’w+’和’a+’等模式打开文件后,可返回一个文本文件对象,在此基础上实现对文本文件的读取。文件对象内置读取数据的方法有read()、readline()、readlines()
2、二进制文件的写入有两种常用的方法。
一种是通过struct.Struct对象的pack方法将数据转换为二进制的字节串,然后用文件的write()方法写入文件。
基本步骤如下:
导入struct包;
创建struct.Struct对象;
利用struct.Struct对象的pack方法将数据转换为二进制的字节串;
用文件的write()方法将二进制的字节串写入准备好的文件对象。
另一种是用pickle模块的dump方法将数据转换为二进制的字节串并直接写入文件。
根据写入时的方法,二进制文件的读取也有两种常用的方法。
1.针对通过struct.Struct对象的pack()方法将数据转换为二进制的字节串,然后用文件的write()方法写入的文件,首先打开文件,读取文件内容,然后利用struct.unpack将字节串转换为原对象。
2.针对用pickle模块的dump()方法将数据转换为二进制的字节串并写入的文件,利用pickle.load()每次读取一个对象的内容,并自动转换为相应的对象。
三、文件指针的移动
建立文件对象f之后,可通过调用其内置方法f.seek(offset[,where])移动指针的位置,进而实现文件数据的灵活读写。
where定义了指针位置的参照点
缺省时默认值为0,即文件头位置;
若取值为1,则参照点为当前指针位置;
若取值为2,则参照点为文件尾。
offset参数定义了指针相对于参照点where的偏移量,取整数值
如果取正值,则往文件尾方向移动;
如果取负值,则往文件头方向移动。
在文本文件中,如果没有使用“b”模式选项打开文件,从文件尾开始计算相对位置时就会引发异常。因此,如果需要从文本文件的文件尾这个相对位置来计算指针的偏移量,需要使用“b”模式打开文本文件。
对指针位置重新定位时,指针可以往后移至任意位置,但不可移至文件头之前。
指针位置的计算都是以字节为单位。