Linux系统编程02：文件系统

前言

此篇文章为学习 Linux系统编程02：文件系统 部分的笔记

1. 文件存储

1.1 inode

inode 是 Linux 和 Unix 操作系统中的一个重要概念，它是文件系统中的一个 数据结构，用于存储文件的元数据。每个文件和目录都有一个对应的
inode 来描述其属性和位置信息。

root@freecho:/opt/C/gcc/code# stat hello.c
File: hello.c
Size: 373 Blocks: 8 IO Block: 4096 regular file
Device: b301h/45825d Inode: 1314593 Links: 1
Access: (0644/-rw-r--r--) Uid: ( 0/ root) Gid: ( 0/ root)
Access: 2023-07-26 21:29:11.655510006 +0800
Modify: 2023-07-26 21:29:11.655510006 +0800
Change: 2023-07-26 21:29:11.655510006 +0800
Birth: 2023-07-26 21:29:11.655510006 +0800

inode 结构包含了以下信息：不包含文件名

文件类型：标识文件是普通文件、目录、符号链接等类型。
文件权限：文件的读、写、执行权限。
文件所有者和所属组：标识文件的所有者和所属的用户组。
文件大小：文件的大小，以字节为单位。
文件时间戳：记录文件的创建时间、修改时间和访问时间等。
文件链接数：记录文件的硬链接数目。
数据块指针：指向文件存储数据的数据块。

当系统中创建一个新文件时，会为该文件分配一个唯一的 inode，然后将文件的实际数据存储在数据块中，并将 inode 中的数据块指针指向这些数据块。在文件被访问或修改时，通过inode 可以快速定位文件的数据块，而不需要遍历整个文件系统。

通过 ls -i 命令可以查看文件的 inode 号码。每个文件和目录在同一文件系统中具有唯一的 inode 号码。

inode 在文件系统的性能和管理中起着关键作用，它使得文件系统能够高效地管理文件和目录，并支持硬链接的使用。

1.2 dentry

dentry , （即 directory entry 目录项）是 Linux 文件系统中的一个重要概念，用于管理文件系统中的目录。

dentry 与inode 相关联，共同组成了 Linux 文件系统中的目录项。其本质依然是结构体，重要成员变量有两个 {文件名，inode，...}，而文件内容(data)保存在磁盘盘块中。

每个目录都包含一个或多个 dentry，每个 dentry 表示一个目录中的文件或子目录。

dentry 记录了文件或目录的名称、文件类型和对应的inode 号码等信息。当用户访问文件时，Linux 文件系统会通过 dentry 来快速定位文件的 inode，从而访问文件的实际数据。

在 Linux 文件系统中，dentry 会被缓存在内存中，以提高文件系统的性能。当用户访问文件时，系统首先会查找该文件对应的 dentry 是否已经缓存，如果已经缓存，则直接从dentry 中获取 inode 信息，避免了不必要的磁盘访问。

如果文件对应的 dentry 不在缓存中，系统会通过目录索引进行查找，并将找到的dentry 缓存起来，以便下次快速访问。

dentry 与目录层次结构一起形成了文件系统的层次结构，通过 dentry/可以在文件系统中快速定位文件和目录，提高了文件系统的访问效率和性能。同时，dentry 的缓存机制也减少了不必要的磁盘访问，提高了整个文件系统的效率。

1.3 文件系统

文件系统是一组规则，规定对文件的存储及读取的一般方法。文件系统在磁盘格式化过程中指定。
以下为常见文件系统：

FAT32（File Allocation Table 32）：FAT32是一种较旧的文件系统，广泛应用于可移动介质（如USB闪存驱动器、SD卡等）。它是Windows系统和其他操作系统的通用文件系统。
NTFS（New Technology File System）：NTFS是Windows操作系统中使用的主要文件系统。它支持大文件和文件系统，并提供更高级的权限控制和数据安全性。
exFAT（Extended File Allocation Table）：exFAT是FAT32文件系统的改进版本，特别设计用于支持更大的文件和分区。它通常在移动存储设备和外部驱动器中使用。
ext2（Second Extended File System）：ext2是Linux系统早期的文件系统，不具备日志功能。虽然现在很少使用，但仍然是一些老旧系统的选择。
ext3（Third Extended File System）：ext3是ext2文件系统的改进版本，具有日志记录功能，可提供更好的数据完整性和恢复能力。
ext4（Fourth Extended File
System）：ext4是Linux系统中目前最常用的文件系统，它是ext3文件系统的进一步改进，提供更高的性能和可靠性。ext4支持更大的文件和文件系统，并具备更高级的特性。

1.4 硬链接、软连接

硬链接 和 软链接 （又称软连接）是 Linux 文件系统中两种不同类型的链接方式，用于在文件系统中创建文件或目录之间的关联。

硬链接（Hard Link）：

硬链接是目录项（dentry）中指向相同 inode 号的不同目录项。
通过硬链接，多个文件名可以指向同一个数据块，实际上是同一个文件的不同访问入口。
硬链接创建后，可以像普通文件一样操作，读写内容，删除等，但是不能对目录进行硬链接。
硬链接不能跨文件系统创建，即硬链接必须位于同一个文件系统。

软链接（Symbolic Link / Soft Link）：

软链接是一个特殊的文件，它包含了指向另一个文件或目录的路径名。
软链接类似于 Windows 系统的快捷方式，它只是一个指向目标的快捷方式而已。
软链接可以跨文件系统创建，因为它只保存了目标文件或目录的路径名。
删除软链接并不会影响目标文件或目录，但如果目标文件或目录被删除，软链接将变为"断链"。

对比：

硬链接是多个目录项指向同一个 inode，它们是文件系统中同一个文件的不同名字，文件大小和权限都是相同的。
软链接是一个特殊的文件，它保存了指向目标文件或目录的路径名，它是目标文件或目录的"快捷方式"，不占用实际数据块。
注意事项：
删除硬链接或软链接并不会删除目标文件本身。
硬链接不能跨文件系统创建，而软链接可以。
示例：

$ echo "Hello, hard link!" > original.txt
$ ln original.txt hard_link.txt # 创建硬链接
$ ln -s original.txt soft_link.txt # 创建软链接
$ ls -l
-rw-r--r-- 2 user user 18 May 18 2023 hard_link.txt
lrwxrwxrwx 1 user user 13 May 18 2023 soft_link.txt -> original.txt
$ cat hard_link.txt # 输出："Hello, hard link!"
$ cat soft_link.txt # 输出："Hello, hard link!"
$ rm original.txt # 删除原始文件
$ cat hard_link.txt # 输出："Hello, hard link!"，硬链接仍然存在
$ cat soft_link.txt # 输出："cat: soft_link.txt: No such file or directory"，软链接断链

2. 文件操作

2.1 stat、lstat 函数

概念

stat和lstat函数都用于获取文件或目录的信息，但在处理符号链接时有所不同。

stat函数：

函数原型：int stat(const char *path, struct stat *buf);
描述：stat函数通过指定的文件路径获取文件信息，并将结果存储在struct stat类型的结构体buf中。如果path是一个符号链接，stat函数将会获取符号链接指向的文件的信息。
返回值：成功时返回0，失败时返回-1。

lstat函数：

函数原型：int lstat(const char *path, struct stat *buf);
描述：lstat函数与stat函数类似，也用于获取文件信息。不同之处在于，lstat函数不会跟随符号链接，而是获取符号链接本身的信息，而不是它所指向的文件的信息。
返回值：成功时返回0，失败时返回-1。
这两个函数对于获取文件的权限、大小、时间戳等信息非常有用，而在处理符号链接时，使用lstat函数可以避免不必要的问题。在编写程序时，需要根据具体需求选择使用stat函数还是lstat函数。

buf.st_size // 获取文件大小
buf.st_mode // 获取文件类型
buf.st_mode // 获取文件权限
符号穿透：stat 会 lstat 不会

代码

stat.c ：查看文件大小

#include
#include
#include
#include
#include
int main(int argc, char *argv[])
{
  struct stat sbuf;
  int ret = stat(argv[1], &sbuf);
  if (ret == -1)
  {
    perror("stat error");
    exit(1);
  }
  printf("file size: %ld\n", sbuf.st_size);
  return 0;
}

lstat.c ：查看文件属性

#include
#include
#include
#include
#include
int main(int argc, char *argv[])
{
  struct stat sbuf;
  int ret = lstat(argv[1], &sbuf);
  if (ret == -1)
  {
    perror("stat error");
    exit(1);
  }
  if (S_ISREG(sbuf.st_mode))
  {
    printf("It's a regular\n");
  }
  else if (S_ISDIR(sbuf.st_mode))
  {
    printf("It's a dir\n");
  }
  else if (S_ISFIFO(sbuf.st_mode))
  {
    printf("It's a pipe\n");
  }
  else if (S_ISLNK(sbuf.st_mode))
  {
    printf("It's a soft link\n");
  }
  return 0;
}

2.2 link、unlink 函数

概念

link函数和unlink函数用于创建硬链接和删除文件链接（硬链接或符号链接）。

link函数：
link函数用于创建硬链接。硬链接是指在文件系统中创建一个新的链接指向同一个文件，这个新链接和原文件具有相同的inode号和数据块，但是在目录中显示为一个新的文件名。它的原型为：

int link(const char *oldpath, const char *newpath);

参数说明：

oldpath：源文件路径名，即要创建硬链接的文件。
newpath：目标文件路径名，即新创建的硬链接的文件名。
返回值：
如果成功创建硬链接，返回0。
如果出现错误，返回-1，并设置errno来指示错误类型。

unlink函数：
unlink函数用于删除一个文件链接。如果删除的是硬链接，只会删除该链接，而不会删除原文件；如果删除的是符号链接，会删除链接指向的原文件。它的原型为：

cint unlink(const char *pathname);

参数说明：

pathname：要删除的文件路径名，可以是硬链接或符号链接。
返回值：
如果成功删除文件链接，返回0。
如果出现错误，返回-1，并设置errno来指示错误类型。

这两个函数在Linux系统编程中经常用于文件链接的创建和删除操作。

需要注意的是，link函数只能用于同一个文件系统内的文件，而不能跨文件系统创建硬链接。对于跨文件系统的文件链接，可以使用符号链接（符号链接是指在文件系统中创建一个新的文件，它指向另一个文件的路径）来实现。

思考：为什么目录项要游离于 inode 之外，画蛇添足般的将文件名单独存储呢？这样的存储方式有什么样的好处呢？

其目的是为了实现文件共享。

Linux 允许多个目录项共享一个 inode，即共享盘块(data)。不同文件名，在人类眼中将它理解成两个文件，但是在内核眼里是同一个文件。

link 函数，可以为已经存在的文件创建目录项(硬链接)。unlink 函数则是删除一个文件的目录项

mv 命令即是修改了目录项，而并不修改文件本身。

代码

注意 Linux 下删除文件的机制：不断将 st_nlink -1，直至减到 0 为止。无目录项对应的文件，将会被操作系统择机释放。(具体时间由系统内部调度算法决定)

因此，我们删除文件，从某种意义上说，只是让文件具备了被释放的条件。

unlink 函数的特征：清除文件时，如果文件的硬链接数到 0 了，没有 dentry 对应，但该文件仍不会马上被释放。要等到所有打开该文件的进程关闭该文件，系统才会挑时间将该文件释放掉。

mymv.c ：编程实现 mv 命令的改名操作

#include
#include
#include
#include
int main(int argc, char *argv[])
{
  link(argv[1], argv[2]);
  unlink(argv[1]);
  return 0;
}

unlink.c：通过观察临时文件 temp.txt 存在情况，了解unlink函数以及删除文件机制

#include
#include
#include
#include
#include
int main(void)
{
  int fd;
  int ret;
  char *p = "test of unlink\n";
  char *p2 = "after write something.\n";
  fd = open("temp.txt", O_RDWR | O_CREAT | O_TRUNC, 0644); // 临时文件，程序结束销毁
  if (fd < 0)
  {
    perror("open temp error");
    exit(1);
  }
  ret = unlink("temp.txt"); // // 出现段错误时，temp.txt依然销毁
  if (ret < 0)
  {
    perror("unlink error");
    exit(1);
  }
  ret = write(fd, p, strlen(p));
  if (ret == -1)
  {
    perror("--------write error");
  }
  printf("hi! I'm printf\n");
  ret = write(fd, p2, strlen(p2));
  if (ret == -1)
  {
    perror("--------write error");
  }
  p[3] = 'H'; // 发送段错误
  printf("Enter anykey continue\n");
  getchar();
  close(fd);
  /*
  ret = unlink("temp.txt"); // 出现段错误时，temp.txt无法销毁
  if (ret < 0) {
  perror("unlink error");
  exit(1);
  }
  */
  return 0;
}

2.3 隐式回收

当进程结束运行时，所有该进程打开的文件会被关闭，申请的内存空间会被释放。系统的这一特性称之为隐式回收系统资源。

写程序时一定不能忘记关闭文件

2.4 其他函数

readlink 函数

在Linux中，readlink是一个命令行工具和系统调用，用于读取符号链接（Symbolic Link）所指向的目标路径。

命令行工具： readlink命令用于查看符号链接的目标路径。使用方法如下：

readlink [OPTIONS] LINK_PATH

其中，LINK_PATH是符号链接的路径。readlink会输出该符号链接所指向的目标路径。

系统调用： readlink也是一个系统调用，用于在C/C++程序中访问符号链接的目标路径。

函数原型：

#include
ssize_t readlink(const char *path, char *buf, size_t bufsiz);

参数说明：

path：符号链接的路径。
buf：用于存储目标路径的缓冲区。
bufsiz：缓冲区的大小，应该足够大以容纳目标路径的字符。

返回值：

成功时，返回读取的目标路径的长度（不包括终止空字符），如果目标路径长度大于bufsiz，则返回-1。
失败时，返回-1，并设置errno来指示错误类型。

rename 函数

rename函数是一个C标准库函数，用于对文件或目录进行重命名。它在 `` 头文件中声明，并且是一个较为简单的文件操作函数。

函数原型：

#include
int rename(const char *old_path, const char *new_path);

参数说明：

old_path：旧的文件名或目录名。
new_path：新的文件名或目录名。

返回值：

如果重命名成功，则返回0。
如果重命名失败，则返回-1，并设置errno来指示错误类型。

3. 目录操作

3.1 getcwd、chdir 函数

getcwd 函数
获取进程当前工作目录 (卷 3，标库函数)

char *getcwd(char *buf, size_t size);

成功：buf 中保存当前进程工作目录位置
失败: NULL
chdir 函数
改变当前进程的工作目录

int chdir(const char *path);

成功：0
失败：-1 设置 errno 为相应值

3.2 文件、目录权限

注意：目录文件也是“文件”。其文件内容是该目录下所有子文件的目录项 dentry。可以尝试用 vim 打开一个目录。

	r	w	x
文件	文件的内容可以被查看	内容可以被修改	可以运行产生一个进程
	cat、more、less…	vi、> …	./文件名
目录	目录可以被浏览	创建、删除、修改文件	可以被打开、进入
	ls、tree…	mv、touch、mkdir...	cd
目录设置黏住位：若有 w 权限，创建不变，删除、修改只能由 root、目录所有者、文件所有者操作。

3.3 目录函数

opendir 函数

返回 ：根据传入的目录名打开一个目录 (库函数) DIR 类似于 FILE

DIR *opendir(const char *name);

返回 ：成功返回指向该目录结构体指针，失败返回 NULL
参数支持相对路径、绝对路径两种方式
例如：打开当前目录：

getcwd() , opendir()
opendir(".");

closedir 函数

作用：关闭打开的目录

int closedir(DIR *dirp);

返回 ：成功：0；失败：-1 设置 errno 为相应值

readdir 函数

作用：读取目录 (库函数)

struct dirent *readdir(DIR *dirp);

返回 ：成功返回目录项结构体指针；失败返回NULL设置errno 为相应值
需注意返回值，读取数据结束时也返回 NULL 值，所以应借助 errno 进一步加以区分。

struct 结构体：

struct dirent {
  ino_t d_ino; // inode 编号
  off_t d_off;
  unsigned short d_reclen; // 文件名有效长度
  unsigned char d_type; // 类型(vim 打开看到的类似@*/等)
  char d_name[256]; // 文件名
};

代码

myls.c：通过以上函数实现 ls 命令

#include
#include
#include
#include
#include
int main(int argc, char *argv[])
{
  DIR *dp;
  struct dirent *sdp;
  dp = opendir(argv[1]);
  if (dp == NULL)
  {
    perror("open dir error");
    exit(1);
  }
  while ((sdp = readdir(dp)) != NULL)
  {
    if (strcmp(sdp->d_name, ".") == 0)
      continue;
    if (strcmp(sdp->d_name, "..") == 0)
      continue;
    printf("%s\t", sdp->d_name);
  }
  printf("\n");
  closedir(dp);
  return 0;
}

4. 递归遍历目录

查询指定目录，递归列出目录中文件，同时显示文件大小

4.1 思路

判断命令行参数，获取用户要查询的目录名 argv[1]
argvc == 1 ---> ./
判断用户指定的是否是目录。不是则打印文件名
stat S_ISDIR() ---> 封装函数 isFile
读目录：

opendir()
while (readdir()) {
  普通文件：直接打印
  目录：
  拼接目录访问绝对路径 sprintf(path, "%s/%s", dir, d_name)
  递归调用自己
}
closedir()

4.2 代码

ls-R.c

#include
#include
#include
#include
#include
#include
void isFile(char *name);
// 打开目录，读取目录，处理目录
void read_dir(char *dir, void (*func)(char *))
{
  char path[256];
  DIR *dp;
  struct dirent *sdp;
  dp = opendir(dir);
  if (dp == NULL)
  {
    perror("opendir error");
    return;
  }
  // 读取目录项
  while ((sdp = readdir(dp)) != NULL)
  {
    if (strcmp(sdp->d_name, ".") == 0 || strcmp(sdp->d_name, "..") == 0)
    {
      continue;
    }
    // 目录项本身不可访问，拼接 目录/目录项
    sprintf(path, "%s/%s", dir, sdp->d_name);
    // 判断文件类型，目录递归进入，文件显示名字、大小
    // isFile(path);
    func(path);
  }
  closedir(dp);
  return;
}
void isFile(char *name)
{
  int ret = 0;
  struct stat sbuf;
  // 获取文件属性，判断文件类型
  ret = stat(name, &sbuf);
  if (ret == -1)
  {
    perror("stat error");
    return;
  }
  // 目录文件，进入目录函数
  if (S_ISDIR(sbuf.st_mode))
  {
    read_dir(name, isFile);
  }
  // 普通文件，显示文件名、大小
  printf("%10s\t\t%ld\n", name, sbuf.st_size);
  return;
}
int main(int argc, char *argv[])
{
  // 判断命令行参数
  if (argc == 1)
  {
    isFile(".");
  }
  else
  {
    isFile(argv[1]);
  }
  return 0;
}

5. 重定向

dup 和 dup2 是 Linux 系统中用于复制文件描述符的函数，它们都是 C
语言的系统调用函数。它们的作用是创建一个新的文件描述符，该文件描述符是现有文件描述符的副本，指向同一个文件。

5.1 dup 函数

int dup(int oldfd);

dup 函数会复制参数 oldfd 所指向的文件描述符，并返回一个新的文件描述符，该新的文件描述符是系统中当前可用的最小的未使用的文件描述符。

如果复制成功，则返回新的文件描述符；如果复制失败，则返回 -1。

代码

#include
#include
#include
int main(int argc, char *argv[])
{
    int fd = open(argv[1], O_RDONLY);
    if (fd == -1) {
        perror("Error opening file");
        return 1;
    }
    // 复制文件描述符
    int new_fd = dup(fd);
    printf("Original file descriptor: %d\n", fd);
    printf("New file descriptor: %d\n", new_fd);
    close(fd); // 注意：关闭原文件描述符不会影响新的文件描述符
    // 使用新的文件描述符读取文件内容
    char buffer[10];
    ssize_t bytes_read = read(new_fd, buffer, sizeof(buffer) - 1);
    buffer[bytes_read] = '\0';
    printf("Content: %s\n", buffer);
    close(new_fd);
    return 0;
}

5.2 dup2 函数

int dup2(int oldfd, int newfd);

dup2 函数与 dup 函数类似，但是它可以指定新的文件描述符的数值。

如果 newfd 已经是一个打开的文件描述符，那么dup2 将首先关闭 newfd，然后将 oldfd 复制到 newfd，确保 newfd 与oldfd 指向相同的文件。

成功：返回一个新文件描述符；如果 oldfd 有效，则返回的文件描述符与 oldfd 指向同一文件。
失败：如果 oldfd 无效，调用失败，关闭 newfd。返回-1，同时设置 errno 为相应值