查看原文
其他

因 inode 不足导致数据库登陆报错相关问题

JiekeXu JiekeXu DBA之路 2024-03-03

作者 | JiekeXu

来源 | JiekeXu之路(ID: JiekeXu_IT)

转载请联系授权 | (微信ID:xxq1426321293)

大家好,我是 JiekeXu,很高兴又和大家见面了,今天分享一篇 因 inode 不足导致数据库登陆报错相关问题本文首发于墨天轮,欢迎点击上方蓝字关注我,标星或置顶,更多干货第一时间到达!

事情是这样发生的- ,还是和数据泵有关的一个问题,但这次不是说数据泵的问题。应用方通过数据泵导入数据时发生空间不足的问题 “No space left on device”,询问是否空间不足导致,错误如下所示:

Import: Release 11.2.0.4.0 - Production on Fri Dec 18 18:51:37 2020

Copyright (c) 1982, 2011, Oracle and/or its affiliates. All rights reserved.

UDI-09925: operation generated ORACLE error 9925
ORA-09925: Unable to create audit trail file
Linux Error: 28: No space left on device
Additional information: 9925

Username: UDI-00005: unexpected End-Of-File encountered while reading input.

稍后,我们 DBA 使用 SQLplus / as sysdba 登陆数据库时,也发生一样的错误。报错提示很明显,无法创建审计文件,空间不足,当数据库使用 sysdba 身份登陆数据库时,默认会进行审计记录,往操作系统目录下写审计文件,当空间不足时便无法写入文件。

但是当查看文件系统使用率时发现才 66% 还有 51G 空间,我们 DBA 便直接进入到 dump 审计目录下尝试直接 touch 文件,直接报错 “No space left on device”,/u01/app/oracle/admin 下写不进数据,自然登陆会报错。

出现这种问题一般有两种情况要么是文件系统只读,要么是文件系统的 inode 节点达到上限了。文件系统只读有可能是挂载存储时的一种保护机制,当存储使用量达到一个上限值时会进行写保护使其变为只读模式。本次问题当然是由于 inode 节点达到上限无法写入新文件而导致的问题。

那么 inode 到底是个啥呢?

理解 inode,要从文件储存说起。文件储存在硬盘上,硬盘的最小存储单位叫做"扇区"(Sector)。每个扇区储存 512 字节(相当于0.5KB)。操作系统读取硬盘的时候,不会一个个扇区地读取,这样效率太低,而是一次性连续读取多个扇区,即一次性读取一个"块"(block)。这种由多个扇区组成的"块",是文件存取的最小单位。“块"的大小,最常见的是 4KB,即连续八个 sector 组成一个 block。文件数据都储存在"块"中,那么很显然,我们还必须找到一个地方储存文件的元信息,比如文件的创建者、文件的创建日期、文件的大小等等。这种储存文件元信息的区域就叫做 inode,中文译名为"索引节点”。每一个文件都有对应的 inode,里面包含了与该文件有关的一些信息。

inode 包含文件的元信息,具体来说有以下内容:

* 文件名
* 文件的字节数
* 文件拥有者的 User ID
* 文件的 Group ID
* 文件的读、写、执行权限

* 文件的时间戳,共有三个:ctime 指 inode 上一次变动的时间,
mtime 指文件内容上一次变动的时间,atime 指文件上一次打开的时间。

* 链接数,即有多少文件名指向这个 inode
* 文件数据 block 的位置

可以用 stat 命令,查看某个文件或者文件夹的 inode 信息,第一行则包含文件名,具体如下图所示:

inode 也会消耗硬盘空间,每个存储设备(例如硬盘)或存储设备的分区被格式化为文件系统后,应该有两部份,一部份是数据区 Block,Block 是用来存储数据;另一部份是 inode 区(inode table),存放 inode 所包含的信息。inode 为每个文件进行信息索引,所以就有了 inode的数值。操作系统根据指令,能通过inode值最快的找到相对应的文件。每个 inode 节点的大小,一般是 128 字节或 256 字节。inode 节点的总数,在格式化时就给定,一般是每 1KB 或每 2KB 就设置一个 inode。假定在一块 1GB 的硬盘中,每个 inode 节点的大小为 128 字节,每 1KB 就设置一个 inode,那么 inode table 的大小就会达到 128MB,占整块硬盘的 1/8 空间(12.5%)。

而这台服务器的 Block 虽然还有剩余,但 inode 已经用满,因此在创建新目录或文件时,系统提示磁盘空间不足。inode 的数量是有限制的,每个文件对应一个 inode,那么如何查看 inode 的最大数量呢?可以使用 df -i 命令。

inode 号码

每个 inode 都有一个号码,操作系统用 inode 号码来识别不同的文件。Unix/linux 系统内部不使用文件名,而使用 inode 号码来识别文件或者文件夹。对于系统来说,文件名只是 inode 号码便于识别的别称或者绰号。表面上,用户通过文件名,打开文件。实际上,系统内部这个过程分成三步:首先,系统找到这个文件名对应的inode 号码;其次,通过 inode 号码,获取 inode 信息;最后,根据 inode 信息,找到文件数据所在的 block,读出数据。使用 ls -i 命令,可以看到文件名对应的 inode 号码:

理解了上面这些知识,就能理解目录的权限。目录文件的读权限(r)和写权限(w),都是针对目录文件本身(即不同用户能以什么权限访问操作对该目录文件,例如这里不同用户对 tmp 目录文件(d 可以查出 tmp 是目录文件,d 表示directory,即目录)分别为 rwxr-xr-x,第一组的三个字符,即 rwx,表示文件拥有者用户的对该文件的读写权限,第二组的三个字符,即 r-x,表示文件拥有者用户所在的用户组里的其他用户对该文件的读写权限,第三组的三个字符,即 r-x,表示文件拥有者用户所在的用户组以外的用户对该文件的读写权限。一个某个用户下运行的进程访问操作该目录文件只能以该用户所具有的对该目录文件的权限进行操作)。由于目录文件内只有文件名和 inode 号码,所以如果只有读权限,只能获取文件名,无法获取其他信息,因为其他信息都储存在 inode 节点中,而读取 inode 节点内的信息需要目录文件的执行权限(x)。
例如 drwxrwxr-- 2 oracle oracle
目录权限是774 这样除了 oracle 用户及 oracle 所在组用户可以进入到此目录中,其他用户都不可以进入。

硬链接与软链接

一般情况下,文件名和 inode 号码是"一一对应"关系,每个 inode 号码对应一个文件名。但是,Unix/Linux系统允许,多个文件名指向同一个 inode 号码。这意味着,可以用不同的文件名访问同样的内容;对文件内容进行修改,会影响到所有文件名;但是,删除一个文件名,不影响另一个文件名的访问。这种情况就被称为"硬链接"(hard link)。

ln 命令可以创建硬链接:

ln 源文件 目标文件

运行上面这条命令以后,源文件与目标文件的 inode 号码相同,都指向同一个 inode 。inode 信息中有一项叫做"链接数",记录指向该 inode 的文件名总数,这时就会增加 1。反过来,删除一个文件名,就会使得 inode节点中的"链接数"减1。当这个值减到0,表明没有文件名指向这个 inode,系统就会回收这个 inode 号码,以及其所对应 block 区域。这里顺便说一下目录文件的"链接数"。

创建目录时,默认会生成两个目录项:".“和”…"。前者的 inode 号码就是当前目录的 inode 号码,等同于当前目录的"硬链接";后者的 inode 号码就是当前目录的父目录的 inode 号码,等同于父目录的"硬链接"。所以,任何一个目录的"硬链接"总数,总是等于 2(某一目录的目录名和该目录的当前目录名)加上它的子目录总数(含隐藏目录)。(因为 inode 信息中有一项叫做"链接数",记录指向该 inode 的文件名总数)

软链接

除了硬链接以外,还有一种特殊情况。文件 A 和文件 B 的 inode 号码虽然不一样,但是文件 A 的内容是文件B 的路径。读取文件 A 时,系统会自动将访问者导向文件 B。因此,无论打开哪一个文件,最终读取的都是文件 B。这时,文件 A 就称为文件 B 的"软链接"(soft link)或者"符号链接(symbolic link)。这意味着,文件 A 依赖于文件 B 而存在,如果删除了文件 B,打开文件A就会报错:“No such file or directory”。这是软链接与硬链接最大的不同:文件 A 指向文件 B 的文件名,而不是文件 B 的inode号码,文件 B 的 inode "链接数"不会因此发生变化。

ln -s 命令可以创建软链接。

ln -s 源文文件或目录 目标文件或目录

由于 inode 号码与文件名分离,这种机制导致了一些 Unix/Linux 系统特有的现象。
  1. 有时,文件名包含特殊字符,无法正常删除。这时,直接删除 inode 节点,就能起到删除文件的作用。

  2. 移动文件或重命名文件,只是改变文件名,不影响 inode 号码。

  3. 打开一个文件以后,系统就以 inode 号码来识别这个文件,不再考虑文件名。因此,通常来说,系统无法从 inode 号码得知文件名。

第 3 点使得软件更新变得简单,可以在不关闭软件的情况下进行更新,不需要重启。因为系统通过 inode 号码,识别运行中的文件,不通过文件名。更新的时候,新版文件以同样的文件名,生成一个新的 inode,不会影响到运行中的文件。等到下一次运行这个软件的时候,文件名就自动指向新版文件,旧版文件的 inode 则被回收。

说了这么多,大家应该对 inode 有所了解了吧,那么解决问题也就容易多了,本次问题是由于 adump 文件过多造成 inode 满了的问题,只需要删除 adump 下的文件即可。直接删除 rm -rf *,有可能因为文件数量太多而出现 Argument list too long 错误.在 Linux 下,试图传太多参数给一个系统命令(ls *; cp *; rm *; cat *; etc…)时,就会出现 Argument list too long 错误。Linux 工程师给出了如下遍历的方法慢慢的删除了文件。-n 选项表示将 xargs 生成的命令行参数,每次传递几个参数给其后面的命令执行,这里表示每九个遍历删除文件。

cd /u01/app/oracle/admin/$SID/adump
ls | xargs -n 9 rm -f

当然,每九个删除可以慢慢悠悠的完成删除操作,不过最快速的办法就是直接删除 adump 然后新建 adump。下面我们来模拟一下其他目录 inode 满的情况及处理办法

# dd if=/dev/zero of=mo.img bs=5120k count=1
1+0 records in
1+0 records out
5242880 bytes (5.2 MB) copied, 0.0128262 s, 409 MB/s
# ls -lh mo.img
-rw-r--r-- 1 root root 5242880 Dec 27 22:47 mo.img
# mkfs -t ext4 -F ./mo.img
mke2fs 1.42.9 (28-Dec-2013)
Discarding device blocks: done
Filesystem label=
OS type: Linux
Block size=1024 (log=0)
Fragment size=1024 (log=0)
Stride=0 blocks, Stripe width=0 blocks
1280 inodes, 5120 blocks
256 blocks (5.00%) reserved for the super user
First data block=1
Maximum filesystem blocks=5242880
1 block group
8192 blocks per group, 8192 fragments per group
1280 inodes per group

Allocating group tables: done
Writing inode tables: done
Creating journal (1024 blocks): done
Writing superblocks and filesystem accounting information: done

# mount -o loop ./mo.img /mnt
# vi /mnt/inode_test.sh
# cat /mnt/inode_test.sh
#!/bin/bash

for ((i = 1; ; i++))
do
if [ $? -eq 0 ]; then
echo "This is file_$i" > file_$i
else
exit 0
fi
done

第一次由于执行目录为 /root ,脚本 inode_test.sh 一直没有执行完毕,所生成的文件全部在 /root 下,导致 / 文件系统 inode 使用过多,这里使用 find + xargs 遍历删除了。

find ./ -name "file_*" | xargs rm -f

第二次执行,需要进入到 /mnt 执行,很快 /mnt 文件系统 inode 就会满,报错“ No space left on device”。下面看看如何删除这些文件:

[root@openGauss ~]# cd /mnt
[root@openGauss mnt]# ll
total 13
-rw-r--r-- 1 root root 146 Dec 27 21:07 inode_test.sh
drwx------ 2 root root 12288 Dec 27 21:06 lost+found
[root@openGauss mnt]# sh inode_test.sh
inode_test.sh: line 6: file_1269: No space left on device
[root@openGauss mnt]# ll|wc -l
1271
[root@openGauss mnt]# ls | xargs -n 9
file_1 file_10 file_100 file_1000 file_1001 file_1002 file_1003 file_1004 file_1005
file_1006 file_1007 file_1008 file_1009 file_101 file_1010 file_1011 file_1012 file_1013
file_1014 file_1015 file_1016 file_1017 file_1018 file_1019 file_102 file_1020 file_1021
file_1022 file_1023 file_1024 file_1025 file_1026 file_1027 file_1028 file_1029 file_103
file_1030 file_1031 file_1032 file_1033 file_1034 file_1035 file_1036 file_1037 file_1038
file_1039 file_104 file_1040 file_1041 file_1042 file_1043 file_1044 file_1045 file_1046

1、如果确认这些文件不再需要则可以直接删除上层目录,这里即 /mnt ,亦或是使用上面提到的根据文件名遍历删除“find ./ -name “file_*” | xargs rm -f ” ;

2、表示用 lsattr 列出 ./ 下面的文件名的属性,用 awk 取出名字,然后 rm -rf

# lsattr ./|awk -F"/" '{print $3}'|xargs -i rm -rf {}

3、find /mnt -type f -exec rm {} ; 或者直接在 /mnt 下 find ./ -exec rm {} ;

查找某个目录下一个月或两个月之前的文件,然后删除

# find . -type f -mtime +30 |wc -l
# find . -type f -mtime +60 |wc -l
# find . -type f -mtime +30 -exec rm -f {} \;
# find . -type f -mtime +60 -exec rm -f {} \;

inode 爆满,也可能是某些目录下存在大量的小文件导致。

大量小文件分布有两种可能:
a)一是只有一个或少量目录下存在大量小文件,这种情况可以使用如下命令来找出这个异常目录:

# find / -type d -size +10G

即找出大小大于 10G 的目录(目录大小越大,表示目录下的文件越多)。

b)大量的小文件分布在大量的目录下,这时候上面的命令可能找不出异常的目录,需要以下命令:

# cd /
# find */ ! -type l | cut -d / -f 1 | uniq -c

此命令作用是找出目录下文件总数,可能需要执行多次,直到找出具体的目录。也可使用如下命令查到:

for i in /*; do echo $i; find $i | wc -l; done

比如上面的命令找出了 /u01 目录下存在大量的小文件,但 /u01/ 目录还有很多目录,这时候我们还需要继续执行:

# cd /u01
# find */ ! -type l | cut -d / -f 1 | uniq -c

直到找出具体的目录,然后使用如上方法删除。

以上,学习之。今天的分享就到这里了,如果本文对您有一丁点儿帮助,请多支持“在看”与转发,不求小费了哪怕是一个小小的赞,您的鼓励都将是我熬夜写文章最大的动力,让我有一直写下去的动力,最后一起加油,奥利给!

参考链接:
https://www.ibm.com/developerworks/cn/linux/l-cn-hardandsymb-links/index.html
https://www.cnblogs.com/jiangxiaoxian/p/9610903.html
https://www.cnblogs.com/wangqiguo/p/6464234.html

————————————————————————————
公众号:JiekeXu之路
墨天轮:https://www.modb.pro/u/4347
CSDN :https://blog.csdn.net/JiekeXu
腾讯云:https://cloud.tencent.com/developer/user/5645107
————————————————————————————



Oracle 12c 及以上版本补丁更新说明及下载方法(收藏版)

Oracle 21C 新特性:数据泵相关新特性汇总

使用数据泵导出时遇到 ORA-27054 错误解决办法

案例|RAC 添加表空间误将数据文件放本地处理办法

11g RAC 在线存储迁移实现 OCR 磁盘组完美替换

震惊:Oracle 11gR2 RAC ADG 并没有高可用

如何通过 Shell 监控异常等待事件和活跃会话 

我的 OCM 之路|书写无悔青春追梦永不止步

Oracle 19c 之多租户 PDB 连接与访问(三)

Oracle 12C 最新补丁下载与安装操作指北

DBA 常用的软件工具有哪些(分享篇)?

深入了解 Oracle Flex ASM 及其优点

Oracle 11g 临时表空间管理

Oracle 每日一题系列合集

继续滑动看下一个

因 inode 不足导致数据库登陆报错相关问题

JiekeXu JiekeXu DBA之路
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存