予兆なく ceph の OSD のうち 1台が down/out になった。管理画面の Health はもちろん真っ赤。GUI から開始をクリックしても立ち上がらない。
DISK の S.M.A.R.T 値に異常はなかったから、とりあえずディスクを初期化して再登録したところ、無事に復活。
目次
LVM なディスクの初期化手順
通常は次のコマンドでディスクを初期化している。
# sgdisk -Z /dev/sdX
ただ、OSD は LVM なディスクなので、これでは初期化できないことがある。なので、次のとおり LVM 作成手順の逆にコマンドを実行する。
- ディスクのアンマウント
- 論理ボリュームの削除
- ボリュームグループの削除
- 物理ボリュームの削除
ディスクのアンマウント
fdisk -l で対象のディスクを確認してアンマウントする。例では /dev/sda。
# umount /dev/sda
Proxmox の管理画面でも確認するならこちら。
論理ボリュームの削除
対象の論理ボリュームを確認する。例では /dev/ceph-4ecb3ba1-c269-4a18-a63c-60fd96b8610c/osd-block-aa0fd864-f772-4dfe-870f-90657b6a67e6。長いからコピペ推奨。
# lvdisplay
--- Logical volume ---
LV Path /dev/ceph-4ecb3ba1-c269-4a18-a63c-60fd96b8610c/osd-block-aa0fd864-f772-4dfe-870f-90657b6a67e6
LV Name osd-block-aa0fd864-f772-4dfe-870f-90657b6a67e6
VG Name ceph-4ecb3ba1-c269-4a18-a63c-60fd96b8610c
LV UUID EmwxQ3-DfnL-ulz7-cFD9-CwBp-woWP-PBKFye
LV Write Access read/write
LV Creation host, time h470, 2023-04-29 17:38:01 +0900
LV Status available
# open 24
LV Size 931.51 GiB
Current LE 238467
Segments 1
Allocation inherit
Read ahead sectors auto
- currently set to 256
Block device 253:2
削除する。
# lvremove /dev/ceph-4ecb3ba1-c269-4a18-a63c-60fd96b8610c/osd-block-aa0fd864-f772-4dfe-870f-90657b6a67e6
ボリュームグループの削除
対象のボリュームグループを確認する。
コマンド lvdisplay でも VG Name として表示されている。
# vgs
VG #PV #LV #SN Attr VSize VFree
ceph-4ecb3ba1-c269-4a18-a63c-60fd96b8610c 1 1 0 wz--n- 931.51g 0
pve 1 2 0 wz--n- <931.01g 0
削除する。
# vgremove ceph-4ecb3ba1-c269-4a18-a63c-60fd96b8610c
物理ボリュームの削除
対象の物理ボリュームを削除する。例では /dev/sda(VG 削除前)。
# pvs
PV VG Fmt Attr PSize PFree
/dev/nvme0n1p3 pve lvm2 a-- <931.01g 0
/dev/sda ceph-4ecb3ba1-c269-4a18-a63c-60fd96b8610c lvm2 a-- 931.51g 0
削除する。
# pvremove /dev/sda
終わりに
念の為、sgdisk -Z /dev/sda を実行しておく。gdisk /dev/sda で拡張コマンドから z を実行してもいい。
OSD が落ちた原因は不明。次に発生したらもう少し詳しくログを見てみよう。
LVM 削除の手順はググればすぐに出てくるとはいえ、普段 LVM 関係のコマンドを実行する機会はあまりなく、障害も頻繁に生じる訳じゃないからとりあえずメモを残すことにした。
コメント