MENU
カテゴリー
アーカイブ

OSD が落ちた

予兆なく ceph の OSD のうち 1台が down/out になった。管理画面の Health はもちろん真っ赤。GUI から開始をクリックしても立ち上がらない。
DISK の S.M.A.R.T 値に異常はなかったから、とりあえずディスクを初期化して再登録したところ、無事に復活。

目次

LVM なディスクの初期化手順

通常は次のコマンドでディスクを初期化している。

# sgdisk -Z /dev/sdX

ただ、OSD は LVM なディスクなので、これでは初期化できないことがある。なので、次のとおり LVM 作成手順の逆にコマンドを実行する。

  1. ディスクのアンマウント
  2. 論理ボリュームの削除
  3. ボリュームグループの削除
  4. 物理ボリュームの削除

ディスクのアンマウント

fdisk -l で対象のディスクを確認してアンマウントする。例では /dev/sda。

# umount /dev/sda

Proxmox の管理画面でも確認するならこちら。

論理ボリュームの削除

対象の論理ボリュームを確認する。例では /dev/ceph-4ecb3ba1-c269-4a18-a63c-60fd96b8610c/osd-block-aa0fd864-f772-4dfe-870f-90657b6a67e6。長いからコピペ推奨。

# lvdisplay
  --- Logical volume ---
  LV Path                /dev/ceph-4ecb3ba1-c269-4a18-a63c-60fd96b8610c/osd-block-aa0fd864-f772-4dfe-870f-90657b6a67e6
  LV Name                osd-block-aa0fd864-f772-4dfe-870f-90657b6a67e6
  VG Name                ceph-4ecb3ba1-c269-4a18-a63c-60fd96b8610c
  LV UUID                EmwxQ3-DfnL-ulz7-cFD9-CwBp-woWP-PBKFye
  LV Write Access        read/write
  LV Creation host, time h470, 2023-04-29 17:38:01 +0900
  LV Status              available
  # open                 24
  LV Size                931.51 GiB
  Current LE             238467
  Segments               1
  Allocation             inherit
  Read ahead sectors     auto
  - currently set to     256
  Block device           253:2

削除する。

# lvremove /dev/ceph-4ecb3ba1-c269-4a18-a63c-60fd96b8610c/osd-block-aa0fd864-f772-4dfe-870f-90657b6a67e6

ボリュームグループの削除

対象のボリュームグループを確認する。
コマンド lvdisplay でも VG Name として表示されている。

# vgs
  VG                                        #PV #LV #SN Attr   VSize    VFree
  ceph-4ecb3ba1-c269-4a18-a63c-60fd96b8610c   1   1   0 wz--n-  931.51g    0 
  pve                                         1   2   0 wz--n- <931.01g    0

削除する。

# vgremove ceph-4ecb3ba1-c269-4a18-a63c-60fd96b8610c

物理ボリュームの削除

対象の物理ボリュームを削除する。例では /dev/sda(VG 削除前)。

# pvs
  PV             VG                                        Fmt  Attr PSize    PFree
  /dev/nvme0n1p3 pve                                       lvm2 a--  <931.01g    0 
  /dev/sda       ceph-4ecb3ba1-c269-4a18-a63c-60fd96b8610c lvm2 a--   931.51g    0

削除する。

# pvremove /dev/sda

終わりに

念の為、sgdisk -Z /dev/sda を実行しておく。gdisk /dev/sda で拡張コマンドから z を実行してもいい。

OSD が落ちた原因は不明。次に発生したらもう少し詳しくログを見てみよう。

LVM 削除の手順はググればすぐに出てくるとはいえ、普段 LVM 関係のコマンドを実行する機会はあまりなく、障害も頻繁に生じる訳じゃないからとりあえずメモを残すことにした。

コメント

コメントする

目次