Log for OKTW Network

am 02:40:40

Licson Lee

[photo](media:AgACAgUAAx0CPmz7HwABBOLTZfHzKTbuL_0FLPRI1WQuZHzEuVIAAoC8MRuBTIlX_I2_J2Zy36kBAAMCAANzAAM0BA@telegram)

@james58899 Ceph 大師這個應該救不了對吧……

am 02:41:14

Licson Lee

我只是打算遷移去 cephadm，但是有 5-6 個 OSD 不聽話

現在就這樣了

EC pool 有些 PG 不見了大部分

啊不就還在 remap

但是他現在 inactive

搞到 S3 裏有些東西讀不了

啊就沒有硬碟可以 map 回來當然就 inactive 啊 ._.

你一次少了一堆 pg 餒

我只能等他跑好 recovery 再算嗎……

讓我感覺無比慢

從你的圖看起來就是只能等啊，且等超久

你一個 pg 6G 餒

今早最快有 700MB/s

Cute_ Panda 🐼 就業了，Still 窮。

超級慢 RIP

am 02:46:00

腹黒い茶

要從 10 份 -> 3~4 份的 map

am 02:46:28

腹黒い茶

他根本就快要整個 pool 重算和 map 了

你是一次少掉一半的硬碟膩

沒有

24 隻碟

5-6 個 OSD 有問題

啊你放的 size/min 多少

EC 啊

k=7,m=3

那就真有得等

你 ceph pg stat 出來的狀態應該會告訴你勝多少才對 (X

5.847% degraded

但是不知道包不包 remapped 那堆

幾乎沒影響的概念

包含

因為 remap 也是一種 degraded

但你的狀態有那麼少的ㄇ ._.

我只是篩來看

他是這樣

要把它全部攤開來看啦

很壯觀的量

6.7% pgs 受影響而已

哪像我上面這個都快 20% 了ㄏ

ceph pg stat --status --watch 就能看到他還要多久了啦，如果他算得出來時間的話

還是你這就已經是部分截圖了 (？

這是完整

最怕看到 inactive

現在就算他在復原還是有 30 個 PG inactive

am 02:59:39

腹黒い茶

那你用 ceph pg stat --status --watch 啊

啊就沒空間讓他 active

基本上沒有 stale 都算是時間問題而已啦我覺得

有 stale 基本上就是地獄了

你炸了17個PG

想辦法修好阿

對

我看 remapped+incomplete 好像不能自動修復……

你去修好你死掉的OSD

全部起來了

毫無頭緒

是不是要對 PG 手動做 repair 才行

你要先修好 osd

OSD 都起來了啊

起來和能用是兩回事

反正 OSD 看起來不是問題

但是因為他們不聽話我要刪掉重建

所以 OSD ID 可能有變動

你把OSD刪了

那資料不就沒了

沒辦法啊

cephadm 接管不了

沒救了

每次接管他都會死

那別接管

只能 mark out

out要等他跑完阿

再刪掉直接用 cephadm 加

out又不是瞬間就把資料搬走了

狀態要是active+clean才能安全的刪掉OSD

pm 01:04:36

腹黒い茶

所以難怪卡 remapped+incomplete

人家就還沒 out 完你就砍 osd

所以我只能直接把這些 PG 刪掉哦……

對

你搞壞人家了

你等他backfill完

再看有哪些object丟了

你只能砍那17個

。

誰叫你急

但你要等其他東西跑完

是真的急（

本來看第一台機的 12 個 OSD 接管很正常

pm 01:06:45

Licson Lee

到第二台機按着教學跑指令接管後 OSD 起不來

這種急不得

版本一樣ㄇ

一樣啊

用 cephadm 以前都升級去最新的 octopus

那接管之前服務有重啟ㄇ

沒有

總之大家版本一樣

你是 mon osd 都有重啟ㄇ

有啊

那接管不成功的 log 勒

他會寫為啥拒絕啊

permission denied

/var/lib/ceph/.../osd.X/block permission denied

pm 01:09:23

Licson Lee

但是跳回去直接用 ceph-volume lvm activate 是沒問題的

交給 cephadm 就這樣

2% 要等半天嗚嗚

不過我只有 S3 用 erasure pool

object 數量有點多就是

急什麼

又不是不能用

你OSD刪了真的不能用了

我還有三台機要合併進去

有個新東西打算這週上線

你要先修好

我看他 EC 缺少副本

只能犧牲資料了

我等他 backfill 好再處理

你本來就該這樣

S3 還沒正式拿出來用還好（

我們的live記錄檔都在上面

我知道 🙁

明明就有 ceph osd safe-to-destroy

他就會跟你說不行了

你這個東西說要拿也說了好幾年了

他那麼懶又那麼急，你咋會覺得他會願意多打這些字看到不能砍

你……

難道不是事實ㄇ ._.

急只是因為趕上線嗚嗚

平時真不急

對，所以可以一放好幾年

？

s3 上線

他明明有個check

safe to destroy

還會要你打yes-i-really-mean-it

這是自殺救不了

就 ceph osd rm xxx

沒提示誒……

我知道他平時會有

Cute_ Panda 🐼 就業了，Still 窮。

[photo](media:AgACAgUAAx0CPmz7HwABBONoZfLN-jPlbYrxrCCbVH0W71xi1FUAAkO5MRtQu5lXQL6nIQirRC4BAAMCAANzAAM0BA@telegram)

等我把 ceph 處理好

有生之年系列

這證明了，不可靠的永遠是人

我自己 bucket 也受影響

只能忍痛了

咋，你又要砍 osd 了嗎

不是

有點希望了

我看了一下其實沒超過 EC 保護能力

force recover 了