Jump to...
redirecting...

Log for OKTW Network

[photo](media:AgACAgUAAx0CPmz7HwABBOLTZfHzKTbuL_0FLPRI1WQuZHzEuVIAAoC8MRuBTIlX_I2_J2Zy36kBAAMCAANzAAM0BA@telegram)
[sticker](media:AAMCBQADHQI-bPsfAAEE4tRl8fM2WtsCFTlVhLudkbVoi7jNaQACoQsAArwK2gxUZRF8nlSnjQEAB20AAzQE@telegram)
@james58899 Ceph 大師這個應該救不了對吧……
我只是打算遷移去 cephadm,但是有 5-6 個 OSD 不聽話
現在就這樣了
EC pool 有些 PG 不見了大部分
啊不就還在 remap
但是他現在 inactive
搞到 S3 裏有些東西讀不了
啊就沒有硬碟可以 map 回來當然就 inactive 啊 ._.
你一次少了一堆 pg 餒
我只能等他跑好 recovery 再算嗎……
讓我感覺無比慢
從你的圖看起來就是只能等啊,且等超久
[photo](media:AgACAgUAAx0CPmz7HwABBOLhZfH0LV2dtTV90EG5yiiuKS5TmOQAAoG8MRuBTIlXOjCLNkYUvJMBAAMCAANzAAM0BA@telegram)
你一個 pg 6G 餒
今早最快有 700MB/s
超級慢 RIP
要從 10 份 -> 3~4 份 的 map
他根本就快要整個 pool 重算和 map 了
你是一次少掉一半的硬碟膩
沒有
24 隻碟
5-6 個 OSD 有問題
啊你放的 size/min 多少
EC 啊
k=7,m=3
那就真有得等
ceph pg stat 出來的狀態應該會告訴你勝多少才對 (X
5.847% degraded
但是不知道包不包 remapped 那堆
幾乎沒影響的概念
包含
因為 remap 也是一種 degraded
但你的狀態有那麼少的ㄇ ._.
[photo](media:AgACAgUAAx0CPmz7HwABBOL2ZfH16t1S1Kpetuh4SSh3UMK7-vsAAoS8MRuBTIlXPGnSQWq7sQABAQADAgADcwADNAQ@telegram)
我只是篩來看
[photo](media:AgACAgUAAx0CPmz7HwABBOL4ZfH2F71Z6Syhb378mUilXykjct0AAoW8MRuBTIlXph5aXiGYT0MBAAMCAANzAAM0BA@telegram)
他是這樣
要把它全部攤開來看啦
很壯觀的量
6.7% pgs 受影響而已
哪像我上面這個都快 20% 了ㄏ
ceph pg stat --status --watch 就能看到他還要多久了啦,如果他算得出來時間的話
還是你這就已經是部分截圖了 (?
這是完整
最怕看到 inactive
現在就算他在復原還是有 30 個 PG inactive
那你用 ceph pg stat --status --watch
啊就沒空間讓他 active
基本上沒有 stale 都算是時間問題而已啦我覺得
有 stale 基本上就是地獄了
你炸了17個PG
想辦法修好阿
我看 remapped+incomplete 好像不能自動修復……
你去修好你死掉的OSD
全部起來了
[photo](media:AgACAgUAAx0CPmz7HwABBOMPZfKEdf72rEgIZtlI5OceELIqkkAAAm26MRtQu5FX0DAIxrI1CRkBAAMCAANzAAM0BA@telegram)
毫無頭緒
是不是要對 PG 手動做 repair 才行
你要先修好 osd
OSD 都起來了啊
起來和能用是兩回事
反正 OSD 看起來不是問題
但是因為他們不聽話我要刪掉重建
所以 OSD ID 可能有變動
你把OSD刪了
那資料不就沒了
沒辦法啊
cephadm 接管不了
沒救了
每次接管他都會死
那別接管
只能 mark out
out要等他跑完阿
再刪掉直接用 cephadm 加
out又不是瞬間就把資料搬走了
狀態要是active+clean才能安全的刪掉OSD
所以難怪卡 remapped+incomplete
人家就還沒 out 完你就砍 osd
[sticker](media:AAMCBQADHQI-bPsfAAEE4yZl8oV56EBthZfSnSyiC05Y_2YJfgACtwMAApGwiAf4pMEZ0MSiJAEAB20AAzQE@telegram)
所以我只能直接把這些 PG 刪掉哦……
你搞壞人家了
你等他backfill完
再看有哪些object丟了
你只能砍那17個
誰叫你急
但你要等其他東西跑完
是真的急(
本來看第一台機的 12 個 OSD 接管很正常
到第二台機按着教學跑指令 接管後 OSD 起不來
這種急不得
版本一樣ㄇ
一樣啊
用 cephadm 以前都升級去最新的 octopus
那接管之前服務有重啟ㄇ
沒有
[sticker](media:AAMCBQADHQI-bPsfAAEE4zll8oYgGudaqvSPtz6REOfD6RvYGwACUQAD9044FRYX5bXwa2N0AQAHbQADNAQ@telegram)
總之大家版本一樣
你是 mon osd 都有重啟ㄇ
有啊
那接管不成功的 log 勒
他會寫為啥拒絕啊
permission denied
/var/lib/ceph/.../osd.X/block permission denied
但是跳回去直接用 ceph-volume lvm activate 是沒問題的
交給 cephadm 就這樣
2% 要等半天 嗚嗚
不過我只有 S3 用 erasure pool
[sticker](media:AAMCBQADHQI-bPsfAAEE40Vl8oepREQAAfrFLA3GsZgCY-jaIc4AAoEAAz0G0QdpynSs28NbwQEAB20AAzQE@telegram)
object 數量有點多就是
急什麼
又不是不能用
你OSD刪了真的不能用了
我還有三台機要合併進去
有個新東西打算這週上線
你要先修好
我看他 EC 缺少副本
只能犧牲資料了
我等他 backfill 好再處理
你本來就該這樣
S3 還沒正式拿出來用 還好(
我們的live記錄檔都在上面
我知道 🙁
[sticker](media:AAMCBQADHQI-bPsfAAEE41Rl8onOaYWVx8zFbkPxa6_Jq5MlBwACtwMAApGwiAf4pMEZ0MSiJAEAB20AAzQE@telegram)
[sticker](media:AAMCBQADHQI-bPsfAAEE41Vl8o5xCUkbIu4pn8mBucNBHuUAAWgAAsIAA4C6CwrsmEsY8ph-NAEAB20AAzQE@telegram)
明明就有 ceph osd safe-to-destroy
他就會跟你說不行了
你這個東西說要拿也說了好幾年了
他那麼懶又那麼急,你咋會覺得他會願意多打這些字看到不能砍
你……
難道不是事實ㄇ ._.
急只是因為趕上線 嗚嗚
平時真不急
對,所以可以一放好幾年
s3 上線
他明明有個check
safe to destroy
還會要你打yes-i-really-mean-it
這是自殺救不了
就 ceph osd rm xxx
沒提示誒……
我知道他平時會有
[photo](media:AgACAgUAAx0CPmz7HwABBONoZfLN-jPlbYrxrCCbVH0W71xi1FUAAkO5MRtQu5lXQL6nIQirRC4BAAMCAANzAAM0BA@telegram)
等我把 ceph 處理好
[sticker](media:AAMCBQADHQI-bPsfAAEE42pl8s8qLnNfJHQeLJsZOkZr8vJXEAACAwMAAjZdCVWF1sNeuMXecgEAB20AAzQE@telegram)
有生之年系列
這證明了,不可靠的永遠是人
我自己 bucket 也受影響
只能忍痛了
咋,你又要砍 osd 了嗎
不是
[sticker](media:AAMCBQADHQI-bPsfAAEE43Nl8tOyIX5i5yG7nwrSZttFHUankQAClggAAikY-Vew7WoE_pW2QQEAB20AAzQE@telegram)
有點希望了
我看了一下其實沒超過 EC 保護能力
force recover 了
[sticker](media:AAMCBQADHQI-bPsfAAEE43dl8u3sWrwtmbj5DaprlXAy5FhUhwACSAIAAqjleVU-_p70-f2K4QEAB20AAzQE@telegram)
[sticker](media:AAMCBQADHQI-bPsfAAEE43hl8vpxoGCJXRsCW1jsWhzaThTaJwACUQAD9044FRYX5bXwa2N0AQAHbQADNAQ@telegram)