(つ`ω´)つ => Ubuntu 台灣社群: GPT-5.5 漲價：實際成本有多高？（★ 102 分） OpenRouter 針對 GPT-5.5 進行成本分析，指出這個模型相較 GPT-5.4 名目價格提高 2 倍：輸入從每百萬 token（模型處理與計費的文字單位）5 美元，輸出從每百萬 token 30 美元。OpenAI 表示 GPT-5.5 回覆更精簡，OpenRouter 因此比較從 GPT-5.4 轉用 GPT-5.5 的同一批使用者，觀察實際帳單成本變化。結果顯示，GPT-5.5 的實際成本增加約 49% 到 92%，較短回覆只能部分抵銷漲價。分析顯示，GPT-5.5 只有在長提示詞時明顯更精簡：超過 10K token 的提示詞，完成回覆長度減少 19% 到 34%；但小於 2K token 時回覆長度反而略增 7%，2K 到 10K token 區間更增加 52%。換算成每百萬 OpenRouter token（OpenRouter 自行統一計數的 token）的平均成本，短提示詞漲幅最大，小於 2K token 增加 92%，2K 到 10K token 增加 69%；長提示詞雖因輸出變短而受惠，但成本仍增加 49% 到 85%。OpenRouter 的樣本排除圖片、檔案、音訊、影片、取消請求與零 token 請求，並比較 GPT-5.4 上線前與 GPT-5.5 上線後的文字請求紀錄。 Hacker News（科技新聞討論站）留言對這份分析的主要質疑集中在方法論：有人指出 OpenRouter 沒有控管「完成同一任務需要幾個互動回合」，而較強模型若能用更少回合完成代理式寫程式（agentic coding，讓模型自主分解並執行程式開發任務），實際效率可能比單次回覆長度更重要。也有人批評文章未揭露樣本數與輸入、輸出長度分布，建議用分布圖檢查 GPT-5.4 與 GPT-5.5 的工作負載是否真的可比。部分留言認為更好的評估方式應是以任務目標為準，例如修好程式碼、通過測試或解開問題，而不只是比較每個 token 的成本。討論中也出現更廣泛的看法：有使用者認為近期大型語言模型（LLM, Large Language Model）未再帶來直覺上的品質躍升，可能進入效能瓶頸或算力供需緊張期；也有人認為需求持續上升，供應商可能仍在虧本提供推論服務，因此透過漲價、提高效率或調整限制來平衡成本。相反地，也有留言表示 GPT-5.5 在遵循指令與持續完成任務上明顯優於 GPT-5.4，不再需要頻繁要求「繼續」，即使較貴也願意使用。另有實測者指出，在真實工程任務中 GPT-5.5 約貴 1.5 到 2 倍，只有最高推理等級 xhigh 較值得採用；也有人回報自己的基準測試成本約提高 3.5 倍，顯示 GPT-5.5 的成本效益高度取決於使用情境、任務類型與推理等級。 👥 22 則討論、評論 💬 https://news.ycombinator.com/item?id=48057209 #69fdf188fd894d86ff4adec4

(つ`ω´)つ says to Ubuntu 台灣社群

GPT-5.5 漲價：實際成本有多高？（★ 102 分） OpenRouter 針對 GPT-5.5 進行成本分析，指出這個模型相較 GPT-5.4 名目價格提高 2 倍：輸入從每百萬 token（模型處理與計費的文字單位）5 美元，輸出從每百萬 token 30 美元。OpenAI 表示 GPT-5.5 回覆更精簡，OpenRouter 因此比較從 GPT-5.4 轉用 GPT-5.5 的同一批使用者，觀察實際帳單成本變化。結果顯示，GPT-5.5 的實際成本增加約 49% 到 92%，較短回覆只能部分抵銷漲價。分析顯示，GPT-5.5 只有在長提示詞時明顯更精簡：超過 10K token 的提示詞，完成回覆長度減少 19% 到 34%；但小於 2K token 時回覆長度反而略增 7%，2K 到 10K token 區間更增加 52%。換算成每百萬 OpenRouter token（OpenRouter 自行統一計數的 token）的平均成本，短提示詞漲幅最大，小於 2K token 增加 92%，2K 到 10K token 增加 69%；長提示詞雖因輸出變短而受惠，但成本仍增加 49% 到 85%。OpenRouter 的樣本排除圖片、檔案、音訊、影片、取消請求與零 token 請求，並比較 GPT-5.4 上線前與 GPT-5.5 上線後的文字請求紀錄。 Hacker News（科技新聞討論站）留言對這份分析的主要質疑集中在方法論：有人指出 OpenRouter 沒有控管「完成同一任務需要幾個互動回合」，而較強模型若能用更少回合完成代理式寫程式（agentic coding，讓模型自主分解並執行程式開發任務），實際效率可能比單次回覆長度更重要。也有人批評文章未揭露樣本數與輸入、輸出長度分布，建議用分布圖檢查 GPT-5.4 與 GPT-5.5 的工作負載是否真的可比。部分留言認為更好的評估方式應是以任務目標為準，例如修好程式碼、通過測試或解開問題，而不只是比較每個 token 的成本。討論中也出現更廣泛的看法：有使用者認為近期大型語言模型（LLM, Large Language Model）未再帶來直覺上的品質躍升，可能進入效能瓶頸或算力供需緊張期；也有人認為需求持續上升，供應商可能仍在虧本提供推論服務，因此透過漲價、提高效率或調整限制來平衡成本。相反地，也有留言表示 GPT-5.5 在遵循指令與持續完成任務上明顯優於 GPT-5.4，不再需要頻繁要求「繼續」，即使較貴也願意使用。另有實測者指出，在真實工程任務中 GPT-5.5 約貴 1.5 到 2 倍，只有最高推理等級 xhigh 較值得採用；也有人回報自己的基準測試成本約提高 3.5 倍，顯示 GPT-5.5 的成本效益高度取決於使用情境、任務類型與推理等級。 👥 22 則討論、評論 💬 https://news.ycombinator.com/item?id=48057209

at Fri, May 8, 2026 10:21 PM