大型語言模型成本、代理與編程工具

大型語言模型成本、代理與編程工具 | 原創，AI翻譯

Home 2025.08

優化LLM API成本
- 首先使用成本效益較高的模型
- 避免不必要的高端模型使用
- 簡單任務優先選擇NLP庫
- 建立專屬代理以提升效率
- 通過廣泛測試比較模型
Deepseek與Mistral的API使用
- DeepSeek成本隨緩存失誤增加
- Mistral開支主要來自輸出令牌
- Grok定價明顯偏向輸入令牌
- 任務複雜度影響令牌使用量
- 實際費用符合文件記載費率
通用代理與垂直代理
- 通用代理應對複雜問題時表現不佳
- 垂直代理在專業領域表現優異
- 工作流程工具限制靈活性
- 自定義Python代理提供更多控制
- 便利性與功能性的權衡
挑剔工程師對AI編程工具的見解
- 重視實用性而非品牌光環
- VSCode + Copilot仍是可靠組合
- Claude Code的差異化編輯令人印象深刻
- 語法工具需手動驗證
- 實踐比盲目採用更重要

優化LLM API成本

2025.08

來源：openrouter.ai

在優化令牌使用時，建議先從成本效益較高的模型開始。若遇到問題，再考慮升級至更高級的模型。Mistral、Gemini Flash和DeepSeek通常較為經濟實惠，而Claude Sonnet則較為昂貴。重要的是了解Claude Code如何使用以下顯示的路由器。

最近我有一次因忽略此原則而導致高額成本的經歷。當時我為了確定最高使用量而嘗試達到極限，這並非理性做法，只需簡單計算即可。例如，我真的需要Sonnet 4嗎？未必。雖然我認為它是Anthropic更先進的模型，且在OpenRouter上排名靠前，但我並不了解Sonnet 4與Sonnet 3.5之間的具體差異。

最近從Replit創始人Amjad Masad的訪談中學到了一些寶貴的東西。對於許多任務而言，並不需要非常先進的模型。理想情況下，如果能完全避免使用LLM API就更好了。某些NLP庫對於簡單任務非常有效，例如HanLP在處理中文任務時表現出色。

此外，我們可以開發自定義或專屬代理，從一開始就高效處理任務。Claude Code未必是所有任務的最佳或最具成本效益的解決方案。

要了解不同模型之間的差異，可以通過廣泛使用並比較其表現。使用Gemini 2.5 Flash一段時間後，我發現它的能力確實不如Sonnet 4。

幾天後，我使用以下配置來幫助優化。參數longContextThreshold非常重要。你可以定期清除Claude Code的控制台或重啟它。使用Claude Code編寫代碼時，很容易達到長上下文閾值。

{
  "PROXY_URL": "http://127.0.0.1:7890",
  "LOG": true,
  "Providers": [
    {
      "name": "openrouter",
      "api_base_url": "https://openrouter.ai/api/v1/chat/completions",
      "api_key": "",
      "models": [
        "moonshotai/kimi-k2",
        "anthropic/claude-sonnet-4",
        "anthropic/claude-3.5-sonnet",
        "anthropic/claude-3.7-sonnet:thinking",
        "anthropic/claude-opus-4",
        "google/gemini-2.5-flash",
        "google/gemini-2.5-pro",
        "deepseek/deepseek-chat-v3-0324",
        "deepseek/deepseek-chat-v3.1",
        "deepseek/deepseek-r1",
        "mistralai/mistral-medium-3.1",
        "qwen/qwen3-coder",
        "openai/gpt-oss-120b",
        "openai/gpt-5",
        "openai/gpt-5-mini",
        "x-ai/grok-3-mini"
      ],
      "transformer": {
        "use": [
          "openrouter"
        ]
      }
    }
  ],
  "Router": {
    "default": "openrouter,openai/gpt-5-mini",
    "background": "openrouter,google/gemini-2.5-flash",
    "think": "openrouter,qwen/qwen3-coder",
    "longContext": "openrouter,deepseek/deepseek-chat-v3.1",
    "longContextThreshold": 2000,
    "webSearch": "openrouter,mistralai/mistral-medium-3.1"
  }
}

通用代理與垂直代理

2025.08

Manus被宣稱為一款通用AI代理工具，但實際效果可能不佳。

其中一個原因是它運作非常緩慢，做了許多不必要的工作且效率低下。另一個原因是，若遇到複雜問題或觸及其弱點，任務很可能會失敗。

垂直代理之所以表現優秀，是因為它們高度專業化，專為特定任務設計。目前有數十種數據庫和上百種如Spring這樣的Web開發框架，還有許多Web框架如Vue或React。

Dify專注於使用AI連接工作流程，通過拖放方式定義AI工作流程。他們需要做很多事情來連接信息、數據和平台。

我也建立了一些簡單的代理，如Python代碼重構代理、語法修正代理、錯誤修復代理和文章合併代理。

代碼非常靈活，因此Dify只涵蓋了可能想法中的一小部分。

Manus通過VNC方法顯示電腦運作方式來執行任務並展示給用戶。

我認為未來將主要集中於這兩種方法。

對於Manus，你需要上傳代碼或文本來執行任務，這不太方便。而Dify則需要通過拖放來構建工作流程，類似於MIT Scratch。

為什麼Scratch沒有Python那麼受歡迎？因為Python可以做很多事情，而Scratch僅限於教育用途的簡單程序。

Dify可能也有類似的限制。

Manus可以處理許多簡單任務。然而，對於某些任務，尤其是觸及Manus弱點的任務，它會失敗。

此外，許多程序或服務需要時間設置。在Manus的方法中，這個過程很慢。

作為一名程序員，我使用Python與AI結合來建立我的垂直代理。這對我來說是最簡單的方法。我還可以設置提示和上下文，以確保LLM API的輸出相對穩定。

Manus和Dify也是基於這些LLM API構建的。它們的優勢在於已經準備了許多工具或代碼供使用。

如果我想建立一個Twitter機器人代理，使用Dify可能比自己使用開源技術構建更方便。

挑剔工程師對AI編程工具的見解

2025.08

最近，我成功運行了Claude Code，因此想分享我的工具選擇歷程。在此過程中，我還收集了一些AI工具技巧。

我採用Claude Code的時間很晚。

Claude Code大約於2025年2月底發布。

直到最近我才成功嘗試使用。其中一個原因是它需要Anthropic API，而該API不支持中國的Visa信用卡。

另一個原因是Claude Code Router的出現，使我最近的嘗試得以成功。

我一直聽到對它的讚譽。2025年7月，我嘗試了Gemini CLI，但在多次失敗後放棄了用它修復我的代碼。

我還嘗試了Aider，另一個軟件代理。大約六個月後，我停止了使用Cursor，因為許多基於VSCode的插件出現了故障。此外，我不太想給Cursor太多功勞，因為它是基於VSCode構建的。隨著VSCode中的Copilot插件最近有所改進且差距不大，我更傾向於使用它。

然而，VSCode是基於開源技術Electron構建的。很難將功勞歸於某個團隊或個人。考慮到許多大公司和初創企業都從開源項目中獲利，我必須關注我的預算和適合我的工具。我不必過於擔心功勞歸屬。我更喜歡使用經濟實惠且有效的工具。

我短暫嘗試過Cline，但並未採用。

我在VSCode中使用Copilot插件，並通過OpenRouter自定義模型Grok 3 beta，效果不錯。

我不認為Claude Code會改變我的習慣，但既然我能成功運行它，且有耐心再嘗試幾次，我將在未來幾週觀察感受。

作為擁有10年軟件工程經驗的挑剔用戶，我希望工具在實際使用中表現出色。我不在乎品牌，只在乎日常實用性。

在使用Claude Code修正這篇文章的語法後，我發現它在某些情況下表現良好。雖然我感謝AI在語法幫助方面的貢獻（我甚至寫了一個Python腳本來調用LLM API完成此任務），但我注意到了一個令人沮喪的模式——即使我要求最小限度的修正，工具仍會不斷顯示大量語法建議供審查。這種手動驗證過程違背了自動化的初衷。作為折衷方案，我現在讓AI處理整篇文章，儘管這種方式限制了我的學習機會，因為我無法看到具體的修正內容。

最讓我印象深刻的是Claude Code顯示變更的方式——類似git diff的前後對比，使審查編輯變得更加容易。

一天後，我還使用Claude修正了一些代碼。不過，我繼續使用Grok 3 beta模型的Copilot插件，因為它對我很簡單易用。

在使用Claude Code幾天後，我不得不說它非常令人印象深刻。我真的很喜歡它修正代碼的方式。

來源：自截圖

Deepseek與Mistral的API使用

2025.01.25

DeepSeek

一個月內，1500萬令牌花費了大約23.5元人民幣。

這是我一天的使用情況：

類型	令牌數量
輸入（緩存命中）	946,816
輸入（緩存未命中）	2,753,752
輸出	3,100,977

計算如下：

0.94 * 0.1 + 2.75 * 1 + 3.10 * 2 = 11.83

因此，根據任務的不同，令牌使用量主要取決於輸入（緩存未命中）和輸出。

這一結果符合預期成本。

DeepSeek API定價

來源：自截圖

Mistral

Mistral模型的定價如下：

模型	輸入（每百萬令牌美元）	輸出（每百萬令牌美元）
`mistral-large-2411`	2	6
`mistral-small-latest`	0.2	0.6

一天內，我的Mistral帳戶使用情況如下（模型：mistral-large-2411）：

類型	令牌數量	成本（美元）
總計	772,284	3.44
輸出	474,855	2.85
輸入	297,429	0.59

對於mistral-small-2409模型，總使用量為1,022,407令牌。

假設其中1/3為輸入令牌，2/3為輸出令牌：

輸入令牌為340,802，輸出令牌為681,605。

因此，總成本計算為340,802 * 0.2 / 1,000,000 + 681,605 * 0.6 / 1,000,000 = 0.07 + 0.41 = 0.48美元。

Mistral控制台報告的總使用成本為0.43美元，與我們的計算大致相符。

Grok

模型	輸入（每百萬令牌美元）	輸出（每百萬令牌美元）
`grok-2-latest`	2	10

Back Donate