サーバレスのサムネイル

サーバレス

CloudFlare Workers AIの料金体系・無料枠まとめ

サーバーレスで誰でも気軽にAIを使うことができる「CloudFlare Workers AI」の料金体系、無料枠について解説します。

編集ノート:SERVERSUSでは、パートナーリンクからコミッションを得ています。コミッションが記事の意見や、サービスの評価に影響を与えることはありません。

CloudFlare Workers AIの料金体系 (2024年10月1日以降)

従来はトークン数に合わせて課金をする形式だったWorkers AIですが、モデルサイズ・タスクごとのごとの課金にリニューアルされました。

テキスト系モデル

モデルタスク課金単位モデルサイズ価格
LLMsトークン in/out<= 30億パラメータ$0.10 / 百万トークン
LLMsトークン in/out31〜80億パラメータ$0.15 / 百万トークン
LLMsトークン in/out81〜200億パラメータ$0.20 / 百万トークン
LLMsトークン in/out201〜400億パラメータ$0.50 / 百万トークン
LLMsトークン in/out401億〜パラメータ$0.75 / 百万トークン
Embeddings
(埋め込み表現)
トークン in<= 1億5千万パラメータ$0.008 / 百万トークン
Embeddings
(埋め込み表現)
トークン in1億5千100万〜パラメータ$0.015 / 百万トークン
Speech-to-text音声の1秒あたり-$0.0039 / 1分の録音

比較的近いモデルのAI利用料金と比較すると、Open AIの「gpt-4o-mini」のAPI料金が百万入力トークンで$0.15(2024年11月12日現在)。gpt-4o-miniは数十億パラメータ程度と言われているため、Workers AIの新料金は、Open AIのgpt-4o-miniと同等か若干安いと言えます。

なお、Open AIの最新モデル「gpt-4o」は百万入力トークンで$2.5(2024年11月12日現在)。gpt-4oはパラメータ数が1.8兆とも言われているため、gpt-4oレベルのモデルをWorkers AIで使うことはできません。

画像系モデル

画像サイズモデルタイプステップ価格
<=256x256標準25$0.00125 / 25ステップ
<=256x256高速5$0.00025 / 5ステップ
<=512x512標準25$0.0025 / 25ステップ
<=512x512高速5$0.0005 / 5ステップ
<=1024x1024標準25$0.005 / 25ステップ
<=1024x1024高速5$0.001 / 5ステップ
<=2048x2048標準25$$0.01 / 25ステップ
<=2048x2048高速5$0.002 / 5ステップ

CloudFlare Workers AIの無料枠 (2024年10月1日以降)

新しいWorkers AIの課金モデルでは、以下の無料枠が設定されています。

モデル無料枠
テキスト生成(LLM)1万トークン / 日
(全てのモデル)
埋め込み表現(Embeddings)1万トークン / 日
(全てのモデル)
画像生成250ステップ(1024x1024ピクセルまで)
音声10分 / 日

用途ごとに分かれたことで、それぞれのAIを満遍なく使うようなケースでは無料枠で収まることもあるでしょうし、何よりも低額からスタートできるため、比較的気軽にAIプログラムを作成できることがメリットでしょう。

面白いのは、課金はモデルごとに異なるのに、無料枠は全てのモデルが使えるという点。トークンは英語なら1トークン1単語、日本語なら1文字1〜3トークンと言われているので、1万トークンだと日本語では3,000文字程度と、個人で使ったとしてもすぐに上限に達してしまいます。

また、テキスト生成などは入出力合計という点も注意が必要です。気づいたら膨大な金額が課金されてるということもあり得るため、プログラムやバッチなどで使う場合はきちんと見積もりを出してから使うようにしましょう。

旧料金 (2024年9月30日以前)

料金体系

Cloudflare Workers AIは「処理で使用したニューロン数」によって課金される従量課金システムになっています。

従量課金のベースは二つ種類が用意されています。

  1. Regular Twitch Neurons (RTN):1,000ニューロンあたり0.01ドル。
  2. Fast Twitch Neurons (FTN):1,000ニューロンあたり0.125ドル。

RTNは実行するデータセンターを指定しない場合の方法で、FTNはその名の通り、ユーザーの最寄りのデータセンターで処理をする方法です。

この二つがどのように使い分けられるかは現状では明らかにされていません。

CloudFlare Workers AIの「ニューロン」とは?

ニューロンという単位がイメージがしづらいですが、Cloudflaredは以下のように解説しています。

ニューロンは、AIの出力を測定する方法であり、常にゼロにスケールダウンする(使用量がゼロの場合、0ニューロン分の料金が課金される)。 1,000個のニューロンで何ができるかというと、130個のLLM応答、830個の画像分類、1,250個の埋め込みを生成できる。

ただし、料金については2024年2月1日現在「予定価格」とされていて、現時点ではベータ版を使ったとしても課金はされません。

Workers AI:Cloudflareのグローバルネットワーク上でサーバーレスGPUによる推論を実現 | Cloudflareブログ

無料枠

2024年2月1日現在、Cloudflare Workers AIはオープンベータ版のため、有料プラン・無料プランどちらのユーザーも無料で使うことができます。

ただし、利用の際には以下のリクエスト制限があるほか、事前告知なしで制限が加わる可能性もあるとしてます。

  • @cf/meta/llama-2-7b-chat-int8: 50 リクエスト
  • @cf/openai/whisper: 4000 リクエスト/分
  • @cf/meta/m2m100-1.2b: 4000 リクエスト/分
  • @cf/huggingface/distilbert-sst-2-int8: 6000 リクエスト/分
  • @cf/microsoft/resnet-50: 6000 リクエスト/分
  • @cf/baai/bge-base-en-v1.5: 6000 リクエスト/分

Limits | Cloudflare


価格は記載がある場合を除き、すべて税込みです。

関連キーワード

サーバレスの新着記事