なぜ DynamoDB の Scan は遅くて高価なのか

Scan は テーブル内のすべてのアイテム を読み、その後でしかフィルタしません。SQL の筋肉記憶で手を伸ばしてしまう操作であり、後にしてきた RDS のボックスよりレイテンシを悪くしながら、静かに請求を膨らませる操作です。

なぜ DynamoDB の Scan は遅くて高価なのですか？

Scan は FilterExpression が実行される前にテーブル内のすべてのアイテムを読み取るため、返ってくる件数がどれほど少なくても、テーブル全体の読み取りに対して課金されます。そしてテーブルが成長するにつれて遅くなります。修正はほぼ常にキーイングされた Query です — アクセスパターンをキーを中心にモデリングし、DynamoDB がすべてではなく1つのパーティションに触れるようにします。

Scan は毎回テーブル全体を読む。 結果の件数ではなくサイズが、何を支払い、どれだけかかるかを決めます。
FilterExpression はコストについての嘘。 読み取りが計測された後に動くので、 12 件を返すのに 1200 万件を読んだ分が課金されることがあります。
Scan は成長するにつれ遅くなる。 キーイングされた Query は平坦なまま — テーブルがどれだけ大きくなっても1つのパーティションに触れます。
修正はほぼ常にチューニングではなくモデリング。 日常的な問いに答えるために Scan するなら、キーが欠けています。

Scan が実際に行うこと

SQL から来ると、SELECT * FROM events WHERE type = 'checkout' は無料に感じます — エンジンにはインデックスがあるかないかで、どちらにせよ行が返ってきます。DynamoDB には、それを決めてくれるクエリプランナーがありません。

Scan はテーブル全体を 1 MB ずつ順次歩き、各ページをあなたの FilterExpression に渡します。フィルタが拒否するものは、それでも読まれ、それでも計測され、それでもあなたの請求に載ります。（AWS: Scanning tables）

それが罠です。フィルタは WHERE 句に見えますが、結果セットを変えるだけで、コストは決して変えません。Scan は、フィルタがあろうとなかろうと、同じ読み取りキャパシティを消費します。（AWS: Scanning tables）

読み取りユニットを数える

DynamoDB は読み取りを 読み取りキャパシティユニット（RCU） で計測します。1 RCU は、最大 4 KB のアイテムの強い整合性のある読み取り1回を買います。結果整合性の読み取りはその半分です。大きなアイテムは次の 4 KB に切り上がります。（AWS: Read/write capacity mode）

分析テーブル ProductEvents を取り上げます。各行は1つの追跡イベントです。

PK  = "TENANT#acme"
SK  = "TS#2026-06-23T14:08:55Z#evt_9f3a"
attrs: eventType, sessionId, userId, payloadBytes

それが 2,000,000 件のイベントを保持し、各々約 1 KB で、すべて1つの忙しいテナントの下にあるとします。今日のチェックアウトが欲しいとします。反射的な一手：

Scan ProductEvents
FilterExpression: eventType = "checkout"

そのフィルタは 40 行を返すかもしれません。しかし Scan はまず 2,000,000 件すべてを読みました。各々約 1 KB（4 KB あたり 1 RCU、結果整合性で 4 KB あたり ≈ 0.5 RCU）で、40 件を渡すために、おおよそ 250,000 RCU を計測し — 約 500 MB のデータをページ送りしました。

今度はアクセスパターンをキーとしてモデリングし、代わりに Query します。

Query ProductEvents
PK = "TENANT#acme"
AND SK begins_with "TS#2026-06-23"

これは1つのパーティションのマッチしたスライスだけを読みます。それら 40 件のチェックアウト行とその日の他のイベントが約 2 MB になるなら、500 MB ではなく約 2 MB の読み取りを支払います。同じ答え、ごくわずかなコスト — そしてテーブルが成長してもレイテンシは平坦なままです。

Scan と Query、計測して

	Scan + フィルタ	キーイングされた Query
読み取り	テーブル内のすべてのアイテム	1つのパーティション、SK で絞り込み
課金キャパシティ	フィルタ前のテーブル全体	スライス内のアイテムだけ
私たちの例	約 250,000 RCU（約 500 MB）	数百 RCU（約 2 MB）
レイテンシ	テーブルサイズとともに増加	テーブルが成長しても平坦
結果件数	コストについて何も決めない	支払うものと一致する

この表がエンコードする教訓：Scan では、結果件数と請求は無関係です。Query では、それらは互いを追跡します。

Scan する前に決める

たいていの偶発的な Scan は1つの問いから来ます。必要なパーティションを名指しできるか? できるなら、それは Query です。できないなら、修正はより大きなフィルタではなくキーです。

フロー図にした決定がこちらです。

その道はほぼ常に Query で終わります。キー — 既存のものでも追加可能なものでも — がアクセスパターンに合わないときだけ、Scan に落ちます。

パターンが実在し繰り返されるのにベーステーブルがキーイングできないなら、それはグローバルセカンダリインデックスを追加して問いを Query にするサインです。アクセスパターンを中心に前もってキーをモデリングすることがゲームのすべてです — シングルテーブル設計を参照してください。

フィルタではなく、キーイングされたクエリを書く

キーを超えた条件が本当に必要なときは、すべてを FilterExpression に詰め込むのではなく、意図的に構築しましょう。DynamoDB Expression Builder が KeyConditionExpression と属性プレースホルダーを生成するので、パーティションキーとソートキーが絞り込みをします — DynamoDB が読み取りを計測する後ではなく、前に。

KeyConditionExpression: PK = :tenant AND begins_with(SK, :day)

Scan が実際に問題ないとき

Scan は禁止ではありません — ただ間違ったデフォルトなだけです。本当に「すべてを読む」を意味するときには、正しい道具です。

手で実行する1回限りのエクスポート やバックフィル。
小さな設定/参照テーブル — テーブル全体が数 KB のところ。
バックグラウンドジョブ — 意図的にテーブル全体をページ送りするもの。1本の長い順次クロールではなく、Segment / TotalSegments でワーカー間に分割します — 並列スキャン です。（AWS: Scanning tables）

そして PartiQL は救ってくれないことに注意してください。キー述語のない SELECT * FROM ProductEvents WHERE eventType = 'checkout' は、まっすぐ Scan にコンパイルされます。SQL の衣をまとった同じ落とし穴です。（完全な分解は Query と Scan を参照。）

DynamoDB が表現できないアイテム横断の分析 — GROUP BY、JOIN、集計 — が本当に必要なときは、DynoTable の SQL Workbench が、テーブルを全 Scan で叩く代わりに、限定された結果セットに対してクライアント側でそれらを実行します。

次のステップ

キャパシティ計算機でどちらのパターンがどれだけかかるか見積もり、API レベルの対比は Query と Scan を読み、 DynoTable をダウンロードして自分のテーブルに対してこれらを実行し、消費したキャパシティを自分の目で見てください。