FinOps実務で評価されるクラウドコスト最適化スキル完全ガイド
目次
夜勤明けにAWSの請求ダッシュボードを開き、NAT Gatewayの転送量が跳ね上がっているのを見て青ざめた日があります。FinOps(クラウドコスト最適化)は、設計・運用の腕前を数字で示せるスキルです。この記事では、現場でそのまま使える「可視化→タグ設計→予約購入→継続レビュー」の型をまとめました。
検索意図: Do / Consider(すぐ実践できる手順と、導入検討の判断材料を探している読者向け)
なぜ今FinOpsスキルが効くのか
- プロダクトのマージンが金利上昇でシビアになり、エンジニアが財務目線で語れるかが評価軸になっている。
- EKS/ECS・Lambda・S3・NAT・Data Transferなど多品種の料金体系が増え、設計ミスがそのままコスト暴走に直結。
- 転職市場では「Savings Plansをどこまで買うかを意思決定できる人」がまだ少なく、差別化ポイントになる。
まず決めるべき数値と責任分界
- コストオーナーの明確化: プロダクト単位でPOかVPoEかを決める。エンジニアは「提案と実行の責任」、最終判断はビジネス側に置く。
- 月次の予算レンジ: 例) 「今月120万円、±10%まではエンジニア判断で調整」。
- 主要KPI:
Unit Economics(1リクエスト/1ユーザーあたりコスト)とコストあたりのSLO達成率をセットで追う。
これを宣言してからタグやダッシュボードを設計するとブレない。
すぐ効く3ステップ(初週でできる)
1. 可視化の着手
- AWSなら Cost Explorer + クエリ式の「料金メタデータ」 をまず作成。サービス別・AZ別・UsageType別の積み上げを週次で確認。
- GrafanaやLooker Studioで「日次推移」「前週比」「前年比」の3つを並べるだけでも異常検知が早まる。
2. タグ設計と強制力
- 必須タグ例:
Service,Env,Owner,CostCenter,Project,Tier。 - Terraform/CDKに
tagブロックの共通モジュールを作り、未タグリソースはCIでブロックする。AWS ConfigやCloud Custodianで検知→Slack通知を流すと定着が早い。
3. 予約購入の初手
- まずは Compute Savings Plans 1年・前払いなし で、直近30日の安定利用分の50〜60%をカバー。
- RDS/Redshiftなど固定容量は RI で3年・一部前払いを検討。変動が大きい環境では無理に買わない。
ダッシュボードに載せるべき指標(テンプレ)
- 日次合計コスト、前週比・前月比
- サービス別トップ10、UsageType別(DataTransfer、NAT、EBS、Lambda GB-sec など)
- 単価トレンド: S3標準→IA→Glacier移行比率、EBS gp3化率
- Savings Plans/RI の適用率と未適用時間
- 環境別(Prod/Stg/Dev)・チーム別の配賦
- コスト異常アラート: 「日次20%超増加」「Data Transfer急増」「無タグリソース出現」
タグ設計を破らせないための実装例
- Policy as Code: Terraformに
required_tagモジュールを用意し、欠落時はPlanをFail。GitHub Actionsでtfvalidateを回す。 - 構築フローに埋め込む: Pull Request テンプレートに「必須タグチェックリスト」を追記。レビューコメントで機械的に弾ける仕組みにする。
- 後追い検知: AWS Config + EventBridgeで未タグリソースを検知し、Lambdaで自動タグ付け(Owner不明の場合は「tbd」)→週次で精査。
Savings Plans / RI の意思決定フレーム
- 前提データ: 過去60〜90日の利用量(オンデマンド換算)、季節変動、今後のリリース計画。
- 判断の軸
- 安定利用(基盤系ECS/EKS、常時稼働のバッチ)は3年RI/Compute SPで厚めに。
- スパイクが大きいワークロード(キャンペーン、機械学習ジョブ)はオンデマンド+短期SPにとどめる。
- 途中解約不可なので、1年SPでウォームアップ→3年RI/SPに拡張の順が安全。
- 失敗しない比率: 初回は総利用量の50〜60%をカバーし、月次で10%ずつ増やす。
ネットワークとストレージでやりがちな落とし穴
- NAT Gatewayの転送量: プライベートサブネットからの外向き通信を踏み台経由に寄せる、またはVPCエンドポイント/S3 Gatewayを活用。
aws_ec2_instance_metadata_optionsでIMDSv2を強制し、ミス配置の踏み台を減らす。 - Egressの可視化不足: CloudWatch Metric StreamsやVPC Flow LogsをAthena/CloudWatch Logs Insightsで集計し、「上位送信先×送信量」で毎週確認。
- S3ストレージクラス移行: LifecycleルールでIA/Glacierへ自動移行。アクセス頻度のわからないバケットはS3 Analyticsで90日観測後に移行。
FinOpsスキルを「実績」に変えるアウトプット例
- 月次FinOpsレポート(テンプレ案)
- 先月比/前年同月比、主要増減要因3点、取った施策と効果、翌月の意思決定案(例: SP追加、AZ分散見直し)。
- 1枚目は経営層向けのグラフ、2枚目以降に技術詳細を置く。
- 再現可能なGitHubリポジトリ
- Terraformモジュールでタグ強制・Cost Anomaly Detector・Savings Plansカバレッジレポート作成Lambdaを同梱。READMEに削除手順と想定コストを書く。
- ダッシュボード共有
- Looker Studio/Grafanaのエクスポートを添付し、誰でも同じビューを再現できる状態にする。
30日でFinOpsを習得するロードマップ(週6時間想定)
- Day1-7: Cost Explorerとタグ方針を整備。Terraformの共通タグモジュールを実装し、未タグ検知をCIに追加。
- Day8-14: Savings Plansの購入シミュレーションを回し、1年SPを小さく購入。ダッシュボード(前週比・サービス別・異常検知)を作成。
- Day15-21: ネットワーク/ストレージのトップコストを洗い出し、NAT/データ転送/ストレージクラスを最適化。効果をレポート化。
- Day22-30: 月次レポートのテンプレを固め、経営層向けに発表。結果と次の意思決定案を文章化し、GitHubで再現リポジトリを公開。
転職・評価での活かし方
- 職務経歴書に 「Cost Explorerダッシュボード設計」「Savings Plansカバレッジ60%→85%に改善」「NAT転送費を30%削減」 などの数字を入れる。
- 面接では「意思決定フレーム」を具体例付きで説明。オンデマンド→1年SP→3年RIに段階的に踏む話は評価されやすい。
- 次に読むと相性が良い記事: クラウドインフラエンジニアで1000万を超える方法
いますぐできるチェックリスト
- Cost Explorerで「サービス別×UsageType」の日次グラフを保存し、Slackに週次投稿する。
- Terraform/CDKに必須タグモジュールを追加し、CIで未タグリソースをブロックする。
- 直近30日の安定利用量の50%でCompute Savings Plansを1年分購入するシミュレーションを走らせる。
- NAT Gateway転送量の上位送信先をFlow Logsで確認し、VPCエンドポイントで置き換えられるものをピックアップする。
- 月次FinOpsレポートのドラフトを作成し、KPIと今月の施策候補を1枚にまとめる。
クラウドコストは「見える化→タグ→予約購入→定例レビュー」の順で回すだけで安定します。FinOpsスキルは設計や運用の改善と直結し、給与や評価に数字で跳ね返る即効性の高い武器です。今日このあと、Cost Explorerを開いて最初のダッシュボードを保存してください。そこから習慣が始まります。