求人ID : 10022
投稿日 : 2026-02-05
業界 : IT・情報サービス
雇用形態 :
正社員, 常勤
必須スキル : infrastructure, Linux, networking, internal developer , SRE, Kubernetes
市区町村 : 東京(リモート)
都道府県: 東京(リモート)
国 : 日本
年俸 : 8,000,000 ~ 14,000,000
仕事内容
魅力的な点:
- 本番環境GPUクラスタプラットフォームのエンドツーエンドの所有権 ミッションクリティカルなワークロードを実行するGPUクラスタのアーキテクチャ、プロビジョニング、標準化、ライフサイクル管理を主導します。
- 大規模システムに信頼性と運用上の卓越性をもたらします。 自動化を第一に考え、SLO/SLI、可観測性、安全なロールアウト、インシデント対応ワークフローを設計します。
- パフォーマンス重視の大規模な異種インフラストラクチャの構築に取り組みます。多様なGPU世代とプラットフォームにわたるキャパシティプランニング、使用率最適化、信頼性に関する課題に取り組みます。
年収:800万円以上
職務内容:
- GPUクラスタのアーキテクチャと運用(プロビジョニング、ノードイメージ、ドライバー/ランタイムライフサイクル、GPUプラグイン/オペレーターライフサイクル、サービングプールとシステムサービスの標準化されたデプロイメントパターン)を所有します。
- 本番環境のベースラインを定義および維持します。ゴールデンノード構成、クラスタの強化、アップグレードパス、そして「既知の良好な」互換性マトリックス(ドライバー ↔ CUDA ↔ ランタイム ↔ カーネル)です。
- プラットフォームに信頼性を組み込みます。SLO/SLI、アラート品質、ランブック、インシデントツール、そして実際のフォロースルー(自動化、ガードレール、インシデントの再発防止)を伴う事後検証です。
- 安全なデリバリーを実現します。カナリアデプロイ、段階的なロールアウト、ロールバックパス、そして構成の安全性(検証、ガードレール、変更管理、安全なデフォルト設定)です。
- フリートの健全性とメンテナンスワークフローを独自に構築します。ノードのドレイン、GPUの隔離、自動修復、定期メンテナンス、そして監査可能な安全な「ブレイクグラス」手順です。
- キャパシティと使用率を実現します。スケジュール制約、ビンパッキング/フラグメンテーション管理、ウォームプール、自動スケーリングプリミティブ、そして製品階層と公平性目標に沿ったクォータ適用フックです。
- 可観測性:ゲートウェイ → サービス → GPU 間のメトリクス/ログ/トレース、レイテンシの内訳、飽和シグナル、キュー深度、GPU メモリ/コンピューティング メトリクス、フリート ヘルス ダッシュボードなど、顧客の症状と根本原因の相関関係を把握するのに役立つ情報を提供します。
- 異機種混在環境への本番環境対応:ハードウェア世代や進化するサーバー プラットフォーム間の差異を管理し、信頼性リスクを最小限に抑えながら利用率を向上させます。
- セキュリティ ベースライン:シークレット管理、最小権限アクセス、オペレーター アクションの監査証跡、安全な運用ワークフロー。
- ネットワークとの連携:トポロジ、障害ドメイン、負荷分散、テール レイテンシと可用性に影響を与えるパフォーマンス重視のトラフィック パス。
- 運用ツールの構築:フリート管理、デバッグ ワークフロー、安全な管理アクション、キャパシティ ツール、メンテナンス自動化により、MTTR を短縮し、オペレーターの効率を向上します。
- チーム間の連携:ロールアウト計画、ヘルス セマンティクス、キャパシティ シグナル、障害処理を調整し、プラットフォーム全体が負荷下でも予測どおりに動作するようにします。
応募資格:
- 本番環境の分散システムにおけるインフラストラクチャ/SRE/プラットフォームエンジニアリングの5年以上の経験。
- 本番環境におけるKubernetes(または同等のオーケストレーション)の豊富な経験があり、運用責任者としての実務経験があること。
- GPUクラスターやその他の高性能コンピューティングフリート(または同様にパフォーマンス重視のインフラストラクチャ)の運用経験があること。
- Linux、ネットワーク、分散システムの障害モードを網羅した強力なデバッグスキルがあること。
- 優れた運用規律:自動化を第一に考える姿勢、測定可能な信頼性、慎重な変更管理、インシデント発生時の明確なコミュニケーション能力があること。
- 自社システムのオンコールローテーションに参加する意思があること。
歓迎
- 高スループットゲートウェイ/サービスメッシュ(例:Envoy)、OpenTelemetry、マルチリージョンアーキテクチャの経験があること。
- Slurm/HPCスタイルのスケジューリング、RDMA/IB、またはパフォーマンス重視のネットワークの経験があること。
- 一貫したデプロイ/ロールバックワークフローのための社内開発プラットフォームと「ゴールデンパス」の構築経験があること。
- GPUドライバー/ランタイムのアップグレードをフリート全体で安全に管理した経験(互換性テストと段階的なロールアウト)。
- レイテンシに敏感なシステムの観測パターン(リクエスト相関、サンプリング戦略、高カーディナリティメトリクス制御)に関する知識。
語学力:初級レベルの日本語(JLPT N5)、ビジネスレベルの英語
会社概要
当社は、データセンター開発において、設計から運用までエンドツーエンドのサポートを提供しています。高度な技術を活用し、効率的な設計、施設建設、信頼性の高い運用管理を実現することで、企業のITインフラの最適化を支援します。
さらに、セキュリティ対策と災害対策を強化し、ビジネスの成長を促進する安定した運用環境を実現します。