株式会社AbemaTV / 開発事業本部
SLI・SLO改善PJ
<プロジェクト概要> ・ABEMAの全てのAPIのエラーを0にしてサービスの信頼性を向上させることを目的にしたプロジェクト <担当業務> ・ASM(Istio)やhttp client, grpc clientにRetry機能の追加 ・古いマイクロサービスのエラーハンドリングのリファクタ ・サービスの起動時、終了時に発生する503エラーの解決 ・バグのアサインやタスク管理 <実績> ・既存の全てのAPIで発生していたエラーを0にした。 <取り組み> ・Istio, http, grpcなどのretry機能を最適化しネットワークなどが原因で発生する不定期なエラーを解消した。 ・podの起動時や終了時に大量に発生していた503エラーをIstioやアプリケーションの最適な設定、実装にすることでエラーが出ないようにした。 ・膨大な量のエラーがあったのでassignerでチームメンバーに割り振り、定例で状況共有などを行うことで解決スピードを高めた。