フォーム読み込み中
ご覧いただきありがとうございます。クラウドエンジニアの今井です。
前編では、Alibaba Cloudの公式コンテンツを役割ごとに整理しました。どの目的でどのページを見るのかをあらかじめ把握しておくことで、情報収集の迷いを減らすことができます。
後編では、実際にトラブルが発生したときの進め方をまとめます。特定のエラーに対する個別の解決策ではなく、さまざまな状況に応用できる確認の順序と考え方を整理します。
Alibaba Cloudはサービスの種類が多く、構成の自由度も高いため、トラブル発生時に確認すべき範囲が広がりやすい傾向があります。本記事では、調査の出発点を明確にし、エラーメッセージの有無に応じた進め方を整理します。あわせて、問い合わせに進む場合の基本的な流れも紹介します。
単に「トラブル」といっても、その内容は多岐にわたります。処理が失敗する場合もあれば、応答が遅い、一部だけ動作しないなど、事象はさまざまです。そのため、すべてのケースに当てはまる唯一の正解となる調査手順があるわけではありません。
本記事では、そのような前提のもと、実務で使いやすい一般的な調査の流れを紹介します。
事象を具体的に整理する
エラーメッセージの有無で調査方針を決める
必要に応じてクラウド側の影響を確認する
自分側の設定や構成を確認する
解決しない場合はAlibaba Cloudへ問い合わせる
まず事象を具体的に整理することで、自分自身が状況を正確に把握できます。そのうえで、エラーメッセージがある場合はその内容を起点に確認対象を絞り込みます。エラーがない場合は、事象を条件ごとに分解し、確認の方向を定めます。
独力での調査が難しい場合でも、ここまで整理できていれば、Alibaba Cloudへ問い合わせる際に状況を伝えやすくなります。以降では、それぞれの段階について詳しく見ていきます。
最初に行うのは、起きている事象を具体的にすることです。例えば「ECSが動かない」といった表現のままでは、どの情報を確認すべきかが決まりません。
単に「ECSが動かない」ではなく、次のような情報をまとめます。
【リソース情報】
・プロダクト名
・リージョン
・インスタンスID
・リクエストID
【事象】
・発生時刻
・実行した操作
・実行した結果
・以前は期待通り動作していたか
・直前に変更した内容
・現在も継続しているか
筆者の経験上、特に気を付けるとよいポイントは次の通りです。
プロダクト名はサブサービスやバージョンも記載
プロダクト名は、サブサービスやバージョン情報を含めて記載します。サービスやバージョンにより仕様が異なるためです。代表的なものでいうと、SLBはALB、NLB、CLB、GWLBといったサブサービスがあります。WAFやCloud Monitorはそれぞれ、WAF 2.0と3.0、Cloud MonitorとCloud Monitor 2.0があります。データベース系のプロダクトもデータベース管理システムにより仕様が異なります。
インスタンスIDをインスタンス名よりも優先的に記録
インスタンス名よりもリソースを一意に特定することができるインスタンスIDのほうが優先度が高いです。プロダクトによりますが、インスタンス名は同じ名称をつけることが可能であり、リソースを一意に特定できません。Alibaba Cloudへの問い合わせ時は、まずインスタンスIDを聞かれます。
リクエストIDがある場合はリクエストIDを記録
リクエストIDは、Alibaba Cloud管理コンソール上やAPI実行ログなどに表示されます。このリクエストIDにはどのような操作を行ったのかとその結果が紐づいているため、Alibaba Cloudへ問い合わせる際にあると便利です。
スクリーンショットの取得が有効
Alibaba Cloud管理コンソール上で発生した事象の場合、スクリーンショットを取得することで、事象を記録することも有効です。Alibaba Cloudへ問い合わせる場合、Alibaba Cloudのサポート担当者の多くが中国語または英語を用いることから、これらの内いずれかの言語でスクリーンショットを撮影しておくと良いかもしれません。
トラブルシュートでは、エラーメッセージがあるかどうかで、調査の出発点が変わります。
基本は、エラーメッセージを起点に進めます。Alibaba Cloudのエラーコードやメッセージには、原因の種類が示されていることが多くあります。やみくもに設定画面を見て回るのではなく、まずエラーの内容から確認対象を絞ります。
エラーの方向性は、概ね次のように分かれます。
権限不足を示すエラー
操作を実行するユーザに対して適切な操作権限を付与する。必要な権限はエラーメッセージに記載されていることが多い。
制限値やクォータを示すエラー
制限値やクォータの引き上げを行う。管理コンソールから自身で上限引き上げを行える場合もあるが、Alibaba Cloudに対して上限の引き上げ依頼が必要となる場合もある。
パラメータ不正を示すエラー
必須パラメータの不足や値の形式に問題がないかを確認する。
リソースが存在しないことを示すエラー
選択しているリージョンに誤りがないかやリソースIDが正しいか確認する。
上記の通り、エラーメッセージを読めば対処方法がわかる場合が多いです。また、詳細を確認したい場合には、Product Documentationにて該当機能やエラーコードで検索をかけると、詳細情報が記載されたドキュメントがヒットする場合があります。
明確なエラーが出ないケースのほうが難易度は高いです。
処理が遅い
一部だけ失敗する
時々タイムアウトする
接続はできるが挙動が不安定
想定と異なる動きをする
このようなケースでは、調査の出発点を自分で作る必要があります。
エラーメッセージの有無に関わらず、Alibaba Cloud側で障害や仕様変更が発生していないかは早い段階で確認しておきます。
Health Statusでは、リージョンごとのサービス状態を確認できます。アクセスしづらい、レスポンスが遅い、同じ操作が急に失敗し始めたといった場合は、最初に確認します。対象リージョンと対象サービスの状態を確認し、影響が掲載されていないかを見ます。
Service Noticesでは、仕様変更やメンテナンス、料金変更などの告知を確認できます。挙動が変わったように見える場合や、料金が増加した場合は、対象プロダクトと適用時期を確認します。トラブルシュート時に限らず、日頃から自分が利用しているプロダクトに関する告知を収集しておくと、影響がでる前に対処しやすくなります。
ここで該当情報が見つからない場合は、自分側の設定確認に進みます。
エラーがない場合は、事象を条件ごとに分けて考えます。次のような観点で整理すると、確認の方向が定まります。事象を整理した際に記録済みであれば、それがそのまま使えます。
常に発生するか、断続的か
特定リージョンだけか、複数リージョンで発生するか
特定リソースだけか、全体で発生するか
特定操作だけか、複数操作で発生するか
特定時間帯に偏っていないか
例えば「遅い」という事象でも、次のような違いがあります。
特定リージョンのみ遅い
リージョン単位での障害の可能性
特定の時間帯だけ遅い
特定の時間帯のみ通信量が増加している可能性
特定のAPIだけ遅い
APIの仕様やバグの可能性
条件が整理されることで、確認すべき対象が見えてきます。
通信が不安定な場合、まずネットワーク層とアプリケーション層を分けます。
TCP接続は確立できるか
DNSは解決できるか
HTTPレスポンスは返るか
接続自体が確立しない場合は、セキュリティグループやルートテーブルを確認します。接続はできるが応答が遅い場合は、アプリケーション側やバックエンドの状態を確認します。エラーがないケースでは、この層の切り分けが重要になります。
明確なエラーが出ていない場合でも、直前変更は有力な手がかりになります。
セキュリティグループの変更
ルートテーブルの更新
スケール設定の変更
イメージやテンプレートの更新
バージョンアップ
変更が入ったタイミングと事象発生タイミングが近い場合は、その影響を優先的に確認します。
「一部だけ失敗する」ケースは特に判断が難しいものです。例えば次のようなケースがあります。
あるインスタンスだけ失敗する
あるAZだけ失敗する
あるユーザーだけ失敗する
このような場合は、共通点と相違点を整理します。共通点が見つかれば、原因の候補を絞ることができます。相違点が見つかれば、その差が影響している可能性があります。もし、検証環境を持っているのであれば、相違点について比較検証を行うとより確実です。
自己確認で解決しない場合は、Alibaba Cloudへ問い合わせます。Alibaba Cloudの管理コンソールから問い合わせ(チケット起票)を行う方法をご紹介します。
①Alibaba Cloudの管理コンソールにログインします。
➁画面上部のメニューにて、「Ticket」の「Submit Ticket」をクリックします。
③問い合わせに関連するプロダクトまたはサービスを選択します。
④問い合わせ内容を入力後、「Submit immediately」をクリックします。
Current question:問い合わせ内容に合致するものを選択します
Case severity:緊急度を選択します
Description:事象の内容と実施済みの確認内容を記載します
Contact:連絡先を入力します
①Alibaba Cloudの管理コンソールにログインします。
➁画面上部のメニューにて、「Ticket」の「Submit Ticket」をクリックします。
③画面左側メニューにて、「After-sales Support」の「My Tickets」をクリックします。
④起票済みのチケットが表示されるので確認します。
筆者のこれまでの経験から、Alibaba Cloudに問い合わせる際に意識しておくと、やり取りが進めやすかった点をご紹介します。
Yes/Noで答えられる質問にする
Alibaba Cloudのサポート担当者からの回答は、過度に抽象的な場合や、質問に対する回答になっていない場合があります。こうした事態を避けるために、確認したいことは可能な限りYesかNoで回答する形式で問いかけるのが良いです。「この挙動は仕様ですか?」よりも、「この条件を満たしている場合に、挙動Xになるのは仕様通りですか?」のように書くと、認識合わせがしやすくなります。
認識合わせは定期的に行う
Alibaba Cloudのサポート担当者および自身のいずれか、または両方が、母国語でない言語でコミュニケーションをとることになると思います。その際、細かなニュアンスが伝わりきらず、やり取りの途中で認識の齟齬が生じてしまう可能性があります。認識の齟齬を防ぐためには、定期的に「条件Aのときに挙動Xになるのは仕様であると理解しましたが、合っていますか」のように自分の言葉で説明し、認識の再確認を行うのが良いと思います。
質問は小分けにする
一度に複数の質問を送信すると、一部の質問に対する回答が得られないことがあります。これは、質問の数が多いほど発生しやすいため、一度に尋ねる質問は多くとも3つまでにした方が良いです。
タイムゾーンの違いに注意する(日本と中国)
中国と日本ではタイムゾーンが異なるため、自身の直面している事象を説明する際やAlibaba Cloud側での対応を依頼する際には注意が必要です。時刻の認識がずれてしまうと、期待した調査や対応が得られない可能性があるためです。自身から時刻を伝える場合には、JST(UTC+9)やCST(UTC+8)を明記し、両方の時刻を記載するのが良いです。Alibaba Cloudのサポート担当者から時刻を伝えられた場合には、どのタイムゾーンでの時刻かを確認すると良いでしょう。
本記事では、Alibaba Cloudでトラブルが発生した際の進め方を整理しました。
まず事象を具体化し、エラーメッセージの有無で進め方を分けることが基本です。エラーがある場合は、その内容に基づいて確認対象を絞ります。エラーがない場合は、事象を条件ごとに分解し、確認の方向を定めます。
地道な作業ではありますが、トラブルシュートでは、切り分けを繰り返しながら確認範囲を絞り込んでいくことが重要です。前編で整理した公式コンテンツとあわせて、本記事がAlibaba Cloudを利用するうえでの一助となれば幸いです。
Alibaba Cloudは中国国内でのクラウド利用はもちろん、日本-中国間のネットワークの不安定さの解消、中国サイバーセキュリティ法への対策など、中国進出に際する課題を解消できるパブリッククラウドサービスです。
MSP(Managed Service Provider)サービスは、クラウド導入から運用・保守・監視・活用方法までをソフトバンクのエンジニアがトータルサポートします。お客さまの運用負荷を軽減し、クラウド利用を促進します。
条件に該当するページがございません