[復旧済] 3時間以上のライブで視聴可能領域のメタデータの形式が適切でない問題

以下の期間において、表題の問題が発生しておりました。現在は復旧されております。

不具合の内容

  • 3時間以上のライブで視聴可能領域のメタデータの形式が適切でない値を返す。

発生期間

  • (Castify リリース当初より) ~ 2024/05/03 20:24頃

問題の詳細

  • Castify では、ライブ配信のメタデータとして info.json というファイルを生成しています。この中には再生可能領域が配列で含まれていますが、配信が3時間以上だった場合、実際には継続して視聴できる区間であっても、再生可能領域として配列の要素が別れてしまっていました。

対応

  • 継続して視聴できる視聴領域の場合に、配列要素がまとめるように修正しました。

ご利用の皆様にはご迷惑をお掛け致しました。よろしくお願い致します。

[復旧済] 高画質(720p以上)を含むトランスコーダーの一部が利用できない問題

以下の期間において、表題の問題が発生しておりました。現在は復旧されております。

不具合の内容

  • 高画質 (720p以上) のトランスコーダーを利用したトランスコーダーが一部利用できない。

発生期間

  • 2024-04-01 21時頃~2024-04-03 21時頃

問題の詳細

  • ある1つの配信において、複数のトランスコーダーを立ち上げる必要がある場合に、Google Cloud のインスタンスを立ち上げる API リクエストが2インスタンス目以降、応答しなくなる問題が発生しています。

対応

  • 原因調査を様々行った結果、根本的には GCP 側の Cloud Run のバグ及び障害と推測され、根本原因を解消することが難しかったため、Castify 内でこれを回避するための構成変更を行いました。
    • 具体的には、トランスコーダーのキャパシティを増加させることで、同一種別のトランスコーダーが複数立ち上がらないように変更しました。

ご利用の皆様にはご迷惑をお掛け致しました。よろしくお願い致します。

[復旧済] トランスコーダーを利用した配信が失敗することがある問題

以下の期間において、トランスコーダーを利用した配信が失敗することがある問題が発生しておりました。現在は復旧しております。

不具合の内容

  • トランスコーダーを利用した配信が失敗することがある

発生期間

  • 2024-03-01 未明 ~ 15:00 頃

問題の詳細

  • トランスコーダーからの外部ネットワークアクセスが失敗することがありました。

対応

  • GCP のネットワークおよびインフラの不具合に起因すると思われるため、外部アクセスに関係するロードバランサーの再作成等を行い、問題なくアクセスできるようになったことを確認しました。

なお、本件の影響を受けたライブ配信はありませんでした。今後とも Castify をよろしくお願い致します。

[復旧済] 視聴ができない問題

以下の期間において、視聴ができない問題が発生しておりました。現在は復旧されております。

不具合の内容

  • 視聴に失敗する

発生期間

  • 2023-10-17 22:10-22:50 頃

問題の詳細

  • Castify が利用する CDN の障害によるもの。

対応

  • Castify から利用する CDN を切り替える仕組みによって、切り替え処理を行いました。

今後の対策

  • CI での障害自動検知の仕組みが特定環境下で動作しない状況となっており、初動までのタイムラグが発生してしまっていたため、こちらの改善の対応を行っています。
  • また、着手から実際の復旧までの時間を低減するため、自動切り替えの仕組みの実装を検討しています。

ご利用の皆様にはご迷惑をお掛け致しました。よろしくお願い致します。

[復旧済] 視聴ができない問題

[2023/06/19 17:50] 原因および根本対策について更新しました。

以下の期間において、視聴ができない問題が発生しておりました。現在は復旧されております。

不具合の内容

  • 視聴に失敗する

発生期間

  • 2023-06-14 22:10-22:35 頃

問題の詳細

  • Castify の利用拡大に伴い、アーカイブへのアクセスが増加したことで、配信サーバー上のキャッシュが不足し、ストレージへの直接のアクセスが増え、それによって実行環境のメモリーが不足したため。

対応

  • 問題が発生したサーバーの再起動に伴って復旧しました。

今後の対策

  • アーカイブへのアクセス増加に伴うリソース消費をなるべく低減させる対策を行います。
    • 具体的には、ユーザーや配信単位で同一サーバーで処理できるかどうかの検討や、ディスクへのキャッシュなどについて対策を行います。

ご利用の皆様にはご迷惑をお掛け致しました。よろしくお願い致します。

[復旧済] 視聴・配信ができない問題

以下の期間において、視聴・配信ができない問題が発生しておりました。現在は復旧されております。

不具合の内容

  • 視聴、配信に失敗する

発生時刻

  • 2023-04-19 03:30-10:00

問題の詳細

  • Castify が依存するプラットフォームのメンテナンスの実行に伴うアップデートにより、Castify アプリケーションが意図しない挙動となり、内部で利用している API サーバーが起動しなくなったため。
    • より詳細な原因としては、Castify が利用している Google Kubernetes Engine のクラスターのアップグレードにより、Castify API サーバーが依存している JVM およびライブラリの不具合が発生した形となっております。

対応

  • API サーバーが利用するライブラリの一部置き換えを実施し、起動する状態としました。

今後の対策

  • プラットフォームのメンテナンスについて、更新の事前通知を受け取れていなかったため、これを受け取り、事前に弊社内の開発環境にて、問題ないかどうかを確認できる体制を整えました。
  • 障害通知を受け取る仕組みが不十分であったため、これを改善しました。
    • 障害の検知から担当者への架電をシステム側で繰り返す仕組みを導入しました。

ご利用の皆様にはご迷惑をお掛け致しました。よろしくお願い致します。

[復旧済] 視聴・配信及び API 利用ができない問題

以下の期間において、視聴・配信及び API の利用ができない問題が発生しておりました。現在は復旧されております。

不具合の内容

  • 視聴、配信、API の呼び出しに失敗する

発生時刻

  • 2022-11-16 14:05-14:17

問題の詳細

  • データベースサーバのメンテナンス設定に誤りがあり、意図せずメンテナンスによるアップデートが実行されてしまったため。

対応

  • データベースサーバのアップデートが完了したため、自動復旧しております。

今後の対策

  • データベースサーバのメンテナンスに関する予定について、正常に処理されるように変更しました。今後は事前告知の上で実施されるように致します。

ご利用の皆様にはご迷惑をお掛け致しました。よろしくお願い致します。

[復旧済] 配信の開始に失敗する問題

先程より、配信を開始しようとするとネットワークレベルのエラーが発生して配信できない問題が発生しておりました。現在は復旧されております。

不具合の内容

  • 配信の開始に失敗する

発生時刻

  • 2022-6-27 15:45 – 16:00

問題の詳細

  • 構築作業の不手際により配信サーバーの DNS レコードに間違った IP アドレスが保存された

対応

  • 当該の DNS レコードを修正致しました

今後の対策

  • 構築作業のレビュー体制を強化して再びこのような間違いが起こらないように努めてまいります。

重ねてご利用の皆様には大変ご迷惑をお掛け致しました。よろしくお願い致します。

[復旧済] Castify 各種サービスにアクセスできない問題

本日 Castify のサービスが一時的に利用不能な状態に陥っておりました。原因は特定され復旧作業も済んでおり、現在は同様の問題は確認されておりません。大変なご迷惑をおかけして誠に申し訳ございませんでした。

原因

前回の TLS 証明書の更新作業の際、不手際により新しい証明書が各サーバーに適用されていなかったため、期限切れを起こしていた。また、TLS 証明書の有効期限の確認フローに不備があり、外部監視の項目からも漏れていたため。

発生時刻

  • 2022-5-26 22:50 – 2022-5-26 23:10

発生事象

  • Castify の各サービス(視聴系および各 api サーバー)へのアクセス不能もしくは証明書エラーの表示
    • iOS 等の一部端末では証明書の検証が行われず、上記の期間でもアクセスが可能できた端末があったことを確認しています。

対応

期限切れとなった TLS 証明書を新たに取得したものに置き換えた。

今後の対策

証明書の有効期限チェックを自動化しました。また、従来存在していた、期限前の警告メールが担当者全員に送られるように変更しました。

今後は完全な更新の自動化や監視の仕組みなどを強化し再度このようなことが起こらないように努めてまいります。

重ねてご利用の皆様には大変ご迷惑をお掛け致しました。よろしくお願い致します。

[復旧済] ライブの視聴が乱れる問題

本日、ライブの視聴を行うと環境によらず不定期に音声が途切れたりプレイヤーが停止するという問題が発生しました。原因は特定され復旧作業も済んでおり、現在は同様の問題は確認されておりません。大変なご迷惑をおかけして誠に申し訳ございませんでした。

不具合の内容

  • ライブの視聴時に音声が乱れる

発生時刻

  • 2022-4-23 14:30 – 2022-4-24 0:10

問題の詳細

  • ライブの視聴を行うと環境によらず定期的に音声が途切れたりプレイヤーが停止する

対応

  • 原因となったバグを特定/修正し配信サーバーを更新致しました。

今後の対策

  • 社内での検証ケースが不足しており、開発環境及び本番環境でのテストで発見することが出来なかったため、改めて検証ケースを追加しました。また、本番反映後のお客様環境での確認が十分でなかったため、発覚が遅れました。今後はより広い範囲でのテストが行えるよう対策を進めて参ります。また、お客様環境での確認が可能なものについては、弊社側での確認を行うように致します。

重ねてご利用の皆様には大変ご迷惑をお掛け致しました。よろしくお願い致します。