Tin công nghệ 21-10-2025

Khi “đám mây” ngừng trôi: Sự cố AWS 20/10 khiến hàng loạt dịch vụ toàn cầu tê liệt

Vào chiều ngày 20/10 (giờ Việt Nam), hệ thống của Amazon Web Services (AWS) - nền tảng điện toán đám mây lớn nhất thế giới bất ngờ gặp sự cố nghiêm trọng, khiến hàng trăm trang web và ứng dụng trực tuyến như Duolingo, Coinbase, Zoom, Snapchat, Roblox, Robinhood... ngừng hoạt động.

Theo trang giám sát Downdetector, chỉ riêng tại Mỹ đã có hơn 2.000 lượt báo cáo lỗi liên quan đến AWS. Sự cố bắt đầu khoảng 13h30 và nhanh chóng lan rộng, gây ảnh hưởng cả đến các dịch vụ nội bộ của Amazon như Amazon.com, Prime Video và Alexa.

AWS xác nhận lỗi bắt nguồn từ khu vực US-EAST-1 (Virginia, Mỹ) - trung tâm dữ liệu quy mô và quan trọng nhất trong mạng lưới toàn cầu của hãng. Đây là nơi vận hành nhiều dịch vụ cốt lõi như Amazon Identity and Access Management (IAM) và Amazon CloudFront, nên khi khu vực này gặp trục trặc, hàng loạt ứng dụng trên thế giới bị ảnh hưởng dây chuyền, dù dữ liệu chính của họ được lưu trữ ở nơi khác.

Công ty cho biết đang ghi nhận “tỷ lệ lỗi cao và độ trễ lớn” trên nhiều dịch vụ, đồng thời các kỹ sư đã “ngay lập tức vào cuộc để điều tra và khắc phục sự cố.”

Nguyên nhân và tác động lan tỏa toàn cầu

AWS vốn được xem là “xương sống của Internet hiện đại”, cung cấp hạ tầng máy chủ, cơ sở dữ liệu và dịch vụ lưu trữ cho hàng triệu doanh nghiệp, tổ chức và chính phủ. Chính vì thế, chỉ một trục trặc nhỏ tại AWS cũng có thể tạo hiệu ứng domino khiến nhiều hệ thống phụ thuộc bị ngừng hoạt động.

Giám đốc điều hành công ty AI Perplexity, ông Aravind Srinivas, đã thông báo rằng hệ thống của họ “ngừng hoạt động hoàn toàn” do lỗi từ AWS.

Sự cố này gợi nhớ lại vụ “sập mạng toàn cầu” tháng 7/2024, khi một bản cập nhật lỗi từ hãng an ninh mạng CrowdStrike khiến hơn 8,5 triệu thiết bị Windows trên khắp thế giới gặp trục trặc, ảnh hưởng nghiêm trọng đến hàng không, ngân hàng và bệnh viện.

Những sự cố như vậy cho thấy mức độ phụ thuộc quá lớn của Internet vào các hạ tầng đám mây tập trung, nơi chỉ một điểm lỗi cũng đủ làm gián đoạn quy mô toàn cầu.

Bài học từ sự cố AWS: Đa tầng bảo vệ cho hệ thống doanh nghiệp

1. Không nên phụ thuộc vào một nhà cung cấp duy nhất

Khi một vùng (region) trung tâm của AWS gặp sự cố, hàng nghìn doanh nghiệp bị tê liệt. Vì vậy, mô hình đa đám mây (multi-cloud) hoặc đa vùng (multi-region) là giải pháp tối ưu để giảm rủi ro, dữ liệu và ứng dụng nên được phân tán giữa nhiều nền tảng như AWS, Google Cloud, Azure hoặc các nhà cung cấp trong nước như VDO Cloud.

2. Luôn có kế hoạch sao lưu và phục hồi thảm họa

Doanh nghiệp cần thiết lập hệ thống sao lưu định kỳ (backup) tại trung tâm dữ liệu khác, cùng với kịch bản phục hồi (Disaster Recovery – DR) rõ ràng. Khi hạ tầng chính gặp sự cố, dịch vụ có thể được khôi phục nhanh chóng từ hệ thống dự phòng, đảm bảo tính liên tục trong vận hành.

3. Giám sát, bảo mật và kiểm thử chủ động

Sử dụng các công cụ giám sát hoạt động (monitoring & alerting), mã hóa toàn bộ dữ liệu khi lưu trữ và truyền tải, đồng thời kiểm thử định kỳ các kịch bản sự cố giúp doanh nghiệp sẵn sàng đối phó với tình huống khẩn cấp.

Giải pháp an toàn dữ liệu từ VDO

Công ty Cổ phần VDO cung cấp hệ thống VDO Cloud được triển khai tại các trung tâm dữ liệu đạt chuẩn Tier III trong nước, đảm bảo: