Trung tâm dữ liệu dự phòng DR
Trung tâm dữ liệu dự phòng DR là gì?
Trung tâm dữ liệu dự phòng DR, hay Disaster Recovery Site, là địa điểm hạ tầng thay thế được chuẩn bị để khôi phục hệ thống CNTT, dữ liệu và dịch vụ khi trung tâm dữ liệu chính gặp sự cố lớn như mất điện diện rộng, cháy nổ, lỗi hạ tầng, tấn công mạng hoặc thiên tai. Theo hướng dẫn của NIST, kế hoạch DR tập trung vào việc đưa hoạt động hệ thống sang một địa điểm thay thế sau các gián đoạn nghiêm trọng, còn site dự phòng phải đủ khả năng hỗ trợ vận hành theo đúng kịch bản khôi phục đã xây dựng.
Hiểu đơn giản, backup chỉ giúp giữ lại dữ liệu, còn DR center giúp khôi phục lại dịch vụ vận hành. Vì vậy, một doanh nghiệp có backup nhưng không có DR site vẫn có thể mất nhiều giờ hoặc nhiều ngày để hoạt động trở lại nếu hạ tầng chính bị tê liệt. Cách tiếp cận này phù hợp với khung của NIST khi phân biệt giữa sao lưu, địa điểm thay thế và kế hoạch khôi phục hoạt động hệ thống.
Vì sao doanh nghiệp cần trung tâm dữ liệu dự phòng DR?
DR site không còn là lựa chọn chỉ dành cho ngân hàng hay viễn thông. Khi hệ thống ERP, website, email, dữ liệu khách hàng, camera, kho vận, sản xuất hay dịch vụ số trở thành xương sống vận hành, thời gian ngừng dịch vụ sẽ chuyển thành tổn thất doanh thu, gián đoạn quy trình, rủi ro tuân thủ và mất niềm tin khách hàng. ISO 22301 xem khả năng duy trì và phục hồi hoạt động là nền tảng của năng lực chống chịu tổ chức, còn NIST yêu cầu những hệ thống có tác động trung bình hoặc cao về tính sẵn sàng phải có chiến lược vận hành tại cơ sở thay thế trong thời gian kéo dài.
Với các ngành có yêu cầu cao như tài chính – ngân hàng, nhu cầu này còn rõ ràng hơn. Theo Thông tư 09/2020/TT-NHNN, các hệ thống cần bảo đảm hoạt động liên tục tối thiểu bao gồm các hệ thống từ cấp độ 3 trở lên, và các hệ thống này phải có tính sẵn sàng cao cùng hệ thống dự phòng thảm họa.

Ba chỉ số quan trọng nhất của một DR center: MTD, RTO và RPO
Khi thiết kế trung tâm dữ liệu dự phòng DR, ba chỉ số không thể bỏ qua là MTD, RTO và RPO. Theo NIST, MTD là tổng thời gian tối đa tổ chức có thể chấp nhận hệ thống hay quy trình nghiệp vụ bị gián đoạn; RTO là thời gian tối đa hệ thống có thể không sẵn sàng trước khi gây tác động không thể chấp nhận; còn RPO là mốc thời gian dữ liệu cần được khôi phục về sau sự cố, tức doanh nghiệp chấp nhận mất bao nhiêu dữ liệu tính theo thời gian. NIST cũng lưu ý RTO thường phải ngắn hơn MTD.
Đây là phần nhiều doanh nghiệp làm sai. Họ mua hạ tầng dự phòng trước, rồi mới nghĩ đến mục tiêu khôi phục sau. Cách đúng là làm ngược lại: xác định hệ thống nào quan trọng, chấp nhận downtime bao lâu, chấp nhận mất dữ liệu bao nhiêu phút hoặc giờ, rồi mới chọn mô hình DR phù hợp. NIST coi việc xác định MTD, RTO, RPO là bước nền để chọn công nghệ và phương án khôi phục thích hợp.
Các mô hình trung tâm dữ liệu dự phòng DR phổ biến
Theo NIST, các site dự phòng thường được chia theo mức độ sẵn sàng vận hành thành cold site, warm site và hot site; ngoài ra còn có mobile site và mirrored site. Cold site chủ yếu có không gian và hạ tầng cơ bản như điện, viễn thông, điều kiện môi trường. Warm site đã có sẵn một phần thiết bị, nguồn, kết nối và môi trường CNTT. Hot site có đầy đủ thiết bị, phần mềm, dữ liệu gần nhất và năng lực tiếp quản nhanh hệ thống chính. Mirrored site là mô hình dư thừa hoàn toàn, đồng bộ thời gian thực và gần như giống hệt site chính.
Về chi phí và thời gian phục hồi, NIST cho thấy cold site rẻ nhất nhưng khôi phục chậm nhất, warm site ở mức trung gian, còn hot site hoặc mirrored site có khả năng phục hồi nhanh nhất nhưng chi phí cao hơn đáng kể. Với mirrored site, NIST mô tả đây là lựa chọn đắt nhất nhưng có thể bảo đảm mức sẵn sàng gần như tuyệt đối.
Trong thực tế, doanh nghiệp vừa và lớn thường chọn warm site hoặc hot site cho các hệ thống quan trọng, vì đây là điểm cân bằng giữa chi phí và khả năng khôi phục. Các hệ thống cực kỳ quan trọng như core banking, thanh toán, giao dịch tài chính hoặc nền tảng số 24/7 có thể cần tới mô hình gần với hot site hoặc mirrored site, tùy theo RTO/RPO đã đặt ra. Nhận định này là suy luận kỹ thuật từ phân loại site và đặc tính chi phí – thời gian phục hồi của NIST.
Một trung tâm dữ liệu dự phòng DR đạt chuẩn cần những gì?
Về mặt hạ tầng, một DR center không chỉ cần rack và máy chủ. Chuẩn ANSI/TIA-942 cho data center nêu rõ trung tâm dữ liệu phải được xem xét toàn diện từ vị trí site, kiến trúc, điện, cơ điện lạnh, phòng cháy, viễn thông, an ninh, giám sát và các yêu cầu hạ tầng vật lý khác. TIA cũng nhấn mạnh tiêu chuẩn này nhằm bảo đảm khả năng vận hành an toàn, dễ bảo trì, có khả năng mở rộng và độ sẵn sàng cao.
Điều đó có nghĩa là DR site phải có tối thiểu các nhóm năng lực sau: nguồn điện dự phòng, UPS, máy phát, làm mát liên tục, kết nối viễn thông độc lập, hệ thống chữa cháy phù hợp với môi trường CNTT, bảo vệ vật lý, kiểm soát ra vào, giám sát môi trường, giám sát an ninh và cấu hình hạ tầng đủ tương thích để tiếp nhận tải từ site chính. NIST cũng lưu ý site thay thế phải tương thích với các yêu cầu bảo mật, vận hành và kỹ thuật của hệ thống, bao gồm tường lửa, kiểm soát truy cập vật lý và yêu cầu an ninh nhân sự.
Nếu doanh nghiệp lựa chọn data center thương mại hoặc colocation làm DR site, hợp đồng không nên chỉ dừng ở chỗ thuê chỗ đặt máy chủ. NIST khuyến nghị phải quy định rõ thời gian kiểm thử, không gian làm việc, yêu cầu an ninh, yêu cầu phần cứng, viễn thông, dịch vụ hỗ trợ, thời gian được quyền sử dụng site khi xảy ra thảm họa và cơ chế ưu tiên nếu nhiều khách hàng cùng kích hoạt DR.
Nên đặt DR site ở đâu?
Vị trí đặt DR site là một yếu tố chiến lược. NIST khuyến nghị site dự phòng nên nằm ở khu vực địa lý ít khả năng bị ảnh hưởng bởi cùng một mối nguy như site chính, đồng thời phải tính đến thời gian và phương thức di chuyển của nhân sự hoặc thiết bị đến địa điểm đó khi kích hoạt kế hoạch khôi phục.
Nói cách khác, đặt DR site quá gần site chính có thể thuận tiện trong vận hành nhưng dễ cùng chịu rủi ro khi mất điện diện rộng, cháy lớn, lũ lụt hoặc đứt tuyến truyền dẫn. Đặt quá xa thì an toàn hơn về mặt rủi ro vùng nhưng có thể làm tăng độ trễ, chi phí truyền dẫn và độ phức tạp vận hành. Vì vậy, vị trí tốt nhất không phải là “xa nhất”, mà là đủ tách biệt về rủi ro nhưng vẫn đáp ứng được RTO, RPO và mô hình đồng bộ dữ liệu mà doanh nghiệp đặt ra. Kết luận này là suy luận kỹ thuật dựa trên nguyên tắc chọn alternate site của NIST.
DR center có cần đạt Tier III hoặc Tier IV không?
Không phải mọi DR site đều bắt buộc phải đạt chứng nhận Tier, nhưng việc tham chiếu các chuẩn của Uptime Institute là rất hữu ích khi thiết kế hoặc chọn nhà cung cấp. Uptime Institute chia data center thành 4 Tier theo tiêu chí về bảo trì, nguồn điện, làm mát và khả năng chịu lỗi. Trong đó, Tier III là mức concurrently maintainable, nghĩa là có thể bảo trì thành phần hoặc đường phân phối theo kế hoạch mà không làm gián đoạn vận hành; còn Tier IV bổ sung fault tolerance, tức lỗi của một thiết bị hoặc gián đoạn một đường phân phối sẽ không ảnh hưởng hoạt động CNTT.
Với nhiều doanh nghiệp, đặc biệt là hệ thống giao dịch và dịch vụ số quan trọng, Tier III thường là mốc tham chiếu thực tế vì cân bằng được giữa độ sẵn sàng và chi phí. Tier IV phù hợp hơn với các môi trường cực kỳ trọng yếu, nơi rủi ro downtime rất đắt đỏ. Uptime cũng nhấn mạnh rằng các Tier không phải để nói cấp nào “tốt nhất” một cách tuyệt đối, mà để phù hợp với mục tiêu kinh doanh và mức độ quan trọng của từng tổ chức.
>> Bảng giá dịch vụ Thuê trung tâm dữ liệu dự phòng DR
Trung tâm dữ liệu dự phòng DR có cần kiểm thử định kỳ không?
Có, và đây là phần bắt buộc nếu muốn DR site thực sự có giá trị. NIST khuyến nghị backup phải được kiểm tra thường xuyên và thử ngay tại site thay thế để bảo đảm tương thích với cấu hình sao lưu thực tế. Đồng thời, toàn bộ kế hoạch khôi phục cần được diễn tập và xác nhận bằng các bài test chức năng, thay vì chỉ tồn tại trên giấy tờ.
Đối với khối ngân hàng tại Việt Nam, yêu cầu này còn rõ hơn. Thông tư 09/2020/TT-NHNN quy định phải kiểm tra, đánh giá hoạt động của hệ thống dự phòng tối thiểu 6 tháng một lần; phải thực hiện chuyển hoạt động từ hệ thống chính sang hệ thống dự phòng và vận hành chính thức trên hệ thống dự phòng tối thiểu 1 ngày làm việc theo chu kỳ quy định; và với các hệ thống từ cấp độ 3 trở lên, hệ thống dự phòng phải có khả năng thay thế hệ thống chính trong 4 giờ.
Checklist kỹ thuật khi triển khai trung tâm dữ liệu dự phòng DR
Khi đánh giá hoặc xây dựng một DR center, doanh nghiệp nên rà tối thiểu các điểm sau:
- Xác định rõ hệ thống nào cần DR, cùng MTD, RTO, RPO cho từng hệ thống.
- Chọn mô hình site phù hợp: cold, warm, hot hay mirrored.
- Đặt site ở vị trí đủ tách biệt rủi ro với site chính.
- Bảo đảm hạ tầng điện, làm mát, chữa cháy, viễn thông, an ninh và giám sát đạt mức phù hợp với tải dự phòng.
- Đồng bộ dữ liệu theo đúng RPO mục tiêu và kiểm tra khả năng khôi phục thật.
- Kiểm thử định kỳ kịch bản failover, failback và vận hành tại site DR.
- Nếu thuê ngoài, chốt chặt SLA, ưu tiên sử dụng site, bảo mật, không gian làm việc và thời gian khôi phục trong hợp đồng.
Câu hỏi thường gặp
DR site khác gì với backup server?
Backup server chủ yếu lưu bản sao dữ liệu. DR site là môi trường có thể tiếp quản vận hành khi site chính bị gián đoạn. Vì vậy, backup là một phần của DR, nhưng không thể thay thế hoàn toàn DR.
Doanh nghiệp nhỏ có cần trung tâm dữ liệu dự phòng DR không?
Có thể không cần một DR center lớn theo kiểu enterprise, nhưng vẫn nên có chiến lược khôi phục phù hợp với mức độ quan trọng của hệ thống. NIST cho thấy cold site, warm site và hot site tồn tại chính là để tổ chức lựa chọn theo mức sẵn sàng và chi phí.
DR site có bắt buộc phải là trung tâm dữ liệu thứ hai của riêng doanh nghiệp không?
Không. NIST nêu ba hướng phổ biến là site do tổ chức sở hữu hoặc vận hành, site theo thỏa thuận song phương/reciprocal agreement, hoặc site thuê thương mại. Điều quan trọng là site đó phải hỗ trợ được hoạt động theo đúng kế hoạch khôi phục.
Có nên dùng cloud làm DR site không?
Có thể, nếu cloud đáp ứng được yêu cầu về RTO, RPO, bảo mật, kết nối, khôi phục ứng dụng và kiểm thử định kỳ. Về bản chất, cloud vẫn phải được đánh giá như một alternate site thực thụ chứ không chỉ là nơi lưu backup. Đây là suy luận kỹ thuật từ khung alternate site và contingency planning của NIST.
Kết luận
Một trung tâm dữ liệu dự phòng DR đúng nghĩa không phải là nơi “để sẵn vài máy chủ dự phòng”, mà là một kiến trúc phục hồi đã được tính toán theo MTD, RTO, RPO, được triển khai trên hạ tầng phù hợp, đặt ở vị trí tách biệt rủi ro, có cơ chế đồng bộ dữ liệu, có kiểm thử định kỳ và có khả năng tiếp quản vận hành thật khi xảy ra sự cố. Các khung chuẩn như NIST, ANSI/TIA-942, Uptime Tier và ISO 22301 đều thống nhất ở một điểm: DR chỉ có giá trị khi nó được thiết kế theo tác động kinh doanh và được kiểm chứng bằng vận hành thực tế.
Chia sẻ bài viết
Bình luận
( 0 bình luận )Bình luận của bạn
Tin tức liên quan
