Bài viết

Đánh giá Dell PowerEdge R770: Thiết kế mô-đun, mạnh mẽ và sẵn sàng cho AI

Đánh giá Dell PowerEdge R770: Thiết kế mô-đun, mạnh mẽ và sẵn sàng cho AI

Đánh giá Dell PowerEdge R770

Dòng máy chủ PowerEdge R7x0 của Dell từ lâu đã là trụ cột của các trung tâm dữ liệu, nổi tiếng với chất lượng hoàn thiện vượt trội, thiết kế tinh tế, hiệu suất cao, mật độ lưu trữ tốt và độ tin cậy cực kỳ ổn định trong kiểu dáng 2U linh hoạt. Các thế hệ máy chủ này liên tục được cải tiến để đáp ứng những nhu cầu thay đổi không ngừng của thị trường. Giờ đây, với sự ra đời của Dell PowerEdge R770, dòng sản phẩm này đã thực hiện một bước tiến hóa đáng kể.

R770 lần đầu tiên ra mắt dòng vi xử lý Xeon 6 mới của Intel, bao gồm các bộ xử lý nhân P (Performance) và nhân E (Efficiency) thuộc các dòng Xeon 6500 và 6700. Đây cũng là cột mốc đánh dấu việc Dell lần đầu tiên áp dụng hoàn toàn tiêu chuẩn Hệ thống Phần cứng Mô-đun Trung tâm Dữ liệu OCP (DC MHS) vào dòng máy chủ phổ thông của mình. Sự kết hợp của hai thay đổi này hứa hẹn sẽ mang lại một cuộc cách mạng lớn về cả năng lực xử lý lẫn triết lý thiết kế.

Đáp ứng nhu cầu của các trung tâm dữ liệu hiện đại

Sự ra mắt của R770 diễn ra vào đúng thời điểm các trung tâm dữ liệu đang phải đối mặt với áp lực ngày càng lớn. Khối lượng công việc ngày càng trở nên đa dạng và khắt khe hơn. Sự tăng trưởng không ngừng của dữ liệu đang thúc đẩy nhu cầu về các hệ thống cơ sở dữ liệu và phân tích mạnh mẽ. Từ việc huấn luyện các mô hình phức tạp đến triển khai suy luận (inference) trong thời gian thực, trí tuệ nhân tạo không còn là một ứng dụng ngách mà đã trở thành động lực kinh doanh cốt lõi, đòi hỏi sức mạnh tính toán đáng kể và khả năng tăng tốc chuyên dụng.

Đồng thời, hiện nay đang có một sự tập trung cao độ vào hiệu quả sử dụng năng lượng và tối ưu hóa tổng chi phí sở hữu (TCO). Hơn nữa, ngành công nghiệp đang ngày càng hướng tới các tiêu chuẩn mở để thúc đẩy đổi mới, tăng cường khả năng tương thích giữa các hệ thống và tiềm năng giảm thiểu sự phụ thuộc vào một nhà cung cấp duy nhất (vendor lock-in). Với các tùy chọn bộ vi xử lý mới và việc áp dụng tiêu chuẩn OCP DC MHS, R770 được thiết kế để trực tiếp giải quyết những thách thức này.

Bộ vi xử lý Intel Xeon 6 nhân P (Performance-core)

Máy chủ R770 sử dụng dòng vi xử lý Intel Xeon 6, bao gồm các dòng 6700 và 6500, tích hợp cả hai loại nhân: nhân Hiệu năng cao (P-core) và nhân Tiết kiệm điện (E-core) dựa trên nền tảng Socket E2 (LGA4710-2). Trong bài đánh giá này, chúng tôi tập trung cụ thể vào các mã (SKU) thuộc dòng nhân P (Performance series).

Dell PowerEdge R770 CPU blocks

Intel xây dựng các bộ vi xử lý này bằng thiết kế dạng tile (mảnh ghép), kết hợp các I/O tile (khối điều khiển đầu vào/đầu ra) với một hoặc hai compute tile (khối tính toán). Thiết kế này cho phép mở rộng linh hoạt trong cùng một dòng sản phẩm: cấu hình có thể lên tới 86 nhân P (XCC) khi sử dụng hai compute tile, hoặc giảm xuống 48 nhân P (HCC) hay 16 nhân P (LCC) với một compute tile duy nhất.

So với các thế hệ Sapphire Rapids và Emerald Rapids trước đây, điểm khác biệt then chốt là sự hiện diện của các bộ tăng tốc tích hợp (built-in accelerators) trên toàn bộ các dòng vi xử lý Xeon 6. Các bộ tăng tốc này bao gồm:

  • Intel QuickAssist Technology: Tăng tốc mã hóa và nén dữ liệu.
  • Intel Data Streaming Accelerator: Tối ưu hóa việc di chuyển dữ liệu.
  • Intel In-Memory Analytics Accelerator: Tăng tốc cơ sở dữ liệu và phân tích dữ liệu trực tiếp trên bộ nhớ.
  • Intel Dynamic Load Balancer: Nâng cao hiệu quả xử lý mạng.

Băng thông Bộ nhớ và I/O

Băng thông bộ nhớ và I/O cũng nhận được những nâng cấp đáng kể. Dòng Xeon 6700/6500 nhân P hỗ trợ bộ nhớ DDR5 8 kênh. Chúng cũng mở đường cho công nghệ MRDIMM (Multiplexed Rank DIMM), mang lại tốc độ lên tới 8.800 MT/s. Về mặt kết nối, các vi xử lý này hỗ trợ PCIe 5.0 và CXL 2.0. Trong cấu hình chạy hai socket (CPU kép), nền tảng này có thể cung cấp tới 88 làn PCIe mỗi socket (tổng cộng 176 làn).

Dù có sự khác biệt giữa nhân P (Hiệu năng) và nhân E (Tiết kiệm điện), dòng Xeon 6 vẫn duy trì sự đồng nhất về tập lệnh, BIOS, trình điều khiển (driver), hỗ trợ hệ điều hành/ứng dụng và các tính năng RAS (Độ tin cậy, Khả năng sẵn sàng và Khả năng bảo trì), giúp đơn giản hóa việc tích hợp và quản lý.

Các phiên bản nhân P được nhắm tới các khối lượng công việc ưu tiên hiệu năng trên mỗi nhân, tăng tốc AI, băng thông bộ nhớ cao và I/O lớn; điển hình như các cơ sở dữ liệu khắt khe, mô phỏng HPC (tính toán hiệu năng cao), phân tích nâng cao và đa dạng các ứng dụng AI.

Thông số kỹ thuật Dell PowerEdge R770

Specification Dell PowerEdge R770
Processor Two Intel Xeon 6 processors with up to 144 E-cores or 86 P-cores per processor
Memory 32 DDR5 DIMM slots, supports RDIMM 8 TB max, speeds up to 6400 MT/s, supports registered ECC DDR5 DIMMs only
Storage Controllers Internal Boot: Boot Optimized Storage Subsystem (BOSS-N1 DC-MHS): HWRAID 1, 2 x M.2 NVMe SSDs or M.2 Interposer board (DC-MHS): 2 x M.2 NVMe SSDs or USB, Internal controllers: Front PERC H965i, Front PERC H975i, Front PERC H365i
Front and Rear Bays
  • No backplane configuration
  • Up to 8 x EDSFF E3.S Gen5 NVMe (SSD) max 122.88 TB also comes with FIO configuration,
  • Up to 16 x EDSFF E3.S Gen5 NVMe (SSD) max 245.76 TB also comes with FIO configuration,
  • Up to 32 x EDSFF E3.S Gen5 NVMe (SSD) max 489.6 TB
  • Up to 8 x 2.5 inch SAS/SATA/NVMe (SSD) max 122.88 TB
  • Up to 8 x 2.5-inch Universal max 245.6 TB, Up to 16 x 2.5 inch SAS/SATA (SSD) max 61.44 TB
  • Up to 24 x 2.5 inch SAS/SATA (SSD) max 92.16 TB,
  • Up to 16 x 2.5 inch SAS/SATA (SSD) + 8 x 2.5-inch NVME) max 92.16 TB
  • Up to 40 x EDSFF E3.S Gen5 NVMe (SSD) max 614.4 TB
  • Up to 4 x EDSFF E3.S Gen5 NVMe (SSD) max 61.2 TB on the rear
Hot Swap Power Supplies
  • 800 W Platinum 100—240 VAC or 240 VDC
  • 1100 W Platinum 100—240 VAC or 240 VDC
  • 1500 W Titanium 100—240 VAC or 240 VDC
  • 1100 W Titanium 100—240 VAC or 240 VDC
  • 3200 W Titanium 200—240 VAC or 240 VDC
  • 800 W Titanium 100—240 VAC or 240 VDC
  • 3200 W 277 VAC and 336 HVDC Titanium
  • 1400 W -48VDC 60mm
  • 1500 W 277 VAC and 336 HVDC Titanium
  • 2400 W Titanium 100—240 VAC or 240 VDC 1800 W HLAC Titanium 200—240 VAC or 240 VDC
Cooling Options Air cooling and Direct Liquid Cooling (DLC is a rack solution and requires rack manifolds and a cooling distribution unit (CDU) to operate)
Fans High-performance Silver (HPR SLVR) fans/High-performance Gold (HPR GOLD) fans, up to 6 hot swappable fans
Dimensions and Weight Height – 86.8 mm (3.42 inches), Width – 482 mm (18.97 inches), Weight – 28.53 kg (62.89 pounds), Depth (for rear I/O configuration) – 802.40 mm (31.59 inches) with bezel, 801.51 mm (31.56 inches) without bezel, Depth (for front I/O configuration) – 814.52 mm (32.07 inches) without bezel
Form Factor 2U rack server
Embedded Management iDRAC, iDRAC Direct, iDRAC RESTful API with Redfish, RACADM CLI, iDRAC Service Module (iSM), NativeEdge Endpoint, NativeEdge Orchestrator
Bezel Optional security bezel
Security Cryptographically signed firmware, Data at Rest Encryption (SEDs with local or external key management), Secure Boot, Secured Component Verification (Hardware integrity check), Silicon Root of Trust, System Lockdown, System Lockdown (requires iDRAC10 Enterprise or Datacenter), Chassis Intrusion Detection, TPM 2.0 FIPS, CC-TCG certified
Network Options
  • 4 x OCP NIC 3.0 cards (optional) and 1GbE, 10GbE, 25GbE,100GbE and 400GbE
  • Slot 4 1 x 8 or 1 x 16 Gen5 OCP 3.0
  • Slot 10 1 x 8 or 1 x 16 OCP 3.0, Slot 34 1 x 16 Gen5 OCP 3.0 on front riser
  • Slot 38 1 x 16 Gen 5 OCP 3.0 on front riser
  • BOSS Slot 34 1 x 4 BOSS, Slot 6 1 x 4 BOSS
GPU Options Up to 6 x 75 W FHHL or up to 2 x 350 W DWFL
Ports Front Ports: 1 x USB 2.0 Type C port, 1 x USB 2.0 Type A port (optional), 1 x Mini-DisplayPort (optional), 1 x DB9 Serial (with front I/O configuration), 1 x Dedicated ethernet port for iDRAC management; Rear Ports: 1 x Dedicated ethernet port for iDRAC management, 1 x VGA, 2 x USB 3.1 Type A ports; Internal Ports: 1 x USB 3.1 Type A port
PCIe
  • Up to two PCIe slots (x16 connectors)
  • Slot 31 1 x 16 Gen5 Full Height – Half Length or Full Length on front Riser
  • Slot 36 1 x 16 Gen5 Full Height – Half Length on front Riser
  • Up to eight PCIe slots (x8 and x16 connectors)
  • Slot 1 1 x 8 Gen5 Full Height – Half Length
  • Slot 2 1 x 16 Gen5 Dual Width Full Length or 1 x 8 Gen5 Full Height – Half Length
  • Slot 3 1 x 16 Gen5 Full Height – Half Length or 1 x 16 Gen5 Low Profile
  • Slot 4 1 x 16 Gen5 Full Height – Half Length or 1 x 8 Gen5 Full Height – Half Length or 1 x 8 or 1 x 16 OCP 3.0
  • Slot 5 2 x 16 Gen5 Full Height – Half Length or 1 x 8 Gen5 Full Height – Half Length
  • Slot 7 1 x 16 Gen5 Full Height – Half Length or 1 x 16 Gen5 Dual Width Full Length or 1 x 8 Gen5 Full Height – Half Length, Slot 8 1 x 16 Gen5 Full Height – Half Length or 1 x 8 Gen5 Full Height – Half Length
  • Slot 9 1 x 16 Gen5 Full Height – Half Length or 1 x 8 Gen5 Full Height – Half Length or 1 x 16 Low Profile- Half Length
Operating Systems and Hypervisors Canonical Ubuntu Server LTS, Microsoft Windows Server with Hyper-V, Red Hat Enterprise Linux, SUSE Linux Enterprise Server, VMware with vSphere

Dell PowerEdge R770 hướng đến tính mô-đun với OCP DC MHS

Dell PowerEdge R770 mang đến những cải tiến đáng kể và sự linh hoạt trong thiết kế vật lý cũng như cấu trúc linh kiện, thông qua việc áp dụng tiêu chuẩn Hệ thống Phần cứng Mô-đun cho Trung tâm Dữ liệu (DC MHS) của Dự án Tính toán Mở (OCP).

Dell PowerEdge R770 SSD rear view

Tiếp nối thành công của dòng R7x0 danh tiếng, Dell PowerEdge R770 mang đến các tùy chọn cấu hình cực kỳ đa dạng nhằm đáp ứng mọi nhu cầu triển khai khác nhau.

Một điểm cải tiến đột phá lần đầu tiên xuất hiện trên dòng máy này là người dùng có thể lựa chọn giữa cấu hình Cổng kết nối phía sau (Rear I/O) truyền thống hoặc cấu hình Cổng kết nối phía trước (Front I/O) – cho phép thao tác trực tiếp từ phía hành lang lạnh (Cold Aisle). Sự thay đổi này giúp linh hoạt tối đa trong việc bố trí trung tâm dữ liệu và thuận tiện hơn cho việc bảo trì.

Khả năng lưu trữ cũng linh hoạt không kém, từ các nút tính toán (compute nodes) tập trung vào hiệu năng với ít hoặc không có ổ cứng tại chỗ, cho đến các cấu hình mật độ cao hỗ trợ tới 40 ổ cứng chuẩn E3.S, đáp ứng hoàn hảo cho các khối lượng công việc chuyên về lưu trữ dữ liệu lớn.

Để đáp ứng nhu cầu ngày càng tăng về tính toán tăng tốc, đặc biệt là cho AI (Trí tuệ nhân tạo) và HPC (Tính toán hiệu năng cao), R770 sở hữu khả năng mở rộng vô cùng mạnh mẽ. Tùy thuộc vào thiết kế khung máy (chassis) và cấu hình riser, máy chủ này có thể lắp đặt tối đa 6 card PCIe Gen 5 x16 dạng đầy đủ chiều cao và chiều dài (FHFL). Hơn thế nữa, nó còn hỗ trợ 2 GPU chuẩn double-wide (chiếm 2 khe cắm), biến đây thành một nền tảng thực sự mạnh mẽ cho đa dạng các tác vụ. Tính linh hoạt về kết nối mạng cũng được đảm bảo thông qua các khe cắm OCP 3.0 mezzanine, hỗ trợ các loại card x8 hoặc x16 tùy theo cấu hình.

Dell cũng đã thực hiện nhiều cải tiến về thiết kế nhằm tăng cường khả năng bảo trì và độ tin cậy. Một ví dụ điển hình là sự tiến hóa của card BOSS (Giải pháp lưu trữ tối ưu cho khởi động). Trước đây, bộ điều khiển BOSS thường được kết nối qua dây cáp và tích hợp vào riser PCIe, nhưng trên R770, nó đã được triển khai dưới dạng card chuẩn OCP kết nối trực tiếp vào bo mạch chủ, giúp loại bỏ hoàn toàn sự phức tạp của dây cáp. Bộ điều khiển BOSS mới này cũng sử dụng các ổ NVMe M.2 tốc độ cao hơn và tích hợp sẵn tản nhiệt để đảm bảo nhiệt độ hoạt động cũng như hiệu suất tối ưu cho các thiết bị khởi động. Một cải tiến nhỏ nhưng rất thiết thực cho các kỹ thuật viên là việc chuyển từ các chân nhảy (jumpers) truyền thống sang các công tắc gạt (DIP switches) dễ sử dụng hơn cho các chức năng như xóa bộ nhớ NVRAM.

Sự chuyển dịch kiến trúc sâu sắc nhất chính là việc áp dụng hoàn toàn tiêu chuẩn OCP DC MHS. Dell đã bắt đầu đưa các thành phần OCP vào những thế hệ trước, đáng chú ý nhất là việc sử dụng các khe cắm card mạng chuẩn OCP 3.0. Tuy nhiên, R770 còn tiến xa hơn thế rất nhiều.

Các thành phần cốt lõi hiện nay đều tuân thủ các thông số kỹ thuật của OCP, bao gồm Mô-đun Bộ vi xử lý Máy chủ (HPM) – thường được gọi là bo mạch chủ. Thành phần này bao gồm cả các khe cắm riser, giờ đây là các cổng kết nối M-XIO. Cổng M-XIO cung cấp một giao diện tiêu chuẩn hóa cho các card riser, giúp tăng cường khả năng linh hoạt và nâng cấp. Hệ thống quản trị iDRAC cũng được triển khai dưới dạng một mô-đun OCP DC-SCM (Mô-đun Điều khiển Máy chủ).

Hơn nữa, R770 còn giới thiệu đầu cấp nguồn PICPWR mới dành cho các thiết bị ngoại vi như GPU và bảng mạch điều khiển ổ cứng (backplane). Đây là một sự bổ sung quan trọng, giúp đơn giản hóa việc phân phối điện năng, đồng thời tích hợp sẵn khả năng giám sát điện năng trực tiếp trên đường truyền (inline power monitoring).

Sự tích hợp sâu rộng này giúp tiêu chuẩn hóa các giao diện kết nối và kích thước vật lý giữa các hệ thống con khác nhau. Mặc dù Dell luôn nhấn mạnh rằng người dùng nên sử dụng các linh kiện đã được họ xác thực để đảm bảo tính tương thích và nhận được sự hỗ trợ kỹ thuật tốt nhất, nhưng việc tiêu chuẩn hóa nền tảng này giúp nhiều bộ phận về bản chất trở nên dễ bảo trì hơn và có tiềm năng thay thế lẫn nhau giữa các hệ thống tuân thủ cùng tiêu chuẩn trong tương lai.

Quản trị và iDRAC

Dell PowerEdge R770 được phát triển dựa trên nền tảng iDRAC 9 vốn đã rất giàu tính năng và được ưa chuộng, nay nâng cấp lên thế hệ kế tiếp là iDRAC 10. Phiên bản này nâng tầm quản trị hệ thống thông qua việc tích hợp mượt mà với Mô-đun Điều khiển Bảo mật cho Trung tâm Dữ liệu (DC-SCM).

Sự tích hợp này cho phép tinh giản quy trình cập nhật firmware và quản lý cấu hình, đảm bảo vận hành đồng nhất và khả năng mở rộng linh hoạt trên toàn bộ trung tâm dữ liệu. Ngoài ra, iDRAC 10 còn hỗ trợ các khả năng giám sát và tự động hóa nâng cao, giúp các quản trị viên CNTT quản lý hiệu quả các hệ thống triển khai quy mô lớn mà không làm ảnh hưởng đến hiệu suất hay độ tin cậy.

Bảo mật là nền tảng cốt lõi trong các tính năng quản trị của R770, với việc Dell đã triển khai các cơ chế xác thực mạnh mẽ ngay từ giai đoạn trước khi khởi động và trong khi khởi động.

Bằng cách tận dụng công nghệ Root of Trust (Gốc tin cậy) dựa trên phần cứng (silicon), iDRAC 10 đảm bảo rằng tất cả firmware, bao gồm BIOS và iDRAC, đều được xác thực bằng mật mã trước khi thực thi. Biện pháp bảo mật dựa trên phần cứng không thể thay đổi này giúp chống lại sự can thiệp của mã độc và các cuộc tấn công vào chuỗi cung ứng, tạo ra một nền tảng an toàn cho mọi hoạt động của hệ thống.

Ngoài ra, R770 còn tích hợp các giao thức khởi động an toàn cấp độ lượng tử (quantum-safe booting) để giảm thiểu các mối đe dọa mật mã học mới nổi, càng khẳng định thêm vai trò của nó trong việc bảo vệ các cơ sở hạ tầng trọng yếu.

Cam kết của Dell đối với bảo mật chuỗi cung ứng được thể hiện rõ nét trong thiết kế của R770, thông qua việc áp dụng quy trình xác thực chuỗi tin cậy (chain-of-trust) toàn diện.

Mỗi linh kiện phần cứng đều trải qua quá trình kiểm tra nghiêm ngặt bằng cách sử dụng các chữ ký mã hóa (cryptographic signatures) được nhúng ngay từ khâu sản xuất. Quy trình này đảm bảo rằng chỉ những phần mềm điều khiển (firmware) và linh kiện được ủy quyền mới được phép hoạt động, từ đó giảm thiểu tối đa các rủi ro liên quan đến việc sửa đổi trái phép hoặc sử dụng linh kiện giả mạo.

Những viên gạch nền tảng của “Nhà máy AI” (AI Factories)

R770 có thể được đặt hàng với rất nhiều cấu hình khung máy (chassis) và GPU khác nhau, biến nó thành một nền tảng linh hoạt cho đa dạng các khối lượng công việc AI. Sự linh hoạt này, kết hợp với khả năng lưu trữ và kết nối mạng mạnh mẽ, khiến nó trở thành lựa chọn hấp dẫn cho các tổ chức đang triển khai giải pháp Nhà máy AI.

Nhà máy AI là thuật ngữ chỉ cơ sở hạ tầng và các công cụ cần thiết để tạo ra, huấn luyện và triển khai các mô hình AI ở quy mô lớn. Những “nhà máy” này đóng vai trò thiết yếu trong việc phát triển các hệ thống tiên tiến như xe tự hành và robot, vì chúng cung cấp sức mạnh tính toán và các đường truyền dữ liệu (data pipelines) cần thiết để xử lý các tập dữ liệu khổng lồ một cách hiệu quả.

Việc phát triển xe tự hành và hệ thống robot đòi hỏi dữ liệu huấn luyện sâu rộng, phản ánh đúng các kịch bản trong thế giới thực. NVIDIA Cosmos NIM là một bước tiến đáng kể trong lĩnh vực này, mang đến cho các nhà phát triển một bộ công cụ mạnh mẽ để đẩy nhanh việc tạo ra và triển khai các hệ thống AI vật lý, chẳng hạn như Mô hình Nền tảng Thế giới (World Foundation Models).

Tìm hiểu về Mô hình Nền tảng Thế giới (World Foundation Models)

Mô hình Nền tảng Thế giới (WFMs) là các mạng thần kinh nhân tạo phức tạp có khả năng mô phỏng môi trường thế giới thực và dự đoán kết quả chính xác dựa trên các đầu vào khác nhau. Không giống như các mô hình AI truyền thống chỉ tập trung vào các tác vụ cụ thể, WFMs hiểu được các đặc tính động lực học của thế giới vật lý, bao gồm cả vật lý và các tính chất không gian.

Chúng có thể tạo ra video từ các câu lệnh văn bản (text prompts), hình ảnh hoặc các dữ liệu đầu vào khác, trong khi vẫn thể hiện chính xác các chuyển động, lực tác động và mối quan hệ không gian.

NVIDIA Cosmos NIM: Bước đệm tới Mô hình Nền tảng Thế giới

NVIDIA Cosmos NIM là một bước đi quan trọng hướng tới việc đạt được các Mô hình Nền tảng Thế giới. Chúng cho phép các tổ chức và phòng thí nghiệm AI tạo ra dữ liệu huấn luyện tổng hợp (synthetic training data), giúp mở rộng quy mô dữ liệu cần thiết để huấn luyện các mô hình AI này một cách hiệu quả.

Chúng tôi đã triển khai mô hình Cosmos Predict – một mô hình tổng quát chuyên tạo ra các trạng thái của thế giới từ câu lệnh văn bản hoặc video, đồng thời tổng hợp các chuyển động liên tục bằng cách dự đoán các khung hình tiếp theo.

Dưới đây là một số kết quả thú vị mà chúng tôi đã thực hiện được với Cosmos chỉ từ một hình ảnh duy nhất về phòng thí nghiệm của mình. Mặc dù chưa thực sự hoàn hảo, nhưng những gì nó có thể tạo ra từ một tấm ảnh duy nhất là cực kỳ ấn tượng.

Khả năng hỗ trợ các dòng GPU hiệu năng cao của R770, chẳng hạn như NVIDIA H100, cùng với năng lực lưu trữ và kết nối mạng mạnh mẽ, khiến nó trở thành lựa chọn hấp dẫn cho các tổ chức đang tìm kiếm giải pháp triển khai AI.

Bằng cách tận dụng sức mạnh của R770, các doanh nghiệp có thể huấn luyện và triển khai hiệu quả các mô hình AI như Cosmos NIM, từ đó đẩy nhanh quá trình phát triển xe tự hành và các hệ thống robot. Hiệu suất và khả năng mở rộng của R770 biến nó thành một nền tảng lý tưởng để xử lý lượng dữ liệu khổng lồ cần thiết cho việc huấn luyện mô hình AI, đồng thời tính linh hoạt của máy chủ này cho phép hỗ trợ đa dạng các loại khối lượng công việc AI khác nhau.

GPU Direct Storage (GDS)

GPU Direct Storage là công nghệ cho phép truyền dữ liệu trực tiếp giữa các thiết bị lưu trữ và GPU mà không cần đi vòng qua CPU và bộ nhớ hệ thống.

  • Trong truyền tải dữ liệu truyền thống: Dữ liệu được đọc từ ổ cứng vào bộ nhớ của CPU, sau đó mới được sao chép sang bộ nhớ của GPU. Quy trình này tạo ra nhiều bản sao dữ liệu trung gian, dẫn đến độ trễ cao và giảm hiệu suất. Khi đó, CPU đóng vai trò như một “nút thắt cổ chai” vì phải xử lý việc điều phối dữ liệu.
  • Với GDS: Nút thắt này bị loại bỏ bằng cách cho phép các thiết bị lưu trữ truyền dữ liệu thẳng tới bộ nhớ GPU.

Ngược lại, hiệu suất ghi (write) của các ổ cứng này thấp hơn đáng kể so với hiệu suất đọc. Phải cần tới toàn bộ 16 ổ cứng mới đạt được băng thông ghi là 46,7 GiB/s, trong khi tốc độ ghi trung bình của các ổ vẫn giữ ở mức gần như không đổi.

Vì đây là các phiên bản có dung lượng thấp (vốn có hiệu suất ghi thấp hơn) trong dòng sản phẩm KIOXIA CD8, nên các phiên bản dung lượng cao hơn hoặc các loại SSD PCIe Gen 5 khác chắc chắn sẽ cho kết quả tốt hơn.

Đánh giá hiệu năng (Benchmarking) Dell PowerEdge R770

Chuyển sang phần đánh giá hiệu năng, R770 là dòng máy chủ chủ lực (flagship) của Dell, và do đó, nó sẽ được triển khai trong rất nhiều môi trường đa dạng khác nhau. Vì vậy, chúng tôi đã thực hiện một bộ thử nghiệm toàn diện cho nền tảng này để đưa ra cái nhìn cụ thể về cách nó vận hành trong các kịch bản thực tế.

Trong một số bài kiểm tra, chúng tôi đã so sánh với Lenovo ThinkSystem SR630 V4 để làm nổi bật sự khác biệt về hiệu suất giữa các dòng CPU cao cấp sử dụng nhân hiệu năng cao (P-core) và nhân tiết kiệm điện (E-core).

Cấu hình hệ thống

  • CPU: 2x Intel Xeon 6787P (86 cores each)
  • RAM: 32x Micron 64 GB Dual-Rank DDR5 6400 MT/s Total Memory: 2TB
  • Power Supplies: 2x Delta 1500W
  • GPU: 1x NVIDIA H100 for the TGI benchmark, 1x NVIDIA L4 for the remaining tests
  • NIC: DELL BRCM 4P 25G SFP 57504S OCP NIC
  • BOSS Card: BOSS-N1 DC-MHS Disks 0 & 1 SK hynix 480 GB Dell NVMe ISE PE9010 RI M.2 480GB
  • Disks: 0-5 in Backplane 1: Samsung 6.4 TB, Dell NVMe PM1745 MU E3.S 6.4TB

Hiệu năng khối lượng công việc AI (AI Workload Performance)

Thử nghiệm suy luận tạo văn bản (Text Generation Inference Benchmark)

Text Generation Inference (TGI) là một máy chủ suy luận Mô hình ngôn ngữ lớn (LLM) hiệu suất cao được phát triển bởi Hugging Face. Nó được thiết kế để tối ưu hóa việc triển khai và sử dụng các LLM, biến nó thành lựa chọn lý tưởng cho các môi trường vận hành thực tế (production).

TGI hỗ trợ nhiều loại LLM mã nguồn mở khác nhau và cung cấp các tính năng như song song hóa tensor (tensor parallelism), truyền phát mã báo (token streaming) và gom nhóm liên tục (continuous batching) – những yếu tố giúp tăng cường đáng kể hiệu suất và hiệu quả xử lý.

Gemini said

Tính năng đánh giá hiệu năng của TGI được sử dụng để đánh giá khả năng vận hành của nó dưới các cấu hình và khối lượng công việc khác nhau. Tính năng đánh giá của TGI cung cấp một sự phản ánh chính xác hơn về hiệu suất thực tế, vì nó tính đến các yếu tố phức tạp khi triển khai các LLM trong môi trường vận hành thực tế.

Việc tạo văn bản bằng các LLM bao gồm hai giai đoạn chính: giai đoạn nạp dữ liệu (prefill) và giai đoạn giải mã (decode). Giai đoạn prefill là bước khởi đầu, nơi LLM xử lý câu lệnh đầu vào để tạo ra các biểu diễn trung gian cần thiết. Giai đoạn này đòi hỏi tính toán rất lớn, vì nó bao gồm việc xử lý toàn bộ câu lệnh đầu vào trong một lượt truyền dữ liệu duy nhất qua mô hình.

Trong giai đoạn prefill, câu lệnh đầu vào được chia nhỏ thành các thẻ (token) và chuyển đổi sang định dạng mà LLM có thể xử lý. LLM sau đó sẽ tính toán KV cache, nơi lưu trữ thông tin về các token đầu vào. KV cache là một cấu trúc dữ liệu quan trọng giúp tạo điều kiện cho việc tạo ra các token đầu ra.

Ngược lại, giai đoạn decode là một quá trình tự hồi quy, nơi LLM tạo ra từng token đầu ra một, dựa trên các biểu diễn trung gian đã được tạo ra trong giai đoạn prefill. Giai đoạn decode phụ thuộc nặng nề vào KV cache được tạo ra trong giai đoạn prefill, vốn cung cấp ngữ cảnh cần thiết để tạo ra các token đầu ra mạch lạc và phù hợp với ngữ cảnh.

Giai đoạn Prefill

Khi kích thước lô (batch size) tăng từ 1 lên 32, độ trễ của cả ba mô hình đều tăng; độ trễ của DeepSeek-R1-Distill-Qwen-32B tăng từ 29,97 ms ở kích thước lô bằng 1 lên 76,95 ms ở kích thước lô bằng 32. Tương tự, độ trễ của GEMMA-3-27B-IT và Qwen/QwQ-32B tăng lần lượt từ 51,84 ms và 29,90 ms lên 79,58 ms và 76,30 ms.

Ngược lại, tốc độ xử lý token cải thiện đáng kể khi kích thước lô tăng lên. Ở kích thước lô bằng 1, tốc độ xử lý token của ba mô hình dao động từ 192,95 đến 334,46 token mỗi giây. Ở kích thước lô bằng 32, con số này vọt lên mức 4158,67, 4021,40 và 4194,13 token mỗi giây lần lượt cho DeepSeek-R1-Distill-Qwen-32B, GEMMA-3-27B-IT và Qwen/QwQ-32B.

LLM Prefill Stage Performance: Latency (ms) & Token Rate (tokens/sec)
Batch Size DeepSeek-R1-Distill-Qwen-32B GEMMA-3-27B-IT Qwen/QwQ-32B
Latency (ms) Token Rate Latency (ms) Token Rate Latency (ms) Token Rate
1 29.97 333.64 51.84 192.95 29.90 334.46
2 30.21 662.09 52.55 380.61 29.95 667.80
4 32.40 1234.72 52.62 760.12 32.12 1245.47
8 36.98 2163.46 52.66 1519.19 36.69 2180.66
16 51.63 3125.50 60.96 2624.64 51.29 3147.61
32 76.95 4158.67 79.58 4021.40 76.30 4194.13

Khác với giai đoạn nạp dữ liệu (prefill), độ trễ trong giai đoạn giải mã (decode) vẫn duy trì ở mức tương đối ổn định trên các kích thước lô (batch size) khác nhau. Ví dụ, độ trễ của DeepSeek-R1-Distill-Qwen-32B dao động từ 27,14 ms đến 29,52 ms khi kích thước lô tăng từ 2 lên 32.

Tốc độ xử lý token trong giai đoạn giải mã cải thiện khi kích thước lô tăng lên, mặc dù mức độ không quá đột biến như trong giai đoạn prefill. Ở kích thước lô bằng 1, tốc độ xử lý token đạt khoảng 36-37 token mỗi giây đối với DeepSeek-R1-Distill-Qwen-32B và Qwen/QwQ-32B, và 33,96 token mỗi giây đối với GEMMA-3-27B-IT. Ở kích thước lô bằng 32, tốc độ xử lý token tăng lên lần lượt là 1083,83, 873,39 và 1084,89 token mỗi giây.

LLM Decode (Token) Performance: Latency (ms) & Token Rate (tokens/sec)
Batch Size DeepSeek-R1-Distill-Qwen-32B GEMMA-3-27B-IT Qwen/QwQ-32B
Latency (ms) Token Rate Latency (ms) Token Rate Latency (ms) Token Rate
1 27.24 36.71 29.45 33.96 27.24 36.71
2 27.14 73.70 30.80 64.93 27.14 73.69
4 27.50 145.46 31.33 127.65 27.47 145.62
8 27.91 286.61 32.54 245.83 27.90 286.78
16 28.31 565.07 34.71 460.92 28.44 562.56
32 29.52 1083.83 36.64 873.39 29.50 1084.89

Điều này hoàn toàn đúng như dự kiến, vì giai đoạn nạp dữ liệu (prefill) phải tính toán các trạng thái ẩn ban đầu và bộ nhớ đệm key-value cho toàn bộ câu lệnh đầu vào, điều này giúp tận dụng tối đa công suất của GPU nhờ khả năng thực hiện đồng thời các hoạt động xử lý theo lô lớn.

Sau khi xử lý xong câu lệnh, mô hình sẽ tạo ra các thẻ (token) mới, thông thường là từng thẻ một. Tại mỗi bước, mô hình sẽ tiếp nhận token trước đó cùng các trạng thái ẩn đã được lưu trong bộ nhớ đệm để tạo ra token tiếp theo. Vì giai đoạn này diễn ra theo trình tự từng token một, kích thước lô thường nhỏ, dẫn đến việc GPU thường xuyên không được khai thác hết hiệu năng.

Thử nghiệm Hiệu năng Thị giác Máy tính Procyon AI (Procyon AI Computer Vision Benchmark)

Sử dụng các tác vụ thị giác máy tính thực tế, bộ thử nghiệm Procyon AI đánh giá hiệu năng suy luận AI trên các bộ xử lý CPU, GPU và các bộ tăng tốc AI. Nó hỗ trợ nhiều công cụ suy luận khác nhau như TensorRT, OpenVINO, SNPE, Windows ML và Core ML, giúp cung cấp cái nhìn sâu sắc về tính hiệu quả, khả năng tương thích và mức độ tối ưu hóa.

Kết quả thử nghiệm Procyon AI Computer Vision cũng cho thấy hiệu năng suy luận AI mạnh mẽ. Hệ thống đạt được thời gian suy luận thấp, với MobileNet V3 là 20,64 ms và ResNet 50 là 22,42 ms. Inception V4 và DeepLab lần lượt chạy ở mức 65,23 ms và 41,37 ms, xử lý hiệu quả các khối lượng công việc thị giác phức tạp hơn. YOLO V3, một mô hình phát hiện đối tượng then chốt, hoàn thành trong 37,80 ms, giúp nó cực kỳ phù hợp cho các ứng dụng AI thời gian thực. REAL-ESRGAN, một mô hình siêu độ phân giải đòi hỏi tính toán chuyên sâu, ghi nhận mức 1.159,22 ms, mang lại cho chúng tôi tổng điểm Hiệu năng Thị giác Máy tính AI là 81.

AI Computer Vision (Lower duration is better) (Higher Score is better) Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB Ram)
MobileNet V3 Average Inference Time 20.64 ms
ResNet 50 Average Inference Time 22.42 ms
Inception V4 Average Inference Time 65.23 ms
DeepLab Average Inference Time 41.37 ms
YOLO V3 Average Inference Time 37.80 ms
REAL-ESRGAN Average Inference Time 1,159.22 ms
AI Computer Vision Overall Score 81

HammerDB TPROC-C

Chúng tôi cũng đã đánh giá hiệu năng của bốn cơ sở dữ liệu mã nguồn mở phổ biến—MariaDB 11.4.4, MySQL 8.4.4, MySQL 5.7.44 và PostgreSQL 17.2—bằng cách sử dụng bộ thử nghiệm HammerDB TPROC-C để mô phỏng khối lượng công việc OLTP trên 500 kho hàng (warehouses).

MariaDB đã vươn lên là cái tên có hiệu năng cao nhất, đặc biệt là trong các cấu hình hai socket, nơi nó mở rộng quy mô hiệu quả và đạt được thông lượng giao dịch cao nhất. MySQL 8.4.4 cho thấy những cải thiện rõ rệt so với phiên bản cũ 5.7.44, làm nổi bật những nâng cấp trong các bản phát hành gần đây. PostgreSQL 17.2 mang lại hiệu suất ổn định nhưng thấp hơn một chút so với MariaDB và MySQL 8.4.4. MariaDB đạt 3,15 triệu TPM trên cấu hình một socket và 5,8 triệu TPM trên cấu hình hai socket, vượt qua các đối thủ còn lại trong cả hai kịch bản.

Performance comparison Table (Transactions per minute, TPM)

Database Engine Single-socket TPM Dual-socket TPM
MariaDB 11.4.4 3,150,000 5,800,000
MySQL 8.4.4 2,850,000 5,150,000
PostgreSQL 17.2 2,700,000 4,900,000
MySQL 5.7.44 2,300,000 4,250,000

Mặc dù R770 sở hữu phần cứng mạnh mẽ, bao gồm 86 nhân trên mỗi CPU (sự kết hợp giữa các nhân ưu tiên cao và nhân ưu tiên thấp), không có cơ sở dữ liệu nào thể hiện mức tăng trưởng hiệu năng đáng kể khi phân phối hoạt động trên cả hai socket. Điều này phản ánh xu hướng chung của các cơ sở dữ liệu mã nguồn mở là ưu tiên thực thi trên một socket đơn lẻ để tận dụng tính cục bộ của nhân (core locality) tốt hơn và giảm độ trễ bộ nhớ.

Dựa trên những kết quả này, R770 phù hợp hơn để chạy nhiều thực thể (instances) cơ sở dữ liệu trong một môi trường ảo hóa thay vì mở rộng quy mô cho một thực thể duy nhất. Kiến trúc của hệ thống là lý tưởng để hỗ trợ khối lượng công việc hỗn hợp với mật độ cơ sở dữ liệu cao, tận dụng cả nhân hiệu năng và nhân tiết kiệm điện để mang lại thông lượng ổn định trên nhiều thực thể cùng lúc.

7-Zip

Công cụ 7-Zip phổ biến có tích hợp sẵn bộ kiểm tra hiệu năng bộ nhớ để đo lường khả năng vận hành của CPU và bộ nhớ hệ thống trong các tác vụ nén và giải nén, cho biết hệ thống có thể xử lý các hoạt động thâm dụng dữ liệu tốt đến mức nào.

Trong bài kiểm tra 7-Zip, đối với các tác vụ nén, hệ thống Dell đạt mức đánh giá cao hơn (266,425 GIPS) so với Lenovo (224,313 GIPS), đồng thời Dell cũng cho thấy mức sử dụng CPU thấp hơn một chút. Tuy nhiên, Lenovo lại vượt qua Dell trong tác vụ giải nén với mức đánh giá cao hơn (288,457 GIPS so với 256,154 GIPS) và mức sử dụng CPU có phần cao hơn. Dell đạt tổng điểm đánh giá chung cao hơn một chút (261,290 GIPS), chứng tỏ hiệu quả tổng thể tốt hơn trên cả hai tác vụ nén và giải nén.

7-Zip Compression & Decompression Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB Ram) Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512GB Ram)
Compressing – Current CPU Usage 5267% 5064%
Compressing – Current Rating/Usage 5.061 GIPS 4.341 GIPS
Compressing – Current Rating 266.591 GIPS 219.840 GIPS
Compressing – Resulting CPU Usage 5270% 5156%
Compressing – Resulting Rating/Usage 5.056 GIPS 4.350 GIPS
Compressing – Resulting Rating 266.425 GIPS 224.313 GIPS
Decompressing – Current CPU Usage 5623% 6184%
Decompressing – Current Rating/Usage 4.586 GIPS 4.688 GIPS
Decompressing – Current Rating 257.909 GIPS 289.879 GIPS
Decompressing – Resulting CPU Usage 5627% 6205%
Decompressing – Resulting Rating/Usage 4.553 GIPS 4.649 GIPS
Decompressing – Resulting Rating 256.154 GIPS 288.457 GIPS
Total – Total CPU Usage 5448% 5681%
Total – Total Rating/Usage 4.804 GIPS 4.500 GIPS
Total – Total Rating 261.290 GIPS 256.385 GIPS

y-cruncher

y-cruncher là một ứng dụng chấm điểm hiệu năng và kiểm tra độ ổn định (stress-test) phổ biến được ra mắt từ năm 2009. Bài kiểm tra này hỗ trợ đa luồng và có khả năng mở rộng cao, chuyên tính toán số Pi và các hằng số khác lên đến hàng nghìn tỷ chữ số. Trong bài kiểm tra này, thời gian càng ngắn nghĩa là hiệu năng càng tốt. Phần mềm này cực kỳ hiệu quả trong việc thử nghiệm các nền tảng có số lượng nhân lớn và chỉ ra lợi thế tính toán giữa các hệ thống chạy một socket và hai socket.

Kết quả thử nghiệm y-cruncher cho thấy một khoảng cách hiệu năng đáng kể giữa Dell PowerEdge R770 sử dụng CPU nhân P-core và Lenovo ThinkSystem SR630 V4 sử dụng CPU nhân E-core, đặc biệt là khi kích thước tập dữ liệu tăng lên. Điều này không hẳn là để phân định hệ thống nào tốt hơn, mà chủ yếu để cho thấy sự khác biệt giữa các loại CPU khi xử lý khối lượng công việc này.

Đối với các phép tính nhỏ, hệ thống Dell đã dẫn trước khi tính toán 1 tỷ chữ số Pi trong 2,753 giây, trong khi Lenovo mất thời gian gấp đôi với 5,997 giây. Khi khối lượng công việc mở rộng, khoảng cách càng nới rộng. Ở mức 10 tỷ chữ số, Dell hoàn thành trong 34,873 giây, chưa đầy một nửa so với 81,046 giây của Lenovo. Đến mốc 50 tỷ chữ số, Dell tiếp tục duy trì lợi thế khi hoàn thành nhiệm vụ trong 221,255 giây, trong khi Lenovo mất 476,826 giây, giúp Dell nhanh hơn tới 53%.

Ở mức 100 tỷ chữ số, Lenovo không thể hoàn thành bài kiểm tra do cấu hình hiện tại chỉ có 512GB RAM. Với 2TB RAM, Dell đã xử lý khối lượng công việc này một cách hiệu quả và hoàn thành trong 491,737 giây.

Y-cruncher (lower duration is better) Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB Ram) Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512GB Ram)
1 Billion 2.753 seconds 5.997 seconds
2.5 Billion 7.365 seconds 17.573 seconds
5 Billion 16.223 seconds 37.793 seconds
10 Billion 34.873 seconds 81.046 seconds
25 Billion 99.324 seconds 220.025 seconds
50 Billion 221.255 seconds 476.826 seconds
100 Billion 491.737 seconds

Blender OptiX

Blender là một ứng dụng mô hình hóa 3D mã nguồn mở. Thử nghiệm này được thực hiện bằng công cụ Blender Benchmark, với đơn vị tính là số mẫu trên mỗi phút (samples per minute) – chỉ số này càng cao thì hiệu năng càng tốt.

Kết quả thử nghiệm Blender cho thấy lợi thế hiệu năng rõ rệt của Dell PowerEdge R770 so với Lenovo ThinkSystem SR630 V4, đặc biệt là trong tác vụ dựng hình (rendering) bằng CPU. Trong cảnh “CPU Monster”, Dell đạt 1.706,002 mẫu/phút, dẫn trước 19% so với mức 1.432,09 mẫu/phút của Lenovo. Thử nghiệm “CPU Junkshop” càng làm nổi bật khoảng cách này khi Dell đạt 1.169,370 mẫu/phút, vượt xa mức 914,75 mẫu/phút của Lenovo tới 28%. Tương tự, Dell đạt 791,475 mẫu/phút trong bài kiểm tra “CPU Classroom”, trong khi Lenovo tụt lại phía sau với 656,68 mẫu/phút, chênh lệch 20%.

Việc thiếu GPU trong hệ thống Lenovo cũng đồng nghĩa với việc nó không thể tham gia vào các bài thử nghiệm dựng hình bằng GPU. Trong khi đó, card đồ họa NVIDIA L4 trên hệ thống Dell đã ghi nhận số điểm 1.895,71 mẫu/phút cho cảnh Monster, 950,42 mẫu/phút cho Junkshop và 968,43 mẫu/phút cho cảnh Classroom.

Blender CPU Benchmark Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB Ram) Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512GB Ram)
CPU Monster (Blender 4.3) 1,706.002 Samples/Min 1432.09 Samples/Min
CPU Junkshop (Blender 4.3) 1,169.370 Samples/Min 914.75 Samples/Min
CPU Classroom (Blender 4.3) 791.475 Samples/Min 656.68 Samples/Min
GPU Monster (Blender 4.3) 1,895.712 Samples/Min (no gpu)
GPU Junkshop (Blender 4.3) 950.424 Samples/Min (no gpu)
GPU Classroom (Blender 4.3) 968.432 Samples/Min (no gpu)

Cinebench R23

Công cụ chấm điểm Cinebench R23 đánh giá hiệu năng CPU của hệ thống bằng cách dựng một cảnh 3D phức tạp bằng công cụ Cinema 4D. Nó đo lường hiệu suất đơn nhân và đa nhân, cung cấp cái nhìn toàn diện về khả năng của CPU trong việc xử lý các tác vụ dựng hình 3D.

Trong bài thử nghiệm Cinebench R23, kết quả làm nổi bật sự khác biệt đáng kể về hiệu năng CPU giữa Dell PowerEdge R770 và Lenovo ThinkSystem SR630 V4, đặc biệt khi xem xét số lượng nhân trên mỗi bộ xử lý. Lenovo ThinkSystem SR630 V4, được trang bị 2 bộ xử lý Intel Xeon 6780E (144 nhân mỗi bộ xử lý), đã vượt qua Dell trong bài kiểm tra Đa nhân (CPU Multi-Core) với số điểm 99.266 điểm, so với 74.710 điểm của Dell. Sự khác biệt này phản ánh lợi thế của Lenovo trong các khối lượng công việc đa luồng nhờ tổng số nhân cao hơn (tổng cộng 288 nhân) so với 2 bộ xử lý Intel Xeon 6787P của Dell (86 nhân mỗi bộ xử lý).

Trong bài kiểm tra Đơn nhân (CPU Single-Core), Dell đã thể hiện tốt hơn với số điểm 1.272 điểm, vượt qua mức 894 điểm của Lenovo. Kết quả này nhấn mạnh hiệu quả xử lý đơn luồng vượt trội của Dell mặc dù có số lượng nhân thấp hơn.

Cinebench R23 Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB Ram) Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512GB Ram)
CPU Multi-Core 74,710 pts 99,266 pts
CPU Single-Core 1,272 pts 894 pts
MP Ratio 58.74 x 111.00 x

Cinebench 2024

Cinebench 2024 mở rộng khả năng đánh giá của phiên bản R23 bằng cách bổ sung thêm phần chấm điểm hiệu năng GPU. Công cụ này tiếp tục thử nghiệm sức mạnh CPU nhưng cũng bao gồm các bài kiểm tra đo lường khả năng của GPU trong việc xử lý các tác vụ dựng hình.

Trong bản cập nhật mới này, Dell PowerEdge R770 đạt 12.996 điểm cho hiệu năng GPU, làm nổi bật khả năng xử lý các tác vụ dựng hình tăng tốc bằng phần cứng đồ họa. Ngược lại, Lenovo ThinkSystem SR630 V4 không được trang bị GPU rời, do đó không có điểm số ở hạng mục này.

Trong bài kiểm tra CPU Đa nhân (Multi-Core), Lenovo đạt 2.884 điểm, dẫn trước một chút so với mức 2.831 điểm của Dell, cho thấy ưu thế nhẹ về hiệu năng đa nhân của hệ thống Lenovo. Tuy nhiên, ở bài kiểm tra CPU Đơn nhân (Single-Core), Dell đã vượt qua Lenovo với 71 điểm so với 53 điểm, minh chứng cho hiệu suất đơn nhân cao hơn của Dell mặc dù sở hữu ít số nhân hơn.

Cinebench R24 Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB Ram) Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512GB Ram)
GPU Score 12,996 pts
CPU Multi-Core 2,831 pts 2,884 pts
CPU Single-Core 71 pts 53 pts
MP Ratio 39.77 x 54.43 x

Geekbench 6

Geekbench 6 là một bộ công cụ kiểm tra hiệu năng đa nền tảng dùng để đo lường sức mạnh tổng thể của hệ thống. Thông qua trình duyệt Geekbench Browser, bạn có thể so sánh kết quả của bất kỳ hệ thống nào với nhau.

Kết quả thử nghiệm Geekbench 6 cho thấy những khác biệt rõ rệt về hiệu năng giữa Dell PowerEdge R770 và Lenovo ThinkSystem SR630 V4. Trong bài kiểm tra CPU Đơn nhân (Single-Core), Dell đã vượt xa Lenovo với số điểm 1.797, trong khi Lenovo đạt 1.173 điểm, cho thấy mức cải thiện hiệu năng đơn nhân lên tới 53% cho phía Dell.

Trong bài kiểm tra CPU Đa nhân (Multi-Core), Dell tiếp tục dẫn đầu với 15.880 điểm, còn Lenovo đạt 13.868 điểm, mang lại cho Dell lợi thế 14% về hiệu suất đa nhân. Điều này cho thấy các bộ xử lý Intel Xeon 6787P của Dell cung cấp sức mạnh tính toán tổng thể vượt trội, đặc biệt là trong các tác vụ tận dụng được nhiều nhân.

Bài thử nghiệm GPU OpenCL càng làm nổi bật lợi thế của Dell với số điểm lên tới 148.730 nhờ vào sức mạnh của card đồ họa NVIDIA L4.

Geekbench 6 (Higher is better) Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB Ram) Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512GB Ram)
CPU Single-Core 1,797 1,173
CPU Multi-Core 15,880 13,868
GPU OpenCL Score 148,730 (no gpu)

Blackmagic RAW Speed Test

Blackmagic RAW Speed Test là một công cụ đánh giá hiệu năng được thiết kế để đo lường khả năng của hệ thống trong việc xử lý phát video và biên tập bằng bộ giải mã Blackmagic RAW. Công cụ này đánh giá mức độ hiệu quả của hệ thống khi giải mã và phát các tệp video độ phân giải cao, cung cấp tốc độ khung hình (FPS) cho cả quy trình xử lý dựa trên CPU và GPU.

Trong bài kiểm tra dựa trên CPU, Dell PowerEdge R770 đạt mức 141 FPS, vượt qua Lenovo ThinkSystem SR630 V4 với kết quả 120 FPS. Điều này cho thấy hệ thống Dell xử lý các tác vụ video dựa trên CPU hiệu quả hơn so với Lenovo. Đối với bài kiểm tra dựa trên GPU, Dell PowerEdge R770 đạt 157 FPS nhờ vào sự hiện diện của GPU NVIDIA.

Blackmagic RAW Speed Test (higher is better) Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB Ram) Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512GB Ram)
FPS CPU 141 FPS 120 FPS
FPS CUDA 157 FPS 0 FPS (no GPU)

Blackmagic Disk Speed Test

Blackmagic Disk Speed Test đánh giá tốc độ đọc và ghi của ổ đĩa, từ đó ước tính hiệu năng của nó, đặc biệt là đối với các tác vụ biên tập video. Công cụ này giúp người dùng đảm bảo rằng hệ thống lưu trữ của họ đủ nhanh để xử lý các nội dung độ phân giải cao, chẳng hạn như video 4K hoặc 8K.

Trong bài kiểm tra tốc độ của Blackmagic, thẻ Dell BOSS trên hệ thống Dell PowerEdge R770 với cấu hình chạy gương (mirrored) hai ổ NVMe Dell SK hynix 480GB đã đạt được tốc độ đọc là 3.010,3 MB/s và tốc độ ghi là 976,3 MB/s.

Kết luận

Dell PowerEdge R770 thực sự làm chúng tôi phấn khích, được thúc đẩy bởi việc áp dụng tiêu chuẩn Hệ thống Phần cứng Mô-đun Trung tâm Dữ liệu (DC MHS) của Dự án Điện toán Mở (OCP) cùng các phần cứng tiên tiến nhất. Việc tích hợp OCP DC MHS mang lại vô số lợi ích, bao gồm tính mô-đun hóa được tăng cường, khả năng bảo trì cải thiện và tiềm năng giảm chi phí thông qua việc tiêu chuẩn hóa sâu rộng. Triết lý thiết kế này thể hiện rõ trong mọi khía cạnh của hệ thống, từ việc triển khai iDRAC dưới dạng một mô-đun OCP DC-SCM cho đến các cổng kết nối.

R770 cũng sở hữu khả năng lưu trữ ấn tượng, hỗ trợ tới 40 ổ đĩa E3.S trong một khung máy 2U duy nhất, biến nó thành giải pháp lý tưởng cho các khối lượng công việc thâm dụng lưu trữ. Thêm vào đó, tính linh hoạt của máy chủ này còn được nâng cao hơn nữa nhờ hỗ trợ nhiều cấu hình khác nhau, bao gồm cả cấu hình cổng I/O phía trước để có thể tiếp cận từ lối đi lạnh (Cold Aisle), mang lại sự linh hoạt tối đa cho các sơ đồ bố trí trung tâm dữ liệu và yêu cầu bảo trì khác nhau.

Với việc hỗ trợ danh mục GPU đa dạng cùng các CPU Intel Xeon 6 nhân hiệu năng (P-core), R770 thực sự là một nền tảng máy chủ mạnh mẽ và đa năng, đáp ứng tốt nhu cầu của các trung tâm dữ liệu hiện đại. Phần cứng tiên tiến, thiết kế mô-đun và các tính năng bảo mật mạnh mẽ giúp R770 trở thành một lựa chọn hấp dẫn cho các tổ chức đang tìm cách triển khai AI, điện toán hiệu năng cao (HPC) và các khối lượng công việc doanh nghiệp truyền thống.

Đánh giá Dell PowerEdge R770: Thiết kế Mô-đun, Mạnh mẽ và Sẵn sàng cho AI

Đánh giá Dell PowerEdge R770

Dòng máy chủ PowerEdge R7x0 của Dell từ lâu đã là trụ cột của các trung tâm dữ liệu, nổi tiếng với chất lượng hoàn thiện vượt trội, thiết kế tinh tế, hiệu suất cao, mật độ lưu trữ tốt và độ tin cậy cực kỳ ổn định trong kiểu dáng 2U linh hoạt. Các thế hệ máy chủ này liên tục được cải tiến để đáp ứng những nhu cầu thay đổi không ngừng của thị trường. Giờ đây, với sự ra đời của Dell PowerEdge R770, dòng sản phẩm này đã thực hiện một bước tiến hóa đáng kể.

R770 lần đầu tiên ra mắt dòng vi xử lý Xeon 6 mới của Intel, bao gồm các bộ xử lý nhân P (Performance) và nhân E (Efficiency) thuộc các dòng Xeon 65006700. Đây cũng là cột mốc đánh dấu việc Dell lần đầu tiên áp dụng hoàn toàn tiêu chuẩn Hệ thống Phần cứng Mô-đun Trung tâm Dữ liệu OCP (DC MHS) vào dòng máy chủ phổ thông của mình. Sự kết hợp của hai thay đổi này hứa hẹn sẽ mang lại một cuộc cách mạng lớn về cả năng lực xử lý lẫn triết lý thiết kế.

Đáp ứng nhu cầu của các trung tâm dữ liệu hiện đại

Sự ra mắt của R770 diễn ra vào đúng thời điểm các trung tâm dữ liệu đang phải đối mặt với áp lực ngày càng lớn. Khối lượng công việc ngày càng trở nên đa dạng và khắt khe hơn. Sự tăng trưởng không ngừng của dữ liệu đang thúc đẩy nhu cầu về các hệ thống cơ sở dữ liệu và phân tích mạnh mẽ. Từ việc huấn luyện các mô hình phức tạp đến triển khai suy luận (inference) trong thời gian thực, trí tuệ nhân tạo không còn là một ứng dụng ngách mà đã trở thành động lực kinh doanh cốt lõi, đòi hỏi sức mạnh tính toán đáng kể và khả năng tăng tốc chuyên dụng.

Đồng thời, hiện nay đang có một sự tập trung cao độ vào hiệu quả sử dụng năng lượng và tối ưu hóa tổng chi phí sở hữu (TCO). Hơn nữa, ngành công nghiệp đang ngày càng hướng tới các tiêu chuẩn mở để thúc đẩy đổi mới, tăng cường khả năng tương thích giữa các hệ thống và tiềm năng giảm thiểu sự phụ thuộc vào một nhà cung cấp duy nhất (vendor lock-in). Với các tùy chọn bộ vi xử lý mới và việc áp dụng tiêu chuẩn OCP DC MHS, R770 được thiết kế để trực tiếp giải quyết những thách thức này.

Bộ vi xử lý Intel Xeon 6 nhân P (Performance-core)

Máy chủ R770 sử dụng dòng vi xử lý Intel Xeon 6, bao gồm các dòng 6700 và 6500, tích hợp cả hai loại nhân: nhân Hiệu năng cao (P-core) và nhân Tiết kiệm điện (E-core) dựa trên nền tảng Socket E2 (LGA4710-2). Trong bài đánh giá này, chúng tôi tập trung cụ thể vào các mã (SKU) thuộc dòng nhân P (Performance series).

Dell PowerEdge R770 CPU blocks

Intel xây dựng các bộ vi xử lý này bằng thiết kế dạng tile (mảnh ghép), kết hợp các I/O tile (khối điều khiển đầu vào/đầu ra) với một hoặc hai compute tile (khối tính toán). Thiết kế này cho phép mở rộng linh hoạt trong cùng một dòng sản phẩm: cấu hình có thể lên tới 86 nhân P (XCC) khi sử dụng hai compute tile, hoặc giảm xuống 48 nhân P (HCC) hay 16 nhân P (LCC) với một compute tile duy nhất.

So với các thế hệ Sapphire Rapids và Emerald Rapids trước đây, điểm khác biệt then chốt là sự hiện diện của các bộ tăng tốc tích hợp (built-in accelerators) trên toàn bộ các dòng vi xử lý Xeon 6. Các bộ tăng tốc này bao gồm:

  • Intel QuickAssist Technology: Tăng tốc mã hóa và nén dữ liệu.
  • Intel Data Streaming Accelerator: Tối ưu hóa việc di chuyển dữ liệu.
  • Intel In-Memory Analytics Accelerator: Tăng tốc cơ sở dữ liệu và phân tích dữ liệu trực tiếp trên bộ nhớ.
  • Intel Dynamic Load Balancer: Nâng cao hiệu quả xử lý mạng.

Băng thông Bộ nhớ và I/O

Băng thông bộ nhớ và I/O cũng nhận được những nâng cấp đáng kể. Dòng Xeon 6700/6500 nhân P hỗ trợ bộ nhớ DDR5 8 kênh. Chúng cũng mở đường cho công nghệ MRDIMM (Multiplexed Rank DIMM), mang lại tốc độ lên tới 8.800 MT/s. Về mặt kết nối, các vi xử lý này hỗ trợ PCIe 5.0 và CXL 2.0. Trong cấu hình chạy hai socket (CPU kép), nền tảng này có thể cung cấp tới 88 làn PCIe mỗi socket (tổng cộng 176 làn).

Dù có sự khác biệt giữa nhân P (Hiệu năng) và nhân E (Tiết kiệm điện), dòng Xeon 6 vẫn duy trì sự đồng nhất về tập lệnh, BIOS, trình điều khiển (driver), hỗ trợ hệ điều hành/ứng dụng và các tính năng RAS (Độ tin cậy, Khả năng sẵn sàng và Khả năng bảo trì), giúp đơn giản hóa việc tích hợp và quản lý.

Các phiên bản nhân P được nhắm tới các khối lượng công việc ưu tiên hiệu năng trên mỗi nhân, tăng tốc AI, băng thông bộ nhớ cao và I/O lớn; điển hình như các cơ sở dữ liệu khắt khe, mô phỏng HPC (tính toán hiệu năng cao), phân tích nâng cao và đa dạng các ứng dụng AI.

Thông số kỹ thuật Dell PowerEdge R770

Specification Dell PowerEdge R770
Processor Two Intel Xeon 6 processors with up to 144 E-cores or 86 P-cores per processor
Memory 32 DDR5 DIMM slots, supports RDIMM 8 TB max, speeds up to 6400 MT/s, supports registered ECC DDR5 DIMMs only
Storage Controllers Internal Boot: Boot Optimized Storage Subsystem (BOSS-N1 DC-MHS): HWRAID 1, 2 x M.2 NVMe SSDs or M.2 Interposer board (DC-MHS): 2 x M.2 NVMe SSDs or USB, Internal controllers: Front PERC H965i, Front PERC H975i, Front PERC H365i
Front and Rear Bays
  • No backplane configuration
  • Up to 8 x EDSFF E3.S Gen5 NVMe (SSD) max 122.88 TB also comes with FIO configuration,
  • Up to 16 x EDSFF E3.S Gen5 NVMe (SSD) max 245.76 TB also comes with FIO configuration,
  • Up to 32 x EDSFF E3.S Gen5 NVMe (SSD) max 489.6 TB
  • Up to 8 x 2.5 inch SAS/SATA/NVMe (SSD) max 122.88 TB
  • Up to 8 x 2.5-inch Universal max 245.6 TB, Up to 16 x 2.5 inch SAS/SATA (SSD) max 61.44 TB
  • Up to 24 x 2.5 inch SAS/SATA (SSD) max 92.16 TB,
  • Up to 16 x 2.5 inch SAS/SATA (SSD) + 8 x 2.5-inch NVME) max 92.16 TB
  • Up to 40 x EDSFF E3.S Gen5 NVMe (SSD) max 614.4 TB
  • Up to 4 x EDSFF E3.S Gen5 NVMe (SSD) max 61.2 TB on the rear
Hot Swap Power Supplies
  • 800 W Platinum 100—240 VAC or 240 VDC
  • 1100 W Platinum 100—240 VAC or 240 VDC
  • 1500 W Titanium 100—240 VAC or 240 VDC
  • 1100 W Titanium 100—240 VAC or 240 VDC
  • 3200 W Titanium 200—240 VAC or 240 VDC
  • 800 W Titanium 100—240 VAC or 240 VDC
  • 3200 W 277 VAC and 336 HVDC Titanium
  • 1400 W -48VDC 60mm
  • 1500 W 277 VAC and 336 HVDC Titanium
  • 2400 W Titanium 100—240 VAC or 240 VDC 1800 W HLAC Titanium 200—240 VAC or 240 VDC
Cooling Options Air cooling and Direct Liquid Cooling (DLC is a rack solution and requires rack manifolds and a cooling distribution unit (CDU) to operate)
Fans High-performance Silver (HPR SLVR) fans/High-performance Gold (HPR GOLD) fans, up to 6 hot swappable fans
Dimensions and Weight Height – 86.8 mm (3.42 inches), Width – 482 mm (18.97 inches), Weight – 28.53 kg (62.89 pounds), Depth (for rear I/O configuration) – 802.40 mm (31.59 inches) with bezel, 801.51 mm (31.56 inches) without bezel, Depth (for front I/O configuration) – 814.52 mm (32.07 inches) without bezel
Form Factor 2U rack server
Embedded Management iDRAC, iDRAC Direct, iDRAC RESTful API with Redfish, RACADM CLI, iDRAC Service Module (iSM), NativeEdge Endpoint, NativeEdge Orchestrator
Bezel Optional security bezel
Security Cryptographically signed firmware, Data at Rest Encryption (SEDs with local or external key management), Secure Boot, Secured Component Verification (Hardware integrity check), Silicon Root of Trust, System Lockdown, System Lockdown (requires iDRAC10 Enterprise or Datacenter), Chassis Intrusion Detection, TPM 2.0 FIPS, CC-TCG certified
Network Options
  • 4 x OCP NIC 3.0 cards (optional) and 1GbE, 10GbE, 25GbE,100GbE and 400GbE
  • Slot 4 1 x 8 or 1 x 16 Gen5 OCP 3.0
  • Slot 10 1 x 8 or 1 x 16 OCP 3.0, Slot 34 1 x 16 Gen5 OCP 3.0 on front riser
  • Slot 38 1 x 16 Gen 5 OCP 3.0 on front riser
  • BOSS Slot 34 1 x 4 BOSS, Slot 6 1 x 4 BOSS
GPU Options Up to 6 x 75 W FHHL or up to 2 x 350 W DWFL
Ports Front Ports: 1 x USB 2.0 Type C port, 1 x USB 2.0 Type A port (optional), 1 x Mini-DisplayPort (optional), 1 x DB9 Serial (with front I/O configuration), 1 x Dedicated ethernet port for iDRAC management; Rear Ports: 1 x Dedicated ethernet port for iDRAC management, 1 x VGA, 2 x USB 3.1 Type A ports; Internal Ports: 1 x USB 3.1 Type A port
PCIe
  • Up to two PCIe slots (x16 connectors)
  • Slot 31 1 x 16 Gen5 Full Height – Half Length or Full Length on front Riser
  • Slot 36 1 x 16 Gen5 Full Height – Half Length on front Riser
  • Up to eight PCIe slots (x8 and x16 connectors)
  • Slot 1 1 x 8 Gen5 Full Height – Half Length
  • Slot 2 1 x 16 Gen5 Dual Width Full Length or 1 x 8 Gen5 Full Height – Half Length
  • Slot 3 1 x 16 Gen5 Full Height – Half Length or 1 x 16 Gen5 Low Profile
  • Slot 4 1 x 16 Gen5 Full Height – Half Length or 1 x 8 Gen5 Full Height – Half Length or 1 x 8 or 1 x 16 OCP 3.0
  • Slot 5 2 x 16 Gen5 Full Height – Half Length or 1 x 8 Gen5 Full Height – Half Length
  • Slot 7 1 x 16 Gen5 Full Height – Half Length or 1 x 16 Gen5 Dual Width Full Length or 1 x 8 Gen5 Full Height – Half Length, Slot 8 1 x 16 Gen5 Full Height – Half Length or 1 x 8 Gen5 Full Height – Half Length
  • Slot 9 1 x 16 Gen5 Full Height – Half Length or 1 x 8 Gen5 Full Height – Half Length or 1 x 16 Low Profile- Half Length
Operating Systems and Hypervisors Canonical Ubuntu Server LTS, Microsoft Windows Server with Hyper-V, Red Hat Enterprise Linux, SUSE Linux Enterprise Server, VMware with vSphere

Dell PowerEdge R770 hướng đến tính mô-đun với OCP DC MHS

Dell PowerEdge R770 mang đến những cải tiến đáng kể và sự linh hoạt trong thiết kế vật lý cũng như cấu trúc linh kiện, thông qua việc áp dụng tiêu chuẩn Hệ thống Phần cứng Mô-đun cho Trung tâm Dữ liệu (DC MHS) của Dự án Tính toán Mở (OCP).

Dell PowerEdge R770 SSD rear view

Tiếp nối thành công của dòng R7x0 danh tiếng, Dell PowerEdge R770 mang đến các tùy chọn cấu hình cực kỳ đa dạng nhằm đáp ứng mọi nhu cầu triển khai khác nhau.

Một điểm cải tiến đột phá lần đầu tiên xuất hiện trên dòng máy này là người dùng có thể lựa chọn giữa cấu hình Cổng kết nối phía sau (Rear I/O) truyền thống hoặc cấu hình Cổng kết nối phía trước (Front I/O) – cho phép thao tác trực tiếp từ phía hành lang lạnh (Cold Aisle). Sự thay đổi này giúp linh hoạt tối đa trong việc bố trí trung tâm dữ liệu và thuận tiện hơn cho việc bảo trì.

Khả năng lưu trữ cũng linh hoạt không kém, từ các nút tính toán (compute nodes) tập trung vào hiệu năng với ít hoặc không có ổ cứng tại chỗ, cho đến các cấu hình mật độ cao hỗ trợ tới 40 ổ cứng chuẩn E3.S, đáp ứng hoàn hảo cho các khối lượng công việc chuyên về lưu trữ dữ liệu lớn.

Để đáp ứng nhu cầu ngày càng tăng về tính toán tăng tốc, đặc biệt là cho AI (Trí tuệ nhân tạo) và HPC (Tính toán hiệu năng cao), R770 sở hữu khả năng mở rộng vô cùng mạnh mẽ. Tùy thuộc vào thiết kế khung máy (chassis) và cấu hình riser, máy chủ này có thể lắp đặt tối đa 6 card PCIe Gen 5 x16 dạng đầy đủ chiều cao và chiều dài (FHFL). Hơn thế nữa, nó còn hỗ trợ 2 GPU chuẩn double-wide (chiếm 2 khe cắm), biến đây thành một nền tảng thực sự mạnh mẽ cho đa dạng các tác vụ. Tính linh hoạt về kết nối mạng cũng được đảm bảo thông qua các khe cắm OCP 3.0 mezzanine, hỗ trợ các loại card x8 hoặc x16 tùy theo cấu hình.

Dell cũng đã thực hiện nhiều cải tiến về thiết kế nhằm tăng cường khả năng bảo trì và độ tin cậy. Một ví dụ điển hình là sự tiến hóa của card BOSS (Giải pháp lưu trữ tối ưu cho khởi động). Trước đây, bộ điều khiển BOSS thường được kết nối qua dây cáp và tích hợp vào riser PCIe, nhưng trên R770, nó đã được triển khai dưới dạng card chuẩn OCP kết nối trực tiếp vào bo mạch chủ, giúp loại bỏ hoàn toàn sự phức tạp của dây cáp. Bộ điều khiển BOSS mới này cũng sử dụng các ổ NVMe M.2 tốc độ cao hơn và tích hợp sẵn tản nhiệt để đảm bảo nhiệt độ hoạt động cũng như hiệu suất tối ưu cho các thiết bị khởi động. Một cải tiến nhỏ nhưng rất thiết thực cho các kỹ thuật viên là việc chuyển từ các chân nhảy (jumpers) truyền thống sang các công tắc gạt (DIP switches) dễ sử dụng hơn cho các chức năng như xóa bộ nhớ NVRAM.

Sự chuyển dịch kiến trúc sâu sắc nhất chính là việc áp dụng hoàn toàn tiêu chuẩn OCP DC MHS. Dell đã bắt đầu đưa các thành phần OCP vào những thế hệ trước, đáng chú ý nhất là việc sử dụng các khe cắm card mạng chuẩn OCP 3.0. Tuy nhiên, R770 còn tiến xa hơn thế rất nhiều.

Các thành phần cốt lõi hiện nay đều tuân thủ các thông số kỹ thuật của OCP, bao gồm Mô-đun Bộ vi xử lý Máy chủ (HPM) – thường được gọi là bo mạch chủ. Thành phần này bao gồm cả các khe cắm riser, giờ đây là các cổng kết nối M-XIO. Cổng M-XIO cung cấp một giao diện tiêu chuẩn hóa cho các card riser, giúp tăng cường khả năng linh hoạt và nâng cấp. Hệ thống quản trị iDRAC cũng được triển khai dưới dạng một mô-đun OCP DC-SCM (Mô-đun Điều khiển Máy chủ).

Hơn nữa, R770 còn giới thiệu đầu cấp nguồn PICPWR mới dành cho các thiết bị ngoại vi như GPU và bảng mạch điều khiển ổ cứng (backplane). Đây là một sự bổ sung quan trọng, giúp đơn giản hóa việc phân phối điện năng, đồng thời tích hợp sẵn khả năng giám sát điện năng trực tiếp trên đường truyền (inline power monitoring).

Sự tích hợp sâu rộng này giúp tiêu chuẩn hóa các giao diện kết nối và kích thước vật lý giữa các hệ thống con khác nhau. Mặc dù Dell luôn nhấn mạnh rằng người dùng nên sử dụng các linh kiện đã được họ xác thực để đảm bảo tính tương thích và nhận được sự hỗ trợ kỹ thuật tốt nhất, nhưng việc tiêu chuẩn hóa nền tảng này giúp nhiều bộ phận về bản chất trở nên dễ bảo trì hơn và có tiềm năng thay thế lẫn nhau giữa các hệ thống tuân thủ cùng tiêu chuẩn trong tương lai.

Quản trị và iDRAC

Dell PowerEdge R770 được phát triển dựa trên nền tảng iDRAC 9 vốn đã rất giàu tính năng và được ưa chuộng, nay nâng cấp lên thế hệ kế tiếp là iDRAC 10. Phiên bản này nâng tầm quản trị hệ thống thông qua việc tích hợp mượt mà với Mô-đun Điều khiển Bảo mật cho Trung tâm Dữ liệu (DC-SCM).

Sự tích hợp này cho phép tinh giản quy trình cập nhật firmware và quản lý cấu hình, đảm bảo vận hành đồng nhất và khả năng mở rộng linh hoạt trên toàn bộ trung tâm dữ liệu. Ngoài ra, iDRAC 10 còn hỗ trợ các khả năng giám sát và tự động hóa nâng cao, giúp các quản trị viên CNTT quản lý hiệu quả các hệ thống triển khai quy mô lớn mà không làm ảnh hưởng đến hiệu suất hay độ tin cậy.

Bảo mật là nền tảng cốt lõi trong các tính năng quản trị của R770, với việc Dell đã triển khai các cơ chế xác thực mạnh mẽ ngay từ giai đoạn trước khi khởi động và trong khi khởi động.

Bằng cách tận dụng công nghệ Root of Trust (Gốc tin cậy) dựa trên phần cứng (silicon), iDRAC 10 đảm bảo rằng tất cả firmware, bao gồm BIOS và iDRAC, đều được xác thực bằng mật mã trước khi thực thi. Biện pháp bảo mật dựa trên phần cứng không thể thay đổi này giúp chống lại sự can thiệp của mã độc và các cuộc tấn công vào chuỗi cung ứng, tạo ra một nền tảng an toàn cho mọi hoạt động của hệ thống.

Ngoài ra, R770 còn tích hợp các giao thức khởi động an toàn cấp độ lượng tử (quantum-safe booting) để giảm thiểu các mối đe dọa mật mã học mới nổi, càng khẳng định thêm vai trò của nó trong việc bảo vệ các cơ sở hạ tầng trọng yếu.

Cam kết của Dell đối với bảo mật chuỗi cung ứng được thể hiện rõ nét trong thiết kế của R770, thông qua việc áp dụng quy trình xác thực chuỗi tin cậy (chain-of-trust) toàn diện.

Mỗi linh kiện phần cứng đều trải qua quá trình kiểm tra nghiêm ngặt bằng cách sử dụng các chữ ký mã hóa (cryptographic signatures) được nhúng ngay từ khâu sản xuất. Quy trình này đảm bảo rằng chỉ những phần mềm điều khiển (firmware) và linh kiện được ủy quyền mới được phép hoạt động, từ đó giảm thiểu tối đa các rủi ro liên quan đến việc sửa đổi trái phép hoặc sử dụng linh kiện giả mạo.

Những viên gạch nền tảng của “Nhà máy AI” (AI Factories)

R770 có thể được đặt hàng với rất nhiều cấu hình khung máy (chassis) và GPU khác nhau, biến nó thành một nền tảng linh hoạt cho đa dạng các khối lượng công việc AI. Sự linh hoạt này, kết hợp với khả năng lưu trữ và kết nối mạng mạnh mẽ, khiến nó trở thành lựa chọn hấp dẫn cho các tổ chức đang triển khai giải pháp Nhà máy AI.

Nhà máy AI là thuật ngữ chỉ cơ sở hạ tầng và các công cụ cần thiết để tạo ra, huấn luyện và triển khai các mô hình AI ở quy mô lớn. Những “nhà máy” này đóng vai trò thiết yếu trong việc phát triển các hệ thống tiên tiến như xe tự hành và robot, vì chúng cung cấp sức mạnh tính toán và các đường truyền dữ liệu (data pipelines) cần thiết để xử lý các tập dữ liệu khổng lồ một cách hiệu quả.

Việc phát triển xe tự hành và hệ thống robot đòi hỏi dữ liệu huấn luyện sâu rộng, phản ánh đúng các kịch bản trong thế giới thực. NVIDIA Cosmos NIM là một bước tiến đáng kể trong lĩnh vực này, mang đến cho các nhà phát triển một bộ công cụ mạnh mẽ để đẩy nhanh việc tạo ra và triển khai các hệ thống AI vật lý, chẳng hạn như Mô hình Nền tảng Thế giới (World Foundation Models).

Tìm hiểu về Mô hình Nền tảng Thế giới (World Foundation Models)

Mô hình Nền tảng Thế giới (WFMs) là các mạng thần kinh nhân tạo phức tạp có khả năng mô phỏng môi trường thế giới thực và dự đoán kết quả chính xác dựa trên các đầu vào khác nhau. Không giống như các mô hình AI truyền thống chỉ tập trung vào các tác vụ cụ thể, WFMs hiểu được các đặc tính động lực học của thế giới vật lý, bao gồm cả vật lý và các tính chất không gian.

Chúng có thể tạo ra video từ các câu lệnh văn bản (text prompts), hình ảnh hoặc các dữ liệu đầu vào khác, trong khi vẫn thể hiện chính xác các chuyển động, lực tác động và mối quan hệ không gian.

NVIDIA Cosmos NIM: Bước đệm tới Mô hình Nền tảng Thế giới

NVIDIA Cosmos NIM là một bước đi quan trọng hướng tới việc đạt được các Mô hình Nền tảng Thế giới. Chúng cho phép các tổ chức và phòng thí nghiệm AI tạo ra dữ liệu huấn luyện tổng hợp (synthetic training data), giúp mở rộng quy mô dữ liệu cần thiết để huấn luyện các mô hình AI này một cách hiệu quả.

Chúng tôi đã triển khai mô hình Cosmos Predict – một mô hình tổng quát chuyên tạo ra các trạng thái của thế giới từ câu lệnh văn bản hoặc video, đồng thời tổng hợp các chuyển động liên tục bằng cách dự đoán các khung hình tiếp theo.

Dưới đây là một số kết quả thú vị mà chúng tôi đã thực hiện được với Cosmos chỉ từ một hình ảnh duy nhất về phòng thí nghiệm của mình. Mặc dù chưa thực sự hoàn hảo, nhưng những gì nó có thể tạo ra từ một tấm ảnh duy nhất là cực kỳ ấn tượng.

Khả năng hỗ trợ các dòng GPU hiệu năng cao của R770, chẳng hạn như NVIDIA H100, cùng với năng lực lưu trữ và kết nối mạng mạnh mẽ, khiến nó trở thành lựa chọn hấp dẫn cho các tổ chức đang tìm kiếm giải pháp triển khai AI.

Bằng cách tận dụng sức mạnh của R770, các doanh nghiệp có thể huấn luyện và triển khai hiệu quả các mô hình AI như Cosmos NIM, từ đó đẩy nhanh quá trình phát triển xe tự hành và các hệ thống robot. Hiệu suất và khả năng mở rộng của R770 biến nó thành một nền tảng lý tưởng để xử lý lượng dữ liệu khổng lồ cần thiết cho việc huấn luyện mô hình AI, đồng thời tính linh hoạt của máy chủ này cho phép hỗ trợ đa dạng các loại khối lượng công việc AI khác nhau.

GPU Direct Storage (GDS)

GPU Direct Storage là công nghệ cho phép truyền dữ liệu trực tiếp giữa các thiết bị lưu trữ và GPU mà không cần đi vòng qua CPU và bộ nhớ hệ thống.

  • Trong truyền tải dữ liệu truyền thống: Dữ liệu được đọc từ ổ cứng vào bộ nhớ của CPU, sau đó mới được sao chép sang bộ nhớ của GPU. Quy trình này tạo ra nhiều bản sao dữ liệu trung gian, dẫn đến độ trễ cao và giảm hiệu suất. Khi đó, CPU đóng vai trò như một “nút thắt cổ chai” vì phải xử lý việc điều phối dữ liệu.
  • Với GDS: Nút thắt này bị loại bỏ bằng cách cho phép các thiết bị lưu trữ truyền dữ liệu thẳng tới bộ nhớ GPU.

Ngược lại, hiệu suất ghi (write) của các ổ cứng này thấp hơn đáng kể so với hiệu suất đọc. Phải cần tới toàn bộ 16 ổ cứng mới đạt được băng thông ghi là 46,7 GiB/s, trong khi tốc độ ghi trung bình của các ổ vẫn giữ ở mức gần như không đổi.

Vì đây là các phiên bản có dung lượng thấp (vốn có hiệu suất ghi thấp hơn) trong dòng sản phẩm KIOXIA CD8, nên các phiên bản dung lượng cao hơn hoặc các loại SSD PCIe Gen 5 khác chắc chắn sẽ cho kết quả tốt hơn.

Đánh giá hiệu năng (Benchmarking) Dell PowerEdge R770

Chuyển sang phần đánh giá hiệu năng, R770 là dòng máy chủ chủ lực (flagship) của Dell, và do đó, nó sẽ được triển khai trong rất nhiều môi trường đa dạng khác nhau. Vì vậy, chúng tôi đã thực hiện một bộ thử nghiệm toàn diện cho nền tảng này để đưa ra cái nhìn cụ thể về cách nó vận hành trong các kịch bản thực tế.

Trong một số bài kiểm tra, chúng tôi đã so sánh với Lenovo ThinkSystem SR630 V4 để làm nổi bật sự khác biệt về hiệu suất giữa các dòng CPU cao cấp sử dụng nhân hiệu năng cao (P-core) và nhân tiết kiệm điện (E-core).

Cấu hình hệ thống

  • CPU: 2x Intel Xeon 6787P (86 cores each)
  • RAM: 32x Micron 64 GB Dual-Rank DDR5 6400 MT/s Total Memory: 2TB
  • Power Supplies: 2x Delta 1500W
  • GPU: 1x NVIDIA H100 for the TGI benchmark, 1x NVIDIA L4 for the remaining tests
  • NIC: DELL BRCM 4P 25G SFP 57504S OCP NIC
  • BOSS Card: BOSS-N1 DC-MHS Disks 0 & 1 SK hynix 480 GB Dell NVMe ISE PE9010 RI M.2 480GB
  • Disks: 0-5 in Backplane 1: Samsung 6.4 TB, Dell NVMe PM1745 MU E3.S 6.4TB

Hiệu năng khối lượng công việc AI (AI Workload Performance)

Thử nghiệm suy luận tạo văn bản (Text Generation Inference Benchmark)

Text Generation Inference (TGI) là một máy chủ suy luận Mô hình ngôn ngữ lớn (LLM) hiệu suất cao được phát triển bởi Hugging Face. Nó được thiết kế để tối ưu hóa việc triển khai và sử dụng các LLM, biến nó thành lựa chọn lý tưởng cho các môi trường vận hành thực tế (production).

TGI hỗ trợ nhiều loại LLM mã nguồn mở khác nhau và cung cấp các tính năng như song song hóa tensor (tensor parallelism), truyền phát mã báo (token streaming) và gom nhóm liên tục (continuous batching) – những yếu tố giúp tăng cường đáng kể hiệu suất và hiệu quả xử lý.

Gemini said

Tính năng đánh giá hiệu năng của TGI được sử dụng để đánh giá khả năng vận hành của nó dưới các cấu hình và khối lượng công việc khác nhau. Tính năng đánh giá của TGI cung cấp một sự phản ánh chính xác hơn về hiệu suất thực tế, vì nó tính đến các yếu tố phức tạp khi triển khai các LLM trong môi trường vận hành thực tế.

Việc tạo văn bản bằng các LLM bao gồm hai giai đoạn chính: giai đoạn nạp dữ liệu (prefill) và giai đoạn giải mã (decode). Giai đoạn prefill là bước khởi đầu, nơi LLM xử lý câu lệnh đầu vào để tạo ra các biểu diễn trung gian cần thiết. Giai đoạn này đòi hỏi tính toán rất lớn, vì nó bao gồm việc xử lý toàn bộ câu lệnh đầu vào trong một lượt truyền dữ liệu duy nhất qua mô hình.

Trong giai đoạn prefill, câu lệnh đầu vào được chia nhỏ thành các thẻ (token) và chuyển đổi sang định dạng mà LLM có thể xử lý. LLM sau đó sẽ tính toán KV cache, nơi lưu trữ thông tin về các token đầu vào. KV cache là một cấu trúc dữ liệu quan trọng giúp tạo điều kiện cho việc tạo ra các token đầu ra.

Ngược lại, giai đoạn decode là một quá trình tự hồi quy, nơi LLM tạo ra từng token đầu ra một, dựa trên các biểu diễn trung gian đã được tạo ra trong giai đoạn prefill. Giai đoạn decode phụ thuộc nặng nề vào KV cache được tạo ra trong giai đoạn prefill, vốn cung cấp ngữ cảnh cần thiết để tạo ra các token đầu ra mạch lạc và phù hợp với ngữ cảnh.

Giai đoạn Prefill

Khi kích thước lô (batch size) tăng từ 1 lên 32, độ trễ của cả ba mô hình đều tăng; độ trễ của DeepSeek-R1-Distill-Qwen-32B tăng từ 29,97 ms ở kích thước lô bằng 1 lên 76,95 ms ở kích thước lô bằng 32. Tương tự, độ trễ của GEMMA-3-27B-IT và Qwen/QwQ-32B tăng lần lượt từ 51,84 ms và 29,90 ms lên 79,58 ms và 76,30 ms.

Ngược lại, tốc độ xử lý token cải thiện đáng kể khi kích thước lô tăng lên. Ở kích thước lô bằng 1, tốc độ xử lý token của ba mô hình dao động từ 192,95 đến 334,46 token mỗi giây. Ở kích thước lô bằng 32, con số này vọt lên mức 4158,67, 4021,40 và 4194,13 token mỗi giây lần lượt cho DeepSeek-R1-Distill-Qwen-32B, GEMMA-3-27B-IT và Qwen/QwQ-32B.

LLM Prefill Stage Performance: Latency (ms) & Token Rate (tokens/sec)
Batch Size DeepSeek-R1-Distill-Qwen-32B GEMMA-3-27B-IT Qwen/QwQ-32B
Latency (ms) Token Rate Latency (ms) Token Rate Latency (ms) Token Rate
1 29.97 333.64 51.84 192.95 29.90 334.46
2 30.21 662.09 52.55 380.61 29.95 667.80
4 32.40 1234.72 52.62 760.12 32.12 1245.47
8 36.98 2163.46 52.66 1519.19 36.69 2180.66
16 51.63 3125.50 60.96 2624.64 51.29 3147.61
32 76.95 4158.67 79.58 4021.40 76.30 4194.13

Khác với giai đoạn nạp dữ liệu (prefill), độ trễ trong giai đoạn giải mã (decode) vẫn duy trì ở mức tương đối ổn định trên các kích thước lô (batch size) khác nhau. Ví dụ, độ trễ của DeepSeek-R1-Distill-Qwen-32B dao động từ 27,14 ms đến 29,52 ms khi kích thước lô tăng từ 2 lên 32.

Tốc độ xử lý token trong giai đoạn giải mã cải thiện khi kích thước lô tăng lên, mặc dù mức độ không quá đột biến như trong giai đoạn prefill. Ở kích thước lô bằng 1, tốc độ xử lý token đạt khoảng 36-37 token mỗi giây đối với DeepSeek-R1-Distill-Qwen-32B và Qwen/QwQ-32B, và 33,96 token mỗi giây đối với GEMMA-3-27B-IT. Ở kích thước lô bằng 32, tốc độ xử lý token tăng lên lần lượt là 1083,83, 873,39 và 1084,89 token mỗi giây.

LLM Decode (Token) Performance: Latency (ms) & Token Rate (tokens/sec)
Batch Size DeepSeek-R1-Distill-Qwen-32B GEMMA-3-27B-IT Qwen/QwQ-32B
Latency (ms) Token Rate Latency (ms) Token Rate Latency (ms) Token Rate
1 27.24 36.71 29.45 33.96 27.24 36.71
2 27.14 73.70 30.80 64.93 27.14 73.69
4 27.50 145.46 31.33 127.65 27.47 145.62
8 27.91 286.61 32.54 245.83 27.90 286.78
16 28.31 565.07 34.71 460.92 28.44 562.56
32 29.52 1083.83 36.64 873.39 29.50 1084.89

Điều này hoàn toàn đúng như dự kiến, vì giai đoạn nạp dữ liệu (prefill) phải tính toán các trạng thái ẩn ban đầu và bộ nhớ đệm key-value cho toàn bộ câu lệnh đầu vào, điều này giúp tận dụng tối đa công suất của GPU nhờ khả năng thực hiện đồng thời các hoạt động xử lý theo lô lớn.

Sau khi xử lý xong câu lệnh, mô hình sẽ tạo ra các thẻ (token) mới, thông thường là từng thẻ một. Tại mỗi bước, mô hình sẽ tiếp nhận token trước đó cùng các trạng thái ẩn đã được lưu trong bộ nhớ đệm để tạo ra token tiếp theo. Vì giai đoạn này diễn ra theo trình tự từng token một, kích thước lô thường nhỏ, dẫn đến việc GPU thường xuyên không được khai thác hết hiệu năng.

Thử nghiệm Hiệu năng Thị giác Máy tính Procyon AI (Procyon AI Computer Vision Benchmark)

Sử dụng các tác vụ thị giác máy tính thực tế, bộ thử nghiệm Procyon AI đánh giá hiệu năng suy luận AI trên các bộ xử lý CPU, GPU và các bộ tăng tốc AI. Nó hỗ trợ nhiều công cụ suy luận khác nhau như TensorRT, OpenVINO, SNPE, Windows ML và Core ML, giúp cung cấp cái nhìn sâu sắc về tính hiệu quả, khả năng tương thích và mức độ tối ưu hóa.

Kết quả thử nghiệm Procyon AI Computer Vision cũng cho thấy hiệu năng suy luận AI mạnh mẽ. Hệ thống đạt được thời gian suy luận thấp, với MobileNet V3 là 20,64 ms và ResNet 50 là 22,42 ms. Inception V4 và DeepLab lần lượt chạy ở mức 65,23 ms và 41,37 ms, xử lý hiệu quả các khối lượng công việc thị giác phức tạp hơn. YOLO V3, một mô hình phát hiện đối tượng then chốt, hoàn thành trong 37,80 ms, giúp nó cực kỳ phù hợp cho các ứng dụng AI thời gian thực. REAL-ESRGAN, một mô hình siêu độ phân giải đòi hỏi tính toán chuyên sâu, ghi nhận mức 1.159,22 ms, mang lại cho chúng tôi tổng điểm Hiệu năng Thị giác Máy tính AI là 81.

AI Computer Vision (Lower duration is better) (Higher Score is better) Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB Ram)
MobileNet V3 Average Inference Time 20.64 ms
ResNet 50 Average Inference Time 22.42 ms
Inception V4 Average Inference Time 65.23 ms
DeepLab Average Inference Time 41.37 ms
YOLO V3 Average Inference Time 37.80 ms
REAL-ESRGAN Average Inference Time 1,159.22 ms
AI Computer Vision Overall Score 81

HammerDB TPROC-C

Chúng tôi cũng đã đánh giá hiệu năng của bốn cơ sở dữ liệu mã nguồn mở phổ biến—MariaDB 11.4.4, MySQL 8.4.4, MySQL 5.7.44 và PostgreSQL 17.2—bằng cách sử dụng bộ thử nghiệm HammerDB TPROC-C để mô phỏng khối lượng công việc OLTP trên 500 kho hàng (warehouses).

MariaDB đã vươn lên là cái tên có hiệu năng cao nhất, đặc biệt là trong các cấu hình hai socket, nơi nó mở rộng quy mô hiệu quả và đạt được thông lượng giao dịch cao nhất. MySQL 8.4.4 cho thấy những cải thiện rõ rệt so với phiên bản cũ 5.7.44, làm nổi bật những nâng cấp trong các bản phát hành gần đây. PostgreSQL 17.2 mang lại hiệu suất ổn định nhưng thấp hơn một chút so với MariaDB và MySQL 8.4.4. MariaDB đạt 3,15 triệu TPM trên cấu hình một socket và 5,8 triệu TPM trên cấu hình hai socket, vượt qua các đối thủ còn lại trong cả hai kịch bản.

Performance comparison Table (Transactions per minute, TPM)

Database Engine Single-socket TPM Dual-socket TPM
MariaDB 11.4.4 3,150,000 5,800,000
MySQL 8.4.4 2,850,000 5,150,000
PostgreSQL 17.2 2,700,000 4,900,000
MySQL 5.7.44 2,300,000 4,250,000

Mặc dù R770 sở hữu phần cứng mạnh mẽ, bao gồm 86 nhân trên mỗi CPU (sự kết hợp giữa các nhân ưu tiên cao và nhân ưu tiên thấp), không có cơ sở dữ liệu nào thể hiện mức tăng trưởng hiệu năng đáng kể khi phân phối hoạt động trên cả hai socket. Điều này phản ánh xu hướng chung của các cơ sở dữ liệu mã nguồn mở là ưu tiên thực thi trên một socket đơn lẻ để tận dụng tính cục bộ của nhân (core locality) tốt hơn và giảm độ trễ bộ nhớ.

Dựa trên những kết quả này, R770 phù hợp hơn để chạy nhiều thực thể (instances) cơ sở dữ liệu trong một môi trường ảo hóa thay vì mở rộng quy mô cho một thực thể duy nhất. Kiến trúc của hệ thống là lý tưởng để hỗ trợ khối lượng công việc hỗn hợp với mật độ cơ sở dữ liệu cao, tận dụng cả nhân hiệu năng và nhân tiết kiệm điện để mang lại thông lượng ổn định trên nhiều thực thể cùng lúc.

7-Zip

Công cụ 7-Zip phổ biến có tích hợp sẵn bộ kiểm tra hiệu năng bộ nhớ để đo lường khả năng vận hành của CPU và bộ nhớ hệ thống trong các tác vụ nén và giải nén, cho biết hệ thống có thể xử lý các hoạt động thâm dụng dữ liệu tốt đến mức nào.

Trong bài kiểm tra 7-Zip, đối với các tác vụ nén, hệ thống Dell đạt mức đánh giá cao hơn (266,425 GIPS) so với Lenovo (224,313 GIPS), đồng thời Dell cũng cho thấy mức sử dụng CPU thấp hơn một chút. Tuy nhiên, Lenovo lại vượt qua Dell trong tác vụ giải nén với mức đánh giá cao hơn (288,457 GIPS so với 256,154 GIPS) và mức sử dụng CPU có phần cao hơn. Dell đạt tổng điểm đánh giá chung cao hơn một chút (261,290 GIPS), chứng tỏ hiệu quả tổng thể tốt hơn trên cả hai tác vụ nén và giải nén.

7-Zip Compression & Decompression Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB Ram) Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512GB Ram)
Compressing – Current CPU Usage 5267% 5064%
Compressing – Current Rating/Usage 5.061 GIPS 4.341 GIPS
Compressing – Current Rating 266.591 GIPS 219.840 GIPS
Compressing – Resulting CPU Usage 5270% 5156%
Compressing – Resulting Rating/Usage 5.056 GIPS 4.350 GIPS
Compressing – Resulting Rating 266.425 GIPS 224.313 GIPS
Decompressing – Current CPU Usage 5623% 6184%
Decompressing – Current Rating/Usage 4.586 GIPS 4.688 GIPS
Decompressing – Current Rating 257.909 GIPS 289.879 GIPS
Decompressing – Resulting CPU Usage 5627% 6205%
Decompressing – Resulting Rating/Usage 4.553 GIPS 4.649 GIPS
Decompressing – Resulting Rating 256.154 GIPS 288.457 GIPS
Total – Total CPU Usage 5448% 5681%
Total – Total Rating/Usage 4.804 GIPS 4.500 GIPS
Total – Total Rating 261.290 GIPS 256.385 GIPS

y-cruncher

y-cruncher là một ứng dụng chấm điểm hiệu năng và kiểm tra độ ổn định (stress-test) phổ biến được ra mắt từ năm 2009. Bài kiểm tra này hỗ trợ đa luồng và có khả năng mở rộng cao, chuyên tính toán số Pi và các hằng số khác lên đến hàng nghìn tỷ chữ số. Trong bài kiểm tra này, thời gian càng ngắn nghĩa là hiệu năng càng tốt. Phần mềm này cực kỳ hiệu quả trong việc thử nghiệm các nền tảng có số lượng nhân lớn và chỉ ra lợi thế tính toán giữa các hệ thống chạy một socket và hai socket.

Kết quả thử nghiệm y-cruncher cho thấy một khoảng cách hiệu năng đáng kể giữa Dell PowerEdge R770 sử dụng CPU nhân P-core và Lenovo ThinkSystem SR630 V4 sử dụng CPU nhân E-core, đặc biệt là khi kích thước tập dữ liệu tăng lên. Điều này không hẳn là để phân định hệ thống nào tốt hơn, mà chủ yếu để cho thấy sự khác biệt giữa các loại CPU khi xử lý khối lượng công việc này.

Đối với các phép tính nhỏ, hệ thống Dell đã dẫn trước khi tính toán 1 tỷ chữ số Pi trong 2,753 giây, trong khi Lenovo mất thời gian gấp đôi với 5,997 giây. Khi khối lượng công việc mở rộng, khoảng cách càng nới rộng. Ở mức 10 tỷ chữ số, Dell hoàn thành trong 34,873 giây, chưa đầy một nửa so với 81,046 giây của Lenovo. Đến mốc 50 tỷ chữ số, Dell tiếp tục duy trì lợi thế khi hoàn thành nhiệm vụ trong 221,255 giây, trong khi Lenovo mất 476,826 giây, giúp Dell nhanh hơn tới 53%.

Ở mức 100 tỷ chữ số, Lenovo không thể hoàn thành bài kiểm tra do cấu hình hiện tại chỉ có 512GB RAM. Với 2TB RAM, Dell đã xử lý khối lượng công việc này một cách hiệu quả và hoàn thành trong 491,737 giây.

Y-cruncher (lower duration is better) Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB Ram) Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512GB Ram)
1 Billion 2.753 seconds 5.997 seconds
2.5 Billion 7.365 seconds 17.573 seconds
5 Billion 16.223 seconds 37.793 seconds
10 Billion 34.873 seconds 81.046 seconds
25 Billion 99.324 seconds 220.025 seconds
50 Billion 221.255 seconds 476.826 seconds
100 Billion 491.737 seconds

Blender OptiX

Blender là một ứng dụng mô hình hóa 3D mã nguồn mở. Thử nghiệm này được thực hiện bằng công cụ Blender Benchmark, với đơn vị tính là số mẫu trên mỗi phút (samples per minute) – chỉ số này càng cao thì hiệu năng càng tốt.

Kết quả thử nghiệm Blender cho thấy lợi thế hiệu năng rõ rệt của Dell PowerEdge R770 so với Lenovo ThinkSystem SR630 V4, đặc biệt là trong tác vụ dựng hình (rendering) bằng CPU. Trong cảnh “CPU Monster”, Dell đạt 1.706,002 mẫu/phút, dẫn trước 19% so với mức 1.432,09 mẫu/phút của Lenovo. Thử nghiệm “CPU Junkshop” càng làm nổi bật khoảng cách này khi Dell đạt 1.169,370 mẫu/phút, vượt xa mức 914,75 mẫu/phút của Lenovo tới 28%. Tương tự, Dell đạt 791,475 mẫu/phút trong bài kiểm tra “CPU Classroom”, trong khi Lenovo tụt lại phía sau với 656,68 mẫu/phút, chênh lệch 20%.

Việc thiếu GPU trong hệ thống Lenovo cũng đồng nghĩa với việc nó không thể tham gia vào các bài thử nghiệm dựng hình bằng GPU. Trong khi đó, card đồ họa NVIDIA L4 trên hệ thống Dell đã ghi nhận số điểm 1.895,71 mẫu/phút cho cảnh Monster, 950,42 mẫu/phút cho Junkshop và 968,43 mẫu/phút cho cảnh Classroom.

Blender CPU Benchmark Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB Ram) Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512GB Ram)
CPU Monster (Blender 4.3) 1,706.002 Samples/Min 1432.09 Samples/Min
CPU Junkshop (Blender 4.3) 1,169.370 Samples/Min 914.75 Samples/Min
CPU Classroom (Blender 4.3) 791.475 Samples/Min 656.68 Samples/Min
GPU Monster (Blender 4.3) 1,895.712 Samples/Min (no gpu)
GPU Junkshop (Blender 4.3) 950.424 Samples/Min (no gpu)
GPU Classroom (Blender 4.3) 968.432 Samples/Min (no gpu)

Cinebench R23

Công cụ chấm điểm Cinebench R23 đánh giá hiệu năng CPU của hệ thống bằng cách dựng một cảnh 3D phức tạp bằng công cụ Cinema 4D. Nó đo lường hiệu suất đơn nhân và đa nhân, cung cấp cái nhìn toàn diện về khả năng của CPU trong việc xử lý các tác vụ dựng hình 3D.

Trong bài thử nghiệm Cinebench R23, kết quả làm nổi bật sự khác biệt đáng kể về hiệu năng CPU giữa Dell PowerEdge R770 và Lenovo ThinkSystem SR630 V4, đặc biệt khi xem xét số lượng nhân trên mỗi bộ xử lý. Lenovo ThinkSystem SR630 V4, được trang bị 2 bộ xử lý Intel Xeon 6780E (144 nhân mỗi bộ xử lý), đã vượt qua Dell trong bài kiểm tra Đa nhân (CPU Multi-Core) với số điểm 99.266 điểm, so với 74.710 điểm của Dell. Sự khác biệt này phản ánh lợi thế của Lenovo trong các khối lượng công việc đa luồng nhờ tổng số nhân cao hơn (tổng cộng 288 nhân) so với 2 bộ xử lý Intel Xeon 6787P của Dell (86 nhân mỗi bộ xử lý).

Trong bài kiểm tra Đơn nhân (CPU Single-Core), Dell đã thể hiện tốt hơn với số điểm 1.272 điểm, vượt qua mức 894 điểm của Lenovo. Kết quả này nhấn mạnh hiệu quả xử lý đơn luồng vượt trội của Dell mặc dù có số lượng nhân thấp hơn.

Cinebench R23 Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB Ram) Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512GB Ram)
CPU Multi-Core 74,710 pts 99,266 pts
CPU Single-Core 1,272 pts 894 pts
MP Ratio 58.74 x 111.00 x

Cinebench 2024

Cinebench 2024 mở rộng khả năng đánh giá của phiên bản R23 bằng cách bổ sung thêm phần chấm điểm hiệu năng GPU. Công cụ này tiếp tục thử nghiệm sức mạnh CPU nhưng cũng bao gồm các bài kiểm tra đo lường khả năng của GPU trong việc xử lý các tác vụ dựng hình.

Trong bản cập nhật mới này, Dell PowerEdge R770 đạt 12.996 điểm cho hiệu năng GPU, làm nổi bật khả năng xử lý các tác vụ dựng hình tăng tốc bằng phần cứng đồ họa. Ngược lại, Lenovo ThinkSystem SR630 V4 không được trang bị GPU rời, do đó không có điểm số ở hạng mục này.

Trong bài kiểm tra CPU Đa nhân (Multi-Core), Lenovo đạt 2.884 điểm, dẫn trước một chút so với mức 2.831 điểm của Dell, cho thấy ưu thế nhẹ về hiệu năng đa nhân của hệ thống Lenovo. Tuy nhiên, ở bài kiểm tra CPU Đơn nhân (Single-Core), Dell đã vượt qua Lenovo với 71 điểm so với 53 điểm, minh chứng cho hiệu suất đơn nhân cao hơn của Dell mặc dù sở hữu ít số nhân hơn.

Cinebench R24 Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB Ram) Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512GB Ram)
GPU Score 12,996 pts
CPU Multi-Core 2,831 pts 2,884 pts
CPU Single-Core 71 pts 53 pts
MP Ratio 39.77 x 54.43 x

Geekbench 6

Geekbench 6 là một bộ công cụ kiểm tra hiệu năng đa nền tảng dùng để đo lường sức mạnh tổng thể của hệ thống. Thông qua trình duyệt Geekbench Browser, bạn có thể so sánh kết quả của bất kỳ hệ thống nào với nhau.

Kết quả thử nghiệm Geekbench 6 cho thấy những khác biệt rõ rệt về hiệu năng giữa Dell PowerEdge R770 và Lenovo ThinkSystem SR630 V4. Trong bài kiểm tra CPU Đơn nhân (Single-Core), Dell đã vượt xa Lenovo với số điểm 1.797, trong khi Lenovo đạt 1.173 điểm, cho thấy mức cải thiện hiệu năng đơn nhân lên tới 53% cho phía Dell.

Trong bài kiểm tra CPU Đa nhân (Multi-Core), Dell tiếp tục dẫn đầu với 15.880 điểm, còn Lenovo đạt 13.868 điểm, mang lại cho Dell lợi thế 14% về hiệu suất đa nhân. Điều này cho thấy các bộ xử lý Intel Xeon 6787P của Dell cung cấp sức mạnh tính toán tổng thể vượt trội, đặc biệt là trong các tác vụ tận dụng được nhiều nhân.

Bài thử nghiệm GPU OpenCL càng làm nổi bật lợi thế của Dell với số điểm lên tới 148.730 nhờ vào sức mạnh của card đồ họa NVIDIA L4.

Geekbench 6 (Higher is better) Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB Ram) Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512GB Ram)
CPU Single-Core 1,797 1,173
CPU Multi-Core 15,880 13,868
GPU OpenCL Score 148,730 (no gpu)

Blackmagic RAW Speed Test

Blackmagic RAW Speed Test là một công cụ đánh giá hiệu năng được thiết kế để đo lường khả năng của hệ thống trong việc xử lý phát video và biên tập bằng bộ giải mã Blackmagic RAW. Công cụ này đánh giá mức độ hiệu quả của hệ thống khi giải mã và phát các tệp video độ phân giải cao, cung cấp tốc độ khung hình (FPS) cho cả quy trình xử lý dựa trên CPU và GPU.

Trong bài kiểm tra dựa trên CPU, Dell PowerEdge R770 đạt mức 141 FPS, vượt qua Lenovo ThinkSystem SR630 V4 với kết quả 120 FPS. Điều này cho thấy hệ thống Dell xử lý các tác vụ video dựa trên CPU hiệu quả hơn so với Lenovo. Đối với bài kiểm tra dựa trên GPU, Dell PowerEdge R770 đạt 157 FPS nhờ vào sự hiện diện của GPU NVIDIA.

Blackmagic RAW Speed Test (higher is better) Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB Ram) Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512GB Ram)
FPS CPU 141 FPS 120 FPS
FPS CUDA 157 FPS 0 FPS (no GPU)

Blackmagic Disk Speed Test

Blackmagic Disk Speed Test đánh giá tốc độ đọc và ghi của ổ đĩa, từ đó ước tính hiệu năng của nó, đặc biệt là đối với các tác vụ biên tập video. Công cụ này giúp người dùng đảm bảo rằng hệ thống lưu trữ của họ đủ nhanh để xử lý các nội dung độ phân giải cao, chẳng hạn như video 4K hoặc 8K.

Trong bài kiểm tra tốc độ của Blackmagic, thẻ Dell BOSS trên hệ thống Dell PowerEdge R770 với cấu hình chạy gương (mirrored) hai ổ NVMe Dell SK hynix 480GB đã đạt được tốc độ đọc là 3.010,3 MB/s và tốc độ ghi là 976,3 MB/s.

Kết luận

Dell PowerEdge R770 thực sự làm chúng tôi phấn khích, được thúc đẩy bởi việc áp dụng tiêu chuẩn Hệ thống Phần cứng Mô-đun Trung tâm Dữ liệu (DC MHS) của Dự án Điện toán Mở (OCP) cùng các phần cứng tiên tiến nhất. Việc tích hợp OCP DC MHS mang lại vô số lợi ích, bao gồm tính mô-đun hóa được tăng cường, khả năng bảo trì cải thiện và tiềm năng giảm chi phí thông qua việc tiêu chuẩn hóa sâu rộng. Triết lý thiết kế này thể hiện rõ trong mọi khía cạnh của hệ thống, từ việc triển khai iDRAC dưới dạng một mô-đun OCP DC-SCM cho đến các cổng kết nối.

R770 cũng sở hữu khả năng lưu trữ ấn tượng, hỗ trợ tới 40 ổ đĩa E3.S trong một khung máy 2U duy nhất, biến nó thành giải pháp lý tưởng cho các khối lượng công việc thâm dụng lưu trữ. Thêm vào đó, tính linh hoạt của máy chủ này còn được nâng cao hơn nữa nhờ hỗ trợ nhiều cấu hình khác nhau, bao gồm cả cấu hình cổng I/O phía trước để có thể tiếp cận từ lối đi lạnh (Cold Aisle), mang lại sự linh hoạt tối đa cho các sơ đồ bố trí trung tâm dữ liệu và yêu cầu bảo trì khác nhau.

Với việc hỗ trợ danh mục GPU đa dạng cùng các CPU Intel Xeon 6 nhân hiệu năng (P-core), R770 thực sự là một nền tảng máy chủ mạnh mẽ và đa năng, đáp ứng tốt nhu cầu của các trung tâm dữ liệu hiện đại. Phần cứng tiên tiến, thiết kế mô-đun và các tính năng bảo mật mạnh mẽ giúp R770 trở thành một lựa chọn hấp dẫn cho các tổ chức đang tìm cách triển khai AI, điện toán hiệu năng cao (HPC) và các khối lượng công việc doanh nghiệp truyền thống.

__________________________________________________
📞 Liên hệ Megacore để được tư vấn cấu hình phù hợp và giải pháp hạ tầng cho doanh nghiệp – hoàn toàn miễn phí
🌐 Website: megacore.net
📧 Email: [email protected]
📲 Hotline: 0345 888 868
Cảm ơn bạn đã tin tưởng và lựa chọn sản phẩm của Megacore! Chúng tôi cam kết mang đến cho bạn những sản phẩm chất lượng và dịch vụ tốt nhất!

Công nghệ đột phá
dễ dàng nâng cấp

Đây là công nghệ cốt lõi được tin dùng bởi các ông lớn công nghệ toàn cầu như IBM, Cisco, Dell, HP, Red Hat … Nhờ đó, dịch vụ thuê VPS tại Megacore luôn đảm bảo hiệu suất cao, ổn định và đáng tin cậy, đáp ứng nhu cầu lưu trữ và vận hành hệ thống của doanh nghiệp mọi quy mô.

Bắt đầu chỉ với
399.000đ/tháng