Google đã thiết kế bộ vi xử lý mới của riêng mình, Argos video (trans) đơn vị mã hóa (VCU), có một mục đích duy nhất: xử lý video. Theo một báo cáo gần đây, các chip mới hiệu quả cao đã cho phép gã khổng lồ công nghệ thay thế tới hàng chục triệu CPU Intel có silicon riêng .
Trong nhiều năm, các công cụ giải mã/mã hóa video của Intel được tích hợp trong CPU của họ đã thống trị thị trường vì chúng mang lại hiệu suất và khả năng tiên tiến hàng đầu và vì chúng dễ sử dụng. Nhưng các mạch tích hợp dành riêng cho ứng dụng (ASIC) được xây dựng tùy chỉnh có xu hướng hoạt động tốt hơn phần cứng có mục đích chung vì chúng chỉ được thiết kế cho một khối lượng công việc. Do đó, Google đã chuyển sang phát triển phần cứng chuyên dụng của riêng mình cho các tác vụ xử lý video cho YouTube và mang lại hiệu quả tuyệt vời.
Tuy nhiên, Intel có thể có một mẹo nhỏ với công nghệ mới nhất có thể giành lại hoạt động kinh doanh xử lý video chuyên biệt của Google. Người dùng tải lên hơn 500 giờ nội dung video ở các định dạng khác nhau mỗi phút để YouTube. Google cần nhanh chóng chuyển mã nội dung đó sang nhiều độ phân giải (bao gồm 144p, 240p, 360p, 480p, 720p, 1080p, 1440p, 2160p và 4320p) và các định dạng tiết kiệm dữ liệu (ví dụ: H.264, VP9 hoặc AV1), yêu cầu mã lực mã hóa đáng gờm. Trước đây, Google có hai tùy chọn để chuyển mã/mã hóa nội dung. Tùy chọn đầu tiên là Trình tăng tốc tính toán trực quan (VCA ) đóng gói ba CPU Xeon E3 với lõi đồ họa tích hợp Iris Pro P6300/P580 GT4e tích hợp với bộ mã hóa phần cứng tiên tiến nhất. Tùy chọn thứ hai là sử dụng mã hóa phần mềm và bộ xử lý Intel Xeon đa năng. Google quyết định rằng không có tùy chọn nào đủ hiệu quả về năng lượng cho các khối lượng công việc mới nổi trên YouTube-Visual Computing Accelerator khá tự tiêu hao năng lượng, trong khi việc mở rộng số lượng CPU Xeon về cơ bản đồng nghĩa với việc tăng số lượng máy chủ, đồng nghĩa với việc bổ sung nguồn và dấu chân trung tâm dữ liệu. Do đó, Google quyết định sử dụng phần cứng nội bộ tùy chỉnh. Argos VCU thế hệ đầu tiên của Google không thay thế hoàn toàn các bộ xử lý trung tâm của Intel vì các máy chủ vẫn cần chạy HĐH và quản lý ổ lưu trữ cũng như kết nối mạng. Ở một mức độ lớn, Argos VCU của Google giống như một GPU luôn cần một CPU đi kèm. Thay vì bộ xử lý luồng như chúng ta thấy trong GPU, VCU của Google tích hợp mười công cụ mã hóa H.264/VP9, một số lõi giải mã, bốn kênh bộ nhớ LPDDR4-3200 (có giao diện 4×32 bit), giao diện PCIe , một công cụ DMA và một lõi nhỏ có mục đích chung cho mục đích lập lịch trình. Hầu hết IP, ngoại trừ các bộ mã hóa/chuyển mã được thiết kế nội bộ, đã được cấp phép từ các bên thứ ba để cắt giảm chi phí phát triển. Mỗi VCU cũng được trang bị 8GB bộ nhớ ECC LPDDR4 có thể sử dụng được. Ý tưởng chính đằng sau VCU của Google là đặt càng nhiều bộ mã hóa/chuyển mã hiệu suất cao vào một miếng silicon càng tốt (trong khi vẫn tiết kiệm điện năng) và sau đó chia tỷ lệ số lượng VCU riêng biệt với số lượng máy chủ cần thiết. Google đặt hai VCU trên một bảng và sau đó lắp 10 thẻ trên mỗi máy chủ Intel Xeon ổ cắm kép, giúp tăng đáng kể hiệu suất giải mã/chuyển mã của công ty trên mỗi giá. Google cho biết các máy dựa trên VCU của họ đã cải thiện đến 7 lần (H.264) và lên đến 33 lần (VP9) trong hiệu suất/tính toán TCO hiệu quả so với hệ thống máy chủ sử dụng Intel Skylake. Cải tiến này tính đến chi phí của các VCU (so với CPU của Intel) và ba năm chi phí hoạt động, điều này làm cho VCU trở thành một lựa chọn dễ dàng cho video khổng lồ trên YouTube. Từ các con số hiệu suất do Google chia sẻ, rõ ràng là một VCU Argos đơn lẻ chỉ nhanh hơn một máy chủ Intel Skylake 2 chiều trong H.264. Tuy nhiên, vì 20 VCU có thể được cài đặt vào một máy chủ như vậy, VCU sẽ chiến thắng ở góc độ hiệu quả. Nhưng khi nói đến codec VP9 đòi hỏi khắt khe hơn, VCU của Google dường như nhanh hơn gấp 5 lần so với Xeon ổ cắm kép của Intel và do đó mang lại lợi thế hiệu quả ấn tượng. Vì Google đã sử dụng Argos VCU trong vài năm nay, nên rõ ràng Google đã thay thế nhiều máy chủ YouTube dựa trên Xeon bằng các máy chạy silicon của riêng mình. Rất khó để ước tính có bao nhiêu hệ thống Xeon mà Google thực sự thay thế, nhưng một số nhà phân tích tin rằng gã khổng lồ công nghệ có thể đã hoán đổi từ bốn đến 33 triệu CPU Intel cho VC riêng của mình . Ngay cả khi con số thứ hai là một ước tính quá cao, chúng ta vẫn đang nói về hàng triệu đơn vị. Vì Google cần rất nhiều bộ xử lý cho các dịch vụ khác của mình, nên có khả năng số lượng CPU mà công ty mua từ AMD hoặc Intel vẫn còn rất cao và sẽ không giảm bất cứ lúc nào sớm vì sẽ mất nhiều năm trước khi hệ thống cấp trung tâm dữ liệu của Google stem-on-chip (SoC) sẽ sẵn sàng. Cũng cần lưu ý rằng trong nỗ lực sử dụng các công nghệ mã hóa sáng tạo (ví dụ: AV1) ngay bây giờ, Google cần sử dụng các CPU có mục đích chung ngay cả cho YouTube vì Argos không hỗ trợ codec. Hơn nữa, khi các codec hiệu quả hơn xuất hiện (và những codec này có xu hướng đòi hỏi nhiều hơn về mã lực tính toán), Google sẽ phải tiếp tục sử dụng CPU cho các triển khai ban đầu. Trớ trêu thay, lợi thế của phần cứng chuyên dụng sẽ chỉ phát triển trong tương lai. Google đang làm việc trên VCU thế hệ thứ hai hỗ trợ các codec AV1, H.264 và VP9 vì nhu cầu của họ để tăng hiệu quả hơn nữa cho các công nghệ mã hóa của mình. Không rõ khi nào các VCU mới sẽ được triển khai, nhưng rõ ràng là công ty muốn sử dụng các SoC của riêng mình thay vì các bộ xử lý có mục đích chung nếu có thể. Intel không đứng yên. Dựa trên DG1 Xe-LP của công ty thẻ máy chủ SG1 quad-chip có thể giải mã lên đến 28 luồng 4Kp60 cũng như chuyển mã lên đến 12 luồng đồng thời. Về cơ bản, SG1 của Intel thực hiện chính xác những gì Argos VCU của Google làm: chia tỷ lệ hiệu suất giải mã và chuyển mã video riêng biệt với số lượng máy chủ và do đó giảm số lượng bộ xử lý đa năng cần thiết trong trung tâm dữ liệu được sử dụng cho các ứng dụng video. Với GPU Xe-HP đơn khối sắp ra mắt, Intel sẽ cung cấp dịch vụ chuyển mã đồng thời 10 luồng 4Kp60 chất lượng cao. Hãy nhớ rằng một số GPU Xe-HP sẽ chia tỷ lệ thành bốn ô và có thể lắp nhiều hơn một GPU cho mỗi hệ thống, khả năng mã hóa và giải mã đa phương tiện hàng đầu thị trường của Intel sẽ càng trở nên vững chắc hơn. Google đã cố gắng xây dựng một đơn vị mã hóa video (chuyển đổi) H.264 và VP9 đáng chú ý (VCU) có thể mang lại hiệu quả cao hơn đáng kể trong khối lượng công việc mã hóa/chuyển mã video so với Intel các CPU hiện có. Hơn nữa, VCU cho phép Google mở rộng quy mô hiệu suất mã hóa/chuyển mã video của mình một cách độc lập với số lượng máy chủ. Tuy nhiên, Intel cũng đã có GPU Xe-LP và thẻ SG1 cung cấp một số khả năng mã hóa và giải mã video nghiêm túc, vì vậy Intel sẽ vẫn thành công trong các trung tâm dữ liệu với khối lượng công việc phát trực tuyến video lớn. Hơn nữa, với sự xuất hiện của GPU Xe-HP của Intel, công ty hứa hẹn sẽ củng cố vị thế của mình trên thị trường này. Tải nhiều Video Yêu cầu Phần cứng Mới
Tăng hiệu quả dẫn đến di chuyển từ Xeon
Thông lượng đầu ra đơn hai đường (SOT) ngoại tuyến trong CPU , GPU và Hệ thống được trang bị VCU
Hệ thống
Thông lượng (MPix/s)
Thông lượng (MPix/s)
Hiệu suất/TCO
Hiệu suất/TCO
H.264
VP9
H.264
VP9
Skylake 2 chiều
714
154
1x
1x
4x Nvidia T4
2.484
–
1,5 lần
–
8x Google Argos VCU
5.973
6.122
4.4x
20.8x
20x VCU Google Argos
14.932
15.306
7x
33.3x
Intel không đứng yên
Summary