Machine Learning, Deep Learning và các nhu cầu về lưu trữ

Ngày đăng: 13-12-2022 | Ngày cập nhật: 13-12-2022

Facebook đạt xấp xỉ 2,4 tỷ active user và có 350 triệu lượt upload ảnh lên mỗi ngày, cộng với hơn 500.000 bình luận được đăng mỗi phút. Làm thế nào họ theo dõi, giám sát và thu được giá trị từ lượng thông tin này?

Chirag Dekate, giám đốc nghiên cứu về trí tuệ nhân tạo (AI), Machine Learning và Deep Learning tại Gartner cho biết: “Có hàng tỷ người dùng và không có cách nào để bàn tay con người có thể mở rộng quy mô để thực hiện phân tích .

Vì vậy, Facebook sử dụng hệ thống học tập và AI để quét các bài đăng. Dekate nói: “Không nhân viên nào có thể phân tích mọi video hoặc hình ảnh để tìm những câu nói bị cấm hoặc tài liệu kích động, hoặc các tag có chủ ý bán hàng sai mục đích”.

Các trang mạng xã hội chỉ là một ví dụ về số lượng ứng dụng ngày càng tăng của AI, đã chuyển từ nghiên cứu ở giai đoạn học thuật sang các lĩnh vực đa dạng như y học, thực thi pháp luật , bảo hiểm và bán lẻ.

Sự tăng trưởng của nó có ý nghĩa sâu rộng đối với các hệ thống CNTT doanh nghiệp, bao gồm cả lưu trữ dữ liệu.

AI là một thuật ngữ rộng bao gồm nhiều trường hợp sử dụng và ứng dụng, cũng như các cách xử lý dữ liệu khác nhau. Machine Learning, Deep Learning và mạng nơ-ron đều có các yêu cầu phần cứng và phần mềm riêng và sử dụng dữ liệu theo những cách khác nhau.

Mike Leone, nhà phân tích cấp cao của ESG cho biết: “Machine Learning là một tập con của AI và Deep Learning là một tập con của Machine Learning”.

Ví dụ: Deep Learning sẽ thực hiện một số lần chuyển tập dữ liệu để đưa ra quyết định và học hỏi từ các dự đoán của nó dựa trên dữ liệu mà nó đọc được.

Machine Learning đơn giản hơn và dựa vào các thuật toán do con người viết và đào tạo với dữ liệu đã biết để phát triển khả năng đưa ra dự đoán. Nếu kết quả không chính xác, các nhà khoa học dữ liệu sẽ thay đổi các thuật toán và đào tạo lại mô hình.

Một ứng dụng Machine Learning có thể lấy dữ liệu từ hàng nghìn điểm dữ liệu. Một tập dữ liệu ứng dụng Deep Learning sẽ là một yêu cầu lớn hơn, dễ dàng đến với hàng triệu điểm dữ liệu.

Leone cho biết: “Deep Learning hoạt động tương tự như não người ở chỗ nó bao gồm nhiều lớp liên kết với nhau tương tự như các tế bào thần kinh trong não. Dựa trên độ chính xác hoặc không chính xác của các dự đoán, nó có thể tự động học lại hoặc tự điều chỉnh cách học từ dữ liệu .”

>>> Xem thêm: máy chủ dell r660

Lưu trữ cho AI có thể khác nhau

Yêu cầu lưu trữ dữ liệu cho AI rất khác nhau tùy theo ứng dụng và tài liệu nguồn. Dekate nói: “Tùy thuộc vào từng trường hợp sử dụng, tập dữ liệu thay đổi khá nhiều. Trong lĩnh vực hình ảnh, nó phát triển gần như theo cấp số nhân khi các file có khuynh hướng rất lớn”.

“Bất cứ khi nào bạn thực hiện nhận dạng hình ảnh hoặc nhận dạng video hoặc hệ thống thần kinh, bạn sẽ cần kiến trúc mới và khả năng mới. Nhưng trong một trường hợp sử dụng như phát hiện gian lận, bạn có thể sử dụng “infrastructure stack” mà không cần phần cứng mới để có kết quả đáng kỳ diệu”.

Dữ liệu y tế, khoa học và địa chất, cũng như các tập dữ liệu hình ảnh được sử dụng trong lĩnh vực tình báo và quốc phòng, thường kết hợp khối lượng lưu trữ quy mô petabyte với kích thước file riêng lẻ trong phạm vi gigabyte.

Ngược lại, dữ liệu được sử dụng trong các lĩnh vực như phân tích chuỗi cung ứng hoặc bảo trì, sửa chữa và đại tu trong hàng không – hai lĩnh vực đang phát triển của AI – thì nhỏ hơn nhiều.

Theo Dekate của Gartner, một tập dữ liệu point-of-sale, được sử dụng để dự đoán phân loại bán lẻ, thường đạt tới 100MB đến 200MB, trong khi một máy bay hiện đại, được trang bị cảm biến sẽ tạo ra 50GB đến 100GB dữ liệu vận hành và bảo trì trên mỗi chuyến bay.

CPU, GPU và I/O

Vấn đề đối với các hệ thống AI là chúng cần xử lý dữ liệu nhanh như thế nào. Trong lĩnh vực hàng không, dữ liệu bảo trì dự đoán phải được phân tích khi máy bay đang ở trên mặt đất, với thời gian quay vòng từ vài giờ đối với chuyến bay đường dài đến chỉ vài phút đối với hãng hàng không giá rẻ.

Trong khi đó, một hệ thống nhận dạng khuôn mặt hoặc biển số thì nhu cầu cần một câu trả lời trong tích tắc và một hệ thống bồi thường bảo hiểm tự động thì trong vài phút.

Điều này đã thúc đẩy các nhà phát triển AI xây dựng các cụm tích hợp GPU, đây là cách hiệu quả nhất để xử lý dữ liệu và chạy các thuật toán phức tạp với tốc độ nhanh. Nhưng các cụm GPU này – thường dựa trên phần cứng điện toán GPU NVidia DGX – đắt tiền và chỉ có sẵn với số lượng nhỏ.

Như Alastair McAulay, một chuyên gia CNTT tại PA Consulting, chỉ ra rằng, các hệ thống máy tính hiệu suất cao (HPC) trong học tập và công nghiệp thường chạy với tỷ lệ sử dụng rất cao vì sự khan hiếm và chi phí của chúng.

Các viện nghiên cứu tuyển dụng các chuyên gia để giảm hiệu suất cuối cùng từ phần cứng. Trong doanh nghiệp, việc tích hợp với các hệ thống dữ liệu hiện có có thể quan trọng hơn.

>>> Xem thêm: máy chủ dell r660xs

NVMe là phương tiện được lựa chọn

McAulay cho biết: “Chúng tôi thấy việc áp dụng hợp lý loại lưu trữ thể rắn mang lại lợi ích to lớn. Nhưng nó thiên về việc sử dụng file system nào, cách tối ưu hóa hệ thống đó và liệu có cần bất kỳ bộ tăng tốc nào để khai thác tối đa phần cứng lưu trữ [có sẵn] hay không. Họ đang nỗ lực nhiều nhất vào file system và quản lý dữ liệu ”.

Lưu trữ flash hiện đã phổ biến, trong khi flash NVMe đang nổi lên như một phương tiện được lựa chọn cho các ứng dụng yêu cầu truy cập nhanh nhất cho dữ liệu được lưu trữ gần GPU. Ổ cứng quay cơ học vẫn còn đó, nhưng đang ngày càng bị xếp vào vùng lưu trữ dung lượng lớn ở các cấp thấp hơn.

Josh Goldenhar, phó chủ tịch của nhà cung cấp lưu trữ tập trung NVMe Excelero, cho biết PCIe bus của hệ thống và dung lượng lưu trữ hạn chế trong các máy chủ có GPU dày đặc có thể là một hạn chế lớn hơn so với vấn đề tốc độ lưu trữ.

Tuy nhiên, một quan niệm sai lầm phổ biến là các hệ thống AI cần lưu trữ với hiệu suất IOPS cao, trong khi trên thực tế, khả năng xử lý các I/O ngẫu nhiên mới là điều quan trọng.

Dekate của Gartner nói: “Nếu bạn phân tích deep learning, nó sẽ được đọc ngẫu nhiên nhiều hơn trong khi kết quả đầu ra không đáng kể – nó có thể chỉ ở vài kilobyte. Không nhất thiết phải cần đến IOPS cao, mà là kiến trúc được tối ưu hóa đọc ngẫu nhiên.”

Công ty cổ phần thương mại Máy Chủ Hà Nội

- Trụ sở Hà Nội: Tầng 1,2,4 - Tòa nhà PmaxLand số 32 ngõ 133 Thái Hà - Q. Đống Đa

Hotline mua hàng Hà Nội: 0979 83 84 84 Điện thoai: 024 6296 6644

- CN Hồ Chí Minh: Lầu 1- Tòa nhà 666/46/29 Đường 3/2- Phường 14 - Quận 10

Hotline mua hàng Hồ Chí Minh: 0945 92 96 96 Điện thoai: 028 2244 9399

- Email: hotro@maychuhanoi.vn

- website: https://maychuhanoi.vn/

- facebook: https://www.facebook.com/maychuhanoi

Trang chủ

Đăng tin miễn phí

Mua Points

Thông báo

Danh mục

Machine Learning, Deep Learning và các nhu cầu về lưu trữ