14 dự báo về dữ liệu cho tăng trưởng doanh nghiệp năm 2023

14 dự báo về dữ liệu 2023 trên Venture Beat

Tổng hợp bởi tác giả: Shubham Sharma

Năm 2023 đã đến và các doanh nghiệp đang chuẩn bị để khai thác tối đa năm này. Từ các công ty mới thành lập cho đến các tập đoàn lớn, mọi công ty đều bước sang năm mới với cùng một sứ mệnh – thúc đẩy tăng trưởng tập trung vào hiệu quả hoạt động, năng suất và khả năng phục hồi.

dữ liệu sẽ đóng vai trò chính trong việc đạt được sứ mệnh này nên các chuyên gia và nhà cung cấp hàng đầu trong ngành đã chia sẻ dự đoán về cách không gian dữ liệu sẽ hình thành trong những tháng tới.

1. CIO sẽ tìm cách hợp nhất dữ liệu và đơn giản hóa kiến trúc

Khi nói chuyện với các CIO khác, tôi nhận thấy rằng các công ty đang phát triển theo cấp số nhân mà không có kế hoạch sắp xếp dữ liệu của họ. Khi một công ty cân nhắc mở rộng quy mô bằng mọi giá nhưng không đầu tư vào công nghệ phù hợp để hỗ trợ sự tăng trưởng đó, thì sẽ có vấn đề.

Một phần của vấn đề là các CIO ngày nay phải quản lý quá nhiều hệ thống. Quá nhiều nhóm dữ liệu rời rạc dẫn đến dữ liệu trùng lặp, bị cô lập (silo) và bị khóa, điều này không chỉ gây tốn kém và kịp thời cho việc quản lý và phân tích mà còn dẫn đến các vấn đề về bảo mật.

Để một công ty thực sự tiến tới chuyển đổi kỹ thuật số, họ cần kết hợp khoa học dữ liệu (data science) và phân tích dữ liệu (data analytics), đồng thời rút ra từ một nguồn sự thật duy nhất. Chúng ta sẽ thấy nhiều CIO cắt giảm chi tiêu của nhà cung cấp để đơn giản hóa kiến trúc dữ liệu của mình. Các công ty triển khai kiến trúc kết hợp phân tích mô tả (hindsight) và dự đoán (predictive) để cung cấp các giải pháp thông minh và hiệu quả cuối cùng sẽ giành chiến thắng. 

- theo Naveen Zutshi, CIO của Databricks 

2. Việc áp dụng rộng rãi hơn các hợp đồng dữ liệu

Được thiết kế để ngăn chặn các vấn đề về chất lượng dữ liệu xảy ra ở thượng nguồn (upstream) khi dịch vụ tạo dữ liệu bất ngờ thay đổi, hợp đồng dữ liệu rất thịnh hành. Tại sao? Nhờ những thay đổi được thực hiện bởi các kỹ sư phần mềm, những người vô tình tạo ra sự phân nhánh thông qua các bản cập nhật ảnh hưởng đến đường dẫn dữ liệu xuôi dòng (downstream data pipeline) và sự gia tăng của mô hình hóa dữ liệu (data modeling) - [những điều này cho phép] các kỹ sư dữ liệu tùy chọn chuyển dữ liệu vào kho, được lập mô hình trước. Năm 2023 sẽ chứng kiến việc áp dụng hợp đồng dữ liệu rộng rãi hơn khi các nhà thực hành học viên cố gắng áp dụng các khung này.”- theo Lior Gavish, đồng sáng lập và CTO của Monte Carlo

3. Sự sẵn sàng (availability) sẽ là chìa khóa để chiến thắng năm 2023

Một điều chúng ta đã học được trong những năm gần đây là việc ngừng hoạt động có thể làm tê liệt doanh nghiệp. Trong năm 2023, sự sẵn sàng (availability) sẽ là công thức bí mật giúp phân biệt kẻ chiến thắng với kẻ thua cuộc. Các công ty cần tránh bị khóa lại và có sự linh hoạt để mở rộng quy mô. Bằng cách đa dạng hóa các môi trường đám mây, các công ty sẽ giảm thiểu tác động của việc ngừng hoạt động đối với khả năng tiếp tục hoạt động của họ.

- theo Patrick Bossman, Giám đốc sản phẩm của MariaDB

4. Năm 2023 sẽ là năm của ứng dụng dữ liệu

Trong 10 năm qua, chúng ta đã chứng kiến sự trỗi dậy của ứng dụng web và ứng dụng điện thoại, còn năm 2023 là năm của ứng dụng dữ liệu. Các ứng dụng dữ liệu hiệu suất cao, đáng tin cậy sẽ là một công cụ quan trọng để thành công khi các doanh nghiệp tìm kiếm các giải pháp mới để cải thiện các ứng dụng dành cho khách hàng và hoạt động kinh doanh nội bộ. Với các ứng dụng dữ liệu theo yêu cầu như Uber, Lyft và Doordash có sẵn trong tầm tay, chẳng có gì tệ hơn với khách hàng là bị mắc kẹt trong guồng quay của số phận và một yêu cầu không được giải quyết. Được hỗ trợ bởi nền tảng phân tích thời gian thực, chúng ta sẽ thấy áp lực ngày càng tăng đối với các ứng dụng dữ liệu không chỉ theo thời gian thực mà còn phải an toàn.

- theo Dhruba Borthakur, đồng sáng lập và CTO tại Rockset.

5. Sự gia tăng của các thỏa thuận xử lý dữ liệu (DPA) 

Cách các tổ chức xử lý dữ liệu trong các hệ thống tại chỗ trước đây là một quy trình được kiểm soát rất chặt chẽ, đòi hỏi nhiều nguồn lực kỹ thuật và bảo mật cao. Tuy nhiên, bằng cách sử dụng cơ sở hạ tầng dữ liệu SaaS ngày nay, việc chia sẻ và truy cập dữ liệu giữa các phòng ban, khu vực và công ty chưa bao giờ dễ dàng hơn thế. Với suy nghĩ này và do sự gia tăng của luật nội địa hóa/ luật chủ quyền dữ liệu, các quy tắc về cách một người truy cập, xử lý và báo cáo về việc sử dụng dữ liệu sẽ cần được xác định thông qua các thỏa thuận hợp đồng, còn gọi là thỏa thuận xử lý dữ liệu (DPA) (data processing agreement). 

Trong năm 2023, chúng ta sẽ thấy DPA trở thành một yếu tố tiêu chuẩn trong các hợp đồng SaaS và đàm phán chia sẻ dữ liệu. Cách các tổ chức xử lý các hợp đồng này về cơ bản sẽ thay đổi cách họ kiến trúc cơ sở hạ tầng dữ liệu và sẽ xác định giá trị kinh doanh của dữ liệu. Do đó, lợi ích tốt nhất của các nhà lãnh đạo dữ liệu là áp dụng đầy đủ các DPA vào năm 2023 và hơn thế nữa. Những tài liệu dài này sẽ rất phức tạp, nhưng việc số hóa các DPA và sự tham gia của các nhóm pháp lý sẽ giúp chúng dễ hiểu và dễ thực hiện hơn rất nhiều.

- theo Matt Carroll, đồng sáng lập và CEO của Immuta 

6. Trao đổi dữ liệu không sao chép sẽ bị đình chỉ

Năm 2023, khi việc chia sẻ dữ liệu tiếp tục phát triển và các nhóm dữ liệu cũng như CNTT luôn sẵn sàng theo kịp, việc trao đổi dữ liệu không sao chép sẽ trở thành tiêu chuẩn mới. Khi các tổ chức sản phẩm hóa các nền tảng dữ liệu hiện đại của mình, sẽ có sự bùng nổ về kích thước và số lượng bộ dữ liệu. Tạo bản sao trước khi chia sẻ sẽ không còn khả thi nữa. Sang năm 2023, các doanh nghiệp sẽ đổ xô sử dụng các nền tảng đã được thiết lập, như Giao thức trao đổi dữ liệu của Snowflake (Snowflake’s Data Exchange) và giao thức chia sẻ Delta của Databricks (Databricks’ Delta Sharing protocol), để giúp chia sẻ và kiếm tiền từ dữ liệu của họ một cách an toàn và dễ dàng hơn.

- theo Matt Carroll, đồng sáng lập và CEO của Immuta

7. Tự động hóa dựa trên AI để quản lý dữ liệu phi cấu trúc sẽ gây sức hút

Việc quản lý dữ liệu với các tệp và đối tượng ngày càng phức tạp hơn với công nghệ máy học thích ứng và tự động hóa dựa trên AI để định hướng vị trí dữ liệu, quản lý vòng đời, tìm kiếm và di chuyển một cách thông minh. Các giải pháp có thể điều chỉnh dựa trên hồ sơ chi phí, hồ sơ dữ liệu và định vị mục tiêu của khách hàng, đồng thời học hỏi qua thời gian để tinh chỉnh các đề xuất. Ví dụ: thuật toán AI có thể được sử dụng để chủ động xác định các bộ dữ liệu nhạy cảm, chẳng hạn như các tệp có phần mở rộng hoặc thẻ đính kèm liên quan đến các tài liệu tài chính, được lưu trữ không tuân thủ, chẳng hạn như trong thư mục của CMO (giám đốc marketing) thay vì thư mục chỉ đọc thuộc sở hữu của CFO (giám đốc tài chính).

- theo Kumar Goswami, Giám đốc điều hành và đồng sáng lập của Komprise. 

8. Dữ liệu tổng hợp sẽ tăng tốc đổi mới AI

Trong năm 2023, dữ liệu tổng hợp sẽ là yếu tố thay đổi cuộc chơi trong việc đẩy nhanh quá trình phát triển và triển khai AI đồng thời bảo vệ chống lại sự thiên vị của thuật toán. Một trong những thách thức quan trọng trong việc phát triển AI là có được lượng dữ liệu đầy đủ và đa dạng để huấn luyện các thuật toán dựa trên máy học. Các thuật toán này yêu cầu lượng dữ liệu khổng lồ đại diện cho những người khác nhau sẽ tương tác với nó và những bối cảnh mà nó sẽ được sử dụng.

Thật khó khăn, tốn thời gian và chi phí để có được lượng dữ liệu rộng và sâu này. Tổng hợp dữ liệu cho phép các công ty AI tăng cường nhanh chóng các bộ dữ liệu hiện có của họ và mô phỏng các kịch bản khó có thể tạo ra trong thế giới thực.Ví dụ: trong ngành xe hơi, các công cụ dữ liệu tổng hợp có thể sử dụng hình ảnh nguồn của một người lái xe để tạo các biến thể tổng hợp sử dụng các điều kiện ánh sáng hoặc chuyển động đầu khác nhau. Nó thậm chí có thể mô phỏng một người lái xe ngủ gật sau tay lái - dữ liệu rất hiếm và rất nguy hiểm để ghi lại trong thực tế. Việc triển khai các công cụ dữ liệu tổng hợp là chìa khóa không chỉ giải quyết những thách thức phức tạp trong việc thu thập dữ liệu mà còn để chống lại sự thiên vị của thuật toán, bằng cách đảm bảo các bộ dữ liệu thực sự đa dạng.

- theo Tiến sĩ Rana el Kaliouby, Phó Tổng Giám đốc của Smart Eye 

9. Trong thế giới đa đám mây (multicloud), lưu trữ đối tượng là lưu trữ chính

Ngay bây giờ, cơ sở dữ liệu đang tập trung vào lưu trữ đối tượng (object storage) như là giải pháp lưu trữ chính. Điều này được thúc đẩy bởi hiệu suất, khả năng mở rộng và các định dạng bảng mở. Một lợi thế chính trong sự gia tăng của các định dạng bảng mở (Iceberg, Hudi, Delta) là chúng cho phép nhiều cơ sở dữ liệu và công cụ phân tích cùng tồn tại. Đổi lại, điều này tạo ra yêu cầu chạy ở mọi nơi - thứ mà bộ lưu trữ đối tượng hiện đại rất phù hợp.Bằng chứng ban đầu rất mạnh mẽ; cả Snowflake và Microsoft sẽ phát hành và cung cấp rộng rãi cho công chúng (GA) chức năng bảng bên ngoài vào cuối năm 2023. Giờ đây, các công ty sẽ có thể tận dụng lưu trữ đối tượng cho bất kỳ cơ sở dữ liệu nào mà không cần phải di chuyển trực tiếp các đối tượng đó vào cơ sở dữ liệu; họ có thể truy vấn tại chỗ.

- theo Anand Babu Periasamy, đồng sáng lập và CEO của MinIO

10. Tích trữ dữ liệu (data hoarding) sẽ được chú ý

“Tích trữ dữ liệu (data hoarding) là một trong những bí mật lớn nhất trong ngành hiện nay. Với 14,4 tỷ điểm kết nối vào năm 2022, các công ty đang ngồi trên kho dữ liệu quý giá mà không thực sự sử dụng thực sự tất cả dữ liệu đó. Ý nghĩ là họ sẽ có thể sử dụng dữ liệu của mình trong tương lai theo những cách mà họ không thể truy cập ngày hôm nay, nhưng thực tế lại hoàn toàn ngược lại.

Mỗi mảnh dữ liệu cũng đang trở nên lớn hơn khi công nghệ tiếp tục phát triển. Mọi thứ đang trở nên phong phú hơn, từ máy ảnh có độ phân giải cao hơn đến micrô chất lượng cao hơn - tất cả những thứ này đang chiếm một lượng lớn dung lượng. Tôi kỳ vọng các công ty cũng như người tiêu dùng sẽ bắt đầu chú ý đến dữ liệu mà họ đang bắt đầu tích trữ một cách vô thức.

- theo Renen Hallak, nhà sáng lập và CEO của VAST Data.

11. Sự gia tăng của triển khai đám mây lai "mang theo cơ sở dữ liệu của riêng bạn" (BYODB)

Lợi ích của việc chuyển một số dự án nhiều dữ liệu lên đám mây là không thể bàn cãi - việc triển khai nhanh hơn, giảm chi phí cơ sở hạ tầng và bảo trì, hỗ trợ tích hợp và SLA cũng như khả năng mở rộng tức thì khi bạn cần. Tuy nhiên, sẽ luôn có các nghĩa vụ trong trường hợp sử dụng yêu cầu lưu giữ dữ liệu tại chỗ, bao gồm hiệu suất, bảo mật, tuân thủ các quy định, phát triển cục bộ và phần cứng cách ly không khí (có thể kể tên một số). Một giải pháp linh hoạt hơn dành cho các nhà cung cấp dữ liệu hiện đại là hỗ trợ triển khai đám mây lai “mang theo cơ sở dữ liệu của riêng bạn” (bring-your-own-database, viết tắt là BYODB) bên cạnh các phương án dịch vụ tại chỗ và đám mây được quản lý hoàn toàn phổ biến hơn.

Cách tiếp cận mới này sẽ phát triển trong những năm tới, cho phép dữ liệu được lưu giữ y nguyên tại chỗ và không bị thay đổi nhưng được kết nối từ xa với các dịch vụ SaaS lớp trên cùng từ các trung tâm dữ liệu gần đó. Điều này cung cấp tất cả các lợi ích của đám mây, trong khi vẫn cho phép toàn quyền và kiểm soát tài nguyên quý giá nhất của công ty… dữ liệu của nó.

- theo Ben Haynes, CEO và đồng sáng lập Directus

12. Đường ống dữ liệu (pipeline) sẽ tinh vi hơn

“Đường ống dữ liệu (data pipeline) là cách dữ liệu được đưa từ nguồn ban đầu vào kho dữ liệu. Với rất nhiều loại dữ liệu mới và dữ liệu liên tục được đổ vào các đường ống này không chỉ trở nên thiết yếu hơn mà tiềm năng còn phức tạp hơn. Năm 2023, người dùng nên mong đợi các nhà cung cấp kho dữ liệu đem lại các cách mới và tốt hơn để trích xuất, chuyển đổi, tải, lập mô hình, thử nghiệm và triển khai dữ liệu. Và các nhà cung cấp sẽ làm như vậy với trọng tâm là tích hợp và dễ sử dụng.- theo Chris Gladwin, CEO và đồng sáng lập của Ocient

13. Cơ sở dữ liệu vectơ (vector databases) nắm giữ để giải phóng giá trị của dữ liệu phi cấu trúc chưa được khai thác

Khi các doanh nghiệp nắm bắt kỷ nguyên AI và cố gắng tận dụng tối đa các lợi ích của nó trong vận hành, thì khối lượng dữ liệu phi cấu trúc ở mọi dạng cần được hiểu rõ sẽ tăng đột biến. Để đối phó với những thách thức này trong việc trích xuất giá trị hữu hình từ dữ liệu phi cấu trúc, các cơ sở dữ liệu vectơ (vector databases) - một loại công nghệ quản lý cơ sở dữ liệu mới được xây dựng nhằm mục đích xử lý dữ liệu phi cấu trúc - đang gia tăng và sẽ phát triển trong những năm tới.

- theo Frank Liu, giám đốc vận hành tại Zilliz

14. Khả năng quan sát dữ liệu (data observability) sẽ trở thành một ngành quan trọng

Trong nền kinh tế ngày nay, việc phải liên tục tính toán ROI và ưu tiên những cách mà chúng ta có thể làm được nhiều hơn với chi phí ít hơn là rất quan trọng. Tôi tin rằng các nhóm kỹ sư có cơ hội hợp tác và làm việc hướng tới việc nâng cao năng lực của công ty để giành chiến thắng.

Tôi dự đoán chúng ta sẽ ngày càng thấy các kỹ sư và nhóm kỹ sư dữ liệu trở thành người hỗ trợ cho phép các công ty đưa ra các quyết định dựa trên dữ liệu bằng cách xây dựng cơ sở hạ tầng và cung cấp các công cụ cần thiết để hỗ trợ các nhóm khác (đặc biệt là các nhóm phi kỹ thuật). Một trong những cách họ sẽ kích hoạt sự thay đổi này là giúp các nhóm hiểu cách truy cập dữ liệu của họ theo cách tự phục vụ, thay vì liên tục là trung tâm của việc trả lời các câu hỏi. Thay vì thuê thêm các nhà khoa học dữ liệu, tôi hy vọng các nhóm  kỹ sư dữ liệu sẽ tăng cường vai trò kỹ thuật dữ liệu để xây dựng cơ sở hạ tầng lâu dài cho phép mọi người ở mọi mảng hoạt động của doanh nghiệp trả lời các câu hỏi một cách độc lập.

- theo Shadi Rostami, SVP về kỹ thuật tại Amplitude.

Nguồn tham khảo: 


Có thể bạn quan tâm? 

Nhận xét

Bình luận. Vui lòng không spam, không quảng cáo, không công kích cá nhân. Hãy sử dụng từ ngữ phù hợp và đóng góp tích cực!

Archive

Biểu mẫu liên hệ

Gửi