paint-brush
Tìm hiểu cách hoạt động của kho dữ liệu trên AWStừ tác giả@ramsjha
16,197 lượt đọc
16,197 lượt đọc

Tìm hiểu cách hoạt động của kho dữ liệu trên AWS

từ tác giả ramsjha4m2023/11/29
Read on Terminal Reader

dài quá đọc không nổi

Khám phá thế giới lưu trữ dữ liệu, từ các khái niệm nền tảng đến triển khai thực tế với AWS Redshift. Hướng dẫn toàn diện này bao gồm các phương pháp lập mô hình dữ liệu, đi sâu vào những vấn đề phức tạp trong quá trình thiết lập AWS Redshift và trình bày cách lưu trữ dữ liệu phù hợp liền mạch với hệ sinh thái giải pháp dữ liệu rộng hơn, mở ra những khả năng mới cho phân tích và thông tin kinh doanh.
featured image - Tìm hiểu cách hoạt động của kho dữ liệu trên AWS
ramsjha HackerNoon profile picture

Blog này sẽ bao gồm một cách tổng thể:

(a) Kho dữ liệu là gì

(b) Các phương pháp mô hình hóa dữ liệu cho Kho dữ liệu

(c) Kho dữ liệu trên AWS và cuối cùng là

(d) Lưu trữ dữ liệu để giảm tải hoạt động bằng Dịch vụ được quản lý.


Hãy hiểu từ góc nhìn của một người bình dân “ Kho dữ liệu là gì


Theo Wikipedia - kho dữ liệu (DW hoặc DWH), còn được gọi là kho dữ liệu doanh nghiệp (EDW), là một hệ thống được sử dụng để báo cáo và phân tích dữ liệu và được coi là thành phần cốt lõi của kinh doanh thông minh . Kho dữ liệu là kho lưu trữ trung tâm của dữ liệu tích hợp từ một hoặc nhiều nguồn khác nhau. Họ lưu trữ dữ liệu hiện tại và lịch sử ở một nơi duy nhất được sử dụng để tạo báo cáo phân tích cho nhân viên trong toàn doanh nghiệp. Điều này có lợi cho các công ty vì nó cho phép họ thẩm vấn và rút ra những hiểu biết sâu sắc từ dữ liệu của họ và đưa ra quyết định.


Về cơ bản, đó là nghệ thuật thu thập, lưu trữ và cung cấp hiệu quả những hiểu biết sâu sắc (thông tin kinh doanh) để giúp doanh nghiệp trở thành một tổ chức dựa trên dữ liệu. Theo một nghĩa nào đó, đó là một cơ sở dữ liệu giao dịch khác nhưng được tối ưu hóa cho khối lượng công việc phân tích.



Theo sơ đồ trên, dữ liệu được thu thập từ nguồn, chuyển đổi theo mức sử dụng (ETL/ELT) và được lưu trữ trong DWH/Data mart và Thông tin chi tiết được hiển thị thông qua các công cụ nghiệp vụ thông minh.


Tất cả đều trông đơn giản vào thời thiết lập tại chỗ khi ELT (ETL so với ELT), Cloud DWH (AWS Redshift, Google Big Query, Snowflake, Databricks) và các giải pháp Dữ liệu được quản lý khác không tồn tại, gần đây đã được đơn giản hóa và thu nhỏ tầm với của DWH. Trong blog này, chúng ta hãy hiểu từng khía cạnh một.


Để đơn giản, hãy sử dụng tiền đề rằng không có khả năng tính toán và lưu trữ vô hạn và hệ thống giao dịch không thể xử lý các truy vấn phân tích một cách hiệu quả. Đây là lúc cần có một cách hiệu quả để thiết kế kho dữ liệu có khả năng lưu trữ tối ưu, xử lý hiệu quả các truy vấn phân tích (Cắt/cắt hạt/Khối, v.v.) và cung cấp độ trễ cần thiết.


Đối với tất cả những điều này, hai mô hình thiết kế lý thuyết cho thiết kế Datawarehouse đã được đưa ra bởi:


(a) Bill Inmon – Cách tiếp cận từ trên xuống (EDW) và

(b) Ralph Kimball – Cách tiếp cận từ dưới lên (Data mart).


Cách tiếp cận của Inmon là xây dựng tập trung ở quy mô toàn cầu và xây dựng chậm trong khi cách của Kimball là tạo ra một trung tâm dữ liệu độc lập bằng silo và kết nối với nhau sau đó. Chúng ta đừng đi sâu vào mô hình nào là tốt nhất hoặc nên chọn mô hình nào. Trong trường hợp của tôi, tóm lại, cả hai mô hình đều hoạt động và nó hoàn toàn phụ thuộc vào trường hợp sử dụng và mức độ trưởng thành của tổ chức. Một điểm quan trọng khác trong thiết kế này là “Biểu diễn dữ liệu”, mô hình hóa thứ nguyên bằng cách sử dụng Lược đồ hình sao, Lược đồ bông tuyết hoặc Sự kết hợp giữa Sao và bông tuyết, đây là điểm mấu chốt của truy vấn và chiều nhanh hơn.




Bài học rút ra quan trọng duy nhất là mặc dù hậu cần vô hạn nhưng một thiết kế Datawarehouse tốt có thể giải quyết được vấn đề đa chiều. Vì vậy, tốt hơn hết là đừng bỏ qua nó.


Bước tiếp theo trong Xây dựng DW là nền tảng được lựa chọn có thể thay đổi từ tại chỗ (Teradata, IBM DB2, Oracle, v.v.) đến Cloud DW (Snowflake, Redshift, BigQuery, v.v.). Việc xây dựng kho dữ liệu truyền thống rất phức tạp và việc quản lý cũng như bảo trì liên tục có thể gặp nhiều thách thức và tốn kém. Trong phần tiếp theo, chúng ta sẽ đi sâu vào cách xây dựng bằng AWS Redshift (không cần bàn cãi liệu tại chỗ tốt hơn hay Đám mây hay DWH đám mây nào tốt hơn).


Amazon Redshift là kho dữ liệu cấp doanh nghiệp có quy mô petabyte được quản lý toàn phần, cung cấp hiệu suất vượt trội cho các truy vấn phân tích, sử dụng đơn giản và tiết kiệm chi phí. Amazon Redshift giảm chi phí hoạt động cần thiết với kho dữ liệu truyền thống bằng cách tự động hóa các tác vụ như vá lỗi, sao lưu và cung cấp phần cứng. Bạn có thể đặt cấu hình cụm Amazon Redshift nơi bạn có thể tùy chỉnh cơ sở hạ tầng và đường cơ sở hiệu suất cho kho dữ liệu của mình. Amazon Redshift cũng cung cấp thiết lập Redshift Spectrum, Datashare, Redshift ML và Serverless cho phép bạn sử dụng cụm Amazon Redshift ngoài DWH.


Cách để thiết lập,

  • Xác định những dịch vụ nào cần tận dụng để thu thập dữ liệu (AWS DMS, DynamoDB, EMR, Glue, Kinesis, S3, SSH Host, v.v.)
  • Xác định cách tương tác (Công cụ phân tích truy vấn và Giao diện quản lý)
  • Hiểu kiến trúc Redshift MPP (Phân tán, không chia sẻ gì)
  • Cụm khởi chạy (DC2, DS2 hoặc RA3) với kích thước dữ liệu, tốc độ tăng trưởng, nút và hiệu suất truy vấn được yêu cầu
  • Thiết kế lược đồ cơ sở dữ liệu theo trường hợp sử dụng hoặc triển khai DWH với Loại dữ liệu, loại lược đồ, nén, bộ đệm, mã hóa được yêu cầu
  • Tải dữ liệu bằng cách sử dụng COPY cho các loại tệp khác nhau, INSERT để thay đổi tối thiểu và PHÂN TÍCH & VACUUM để bảo trì
  • Thực hiện tối ưu hóa truy vấn và nâng cao hiệu suất
  • Tận dụng S3 bằng Spectrum cho bảng bên ngoài và Chia sẻ dữ liệu để không sao chép
  • Sử dụng Redshift ML để có thông tin chuyên sâu
  • Tận dụng công cụ AWS Quicksight cho BI để hiểu rõ hơn.


Cho đến nay, việc sử dụng Cloud DWH là hợp lý nhưng điều này phù hợp như thế nào trong Sơ đồ lớn về giải pháp DWH + Data Lake/Dịch vụ được quản lý cho dữ liệu ? Hình ảnh bên dưới giải thích cách Hồ dữ liệu và Kho dữ liệu hoạt động liền mạch với nhau. AWS RDS đóng vai trò là nguồn dữ liệu, cung cấp giải pháp bền bỉ và tiết kiệm chi phí, được đưa vào Amazon S3 . Sau đó, dữ liệu được chuyển đổi bằng quy trình ETL và được đưa vào Redshift. Các dịch vụ AWS bổ sung như Athena, Glue, Spectrum, Lake Formation và các dịch vụ khác đóng vai trò quan trọng trong việc thu hẹp khoảng cách để tạo ra Giải pháp dữ liệu toàn diện.






Tóm lại, blog này trình bày các nguyên tắc cơ bản về Kho dữ liệu, đi sâu vào cách tiếp cận triển khai cả về mặt lý thuyết và tập trung vào nền tảng công nghệ. Chúng tôi cũng có được cái nhìn toàn cảnh về cách nó tích hợp liền mạch vào bối cảnh rộng hơn của các giải pháp dữ liệu.