Datalize

Datalize http://datalize.cloud/ - Get insights easier

Data governance P3 - Data lineage,Google/Gemini:"Data lineage is crucial for effective data governance because it provid...
25/07/2025

Data governance P3 - Data lineage,

Google/Gemini:
"Data lineage is crucial for effective data governance because it provides a detailed map of how data flows through an organization, from its origin to its final destination. This capability allows organizations to understand data quality, track data changes, and ensure compliance with regulations. By visualizing and documenting data's journey, data lineage helps with impact analysis, root cause analysis, and optimizing data management processes. "

Data lineage ko chỉ phục vụ trong DG mà còn ứng dụng rất thiết thực khi debug cần phải trace xuôi - ngược từ chart/dashboard data source end to end.


Data Governance P2: Data catalog/Data dictionary vs MetadataGoogle/Gemini:"A data catalog is a system that helps users d...
24/07/2025

Data Governance P2: Data catalog/Data dictionary vs Metadata

Google/Gemini:
"A data catalog is a system that helps users discover, understand, and govern data assets within an organization, acting as a central index of all data resources. Metadata, on the other hand, is "data about data". It provides context and information about the data itself, such as its origin, format, and quality. Essentially, a data catalog uses metadata to organize and make data discoverable.
"

Add-on: Data catalog/dictionary giúp DE AE DA hiểu về data source để ETL và get insights, rồi trên góc độ Data governance giúp cung cấp thêm 'data about data' (metadata).



Một chủ đề rộng về Data Governance P1,Các thuật ngữ, chủ đề cần ghé thăm:Metadata, Data catalog, Data lineage, Data qual...
23/07/2025

Một chủ đề rộng về Data Governance P1,

Các thuật ngữ, chủ đề cần ghé thăm:
Metadata, Data catalog, Data lineage, Data quality, Data security/privacy/compliance.

P1: Data Governance (trích Google/Gemini)
"Quản trị dữ liệu (Data governance) là một hệ thống các chính sách, quy trình, và thực tiễn được áp dụng để đảm bảo dữ liệu của một tổ chức được quản lý một cách hiệu quả, an toàn, và tuân thủ các quy định. Nó bao gồm việc xác định ai có quyền truy cập dữ liệu, cách dữ liệu được sử dụng, và làm thế nào để dữ liệu được bảo vệ."

Tóm lại, DG là bộ chiến lược/kế hoạch/quy trình làm việc với data trong tổ chức nhé.


Data Warehouse design procedure/methodologies,Một chủ đề challenge nhưng ko nhiều Data Engineer/Analytics Engineer được ...
22/07/2025

Data Warehouse design procedure/methodologies,

Một chủ đề challenge nhưng ko nhiều Data Engineer/Analytics Engineer được mần, nhất là trong dự án lớn,

Có 4 methods chính: Innon, Kimball, Data Vault (Hybrid), OBT (One big table),

1. Với Innon thì phù hợp với dự án/cty có hệ thống Data source lớn và có tính structured cao, ổn định,

2. Kimball thì phù hợp với dự án/cty có yêu cầu phân tích đa dạng, ad-hoc analysis nhiều,

3. Hybrid thì kết hợp advantage của cả Innon & Kimball nhưng khi triển khai sẽ phức tạp vì cần đảm bảo tính chặt chẽ của cả top-down với bottom-up,

4. OBT thường phù hợp với kiểu Time series analyasis driven, khi lượng dữ liệu từ các bảng chưa quá lớn, cần ra insights nhanh.


CÁCH CÓ DỮ LIỆU PHÂN TÍCH BẰNG QUY TRÌNH ETL VS ELTTrước khi chúng ta có dữ liệu để các bạn DA phân tích thì là các công...
21/07/2025

CÁCH CÓ DỮ LIỆU PHÂN TÍCH BẰNG QUY TRÌNH ETL VS ELT

Trước khi chúng ta có dữ liệu để các bạn DA phân tích thì là các công việc kéo dữ liệu từ Data source/Database về Data lake/Data warehouse/Data mart bằng 1 trong 2 cách chính là ETL và ELT. Khác nhau mấu chốt ở điểm một bên có dữ liệu nào từ các data source thì đều extract và kéo 1 1 sang DW rồi mới "xào nấu" với bên còn lại extract để "xào nấu" rồi mới kéo sang DW các bạn nha.

Từ đó, đặc điểm dữ liệu, yêu cầu về thời gian xử lý, độ lớn của dữ liệu, chi phí, nguồn lực... cũng khác nhau khi chọn sử dụng 1 trong 2 cách này.


Đá lại mấy đối tượng làm việc chính của Data Engineer/Analytics Engineer (Data Layer/Architect)1. Database/Data source: ...
19/07/2025

Đá lại mấy đối tượng làm việc chính của Data Engineer/Analytics Engineer (Data Layer/Architect)

1. Database/Data source: nguồn dữ liệu của dự án/cty -> tuỳ theo dự án có thể có 1 hoặc nhiều nguồn dữ liệu lớn nhỏ,

2. Data Lake/Data lake house: nơi chứng dữ liệu thô từ tất cả các nguồn dữ liệu của ý 1,

3. Data warehouse: nơi chứa dữ liệu tinh luyện bằng ETL/ELT (Extract Load Transform) procedure từ dữ liệu của 2,

4. Data mart: nơi dữ liệu tinh luyện gom/phân vùng theo các mục đích khác nhau (department/campaign analyasis driven),

5. Add-on: Data Visualization/Business Intelligence: nơi chứa chart/dashboard/INSIGHTs (sau tất cả thì đây là 'vàng').


CI/CD procedure in Data Engineer/Analytics Engineer/Google Looker Dev,1 trong những key procedure gắn liền với cv của cá...
18/07/2025

CI/CD procedure in Data Engineer/Analytics Engineer/Google Looker Dev,

1 trong những key procedure gắn liền với cv của các role trên và thật sự cần trên góc độ collab để deliver new feature/update code,

Là luồng submit (member) , approve (lead), collab (team members) đảm bảo tính nhất quán, kiểm duyệt và dev traceable, ... nhất là với dự án đông member là càng quan trọng.



3 kiến trúc Data ingestion từ đa dạng các data source chính hiện tại,Mỗi kiến trúc phù hợp với nhu cầu, hiện trạng dữ li...
17/07/2025

3 kiến trúc Data ingestion từ đa dạng các data source chính hiện tại,

Mỗi kiến trúc phù hợp với nhu cầu, hiện trạng dữ liệu:
1. Lambda (hình 1) thì phục vụ hướng OLAP (On-line analytical processing) và OLTP (On-line transactional processing) sau khi ingest,
2. Kappa (hình 2) thì hợp chính với OLTP,
3. Lakehouse/Data lake (hình 3) khi cần tổ chức dữ liệu structure & unstructure cần ingest.


Snowflake vs Databicks (cloud-native data warehouse platform vs unified data analytics patform)
07/04/2025

Snowflake vs Databicks
(cloud-native data warehouse platform vs unified data analytics patform)

Address

Số 17, Ngõ Hoà Bình 2, Phố Minh Khai, Quận Hai Bà Trưng, HN
Hanoi
100000

Alerts

Be the first to know and let us send you an email when Datalize posts news and promotions. Your email address will not be used for any other purpose, and you can unsubscribe at any time.

Contact The Business

Send a message to Datalize:

Share