Trang Chủ Cơ sở dữ liệu Dữ liệu bẩn là gì? - định nghĩa từ techopedia

Dữ liệu bẩn là gì? - định nghĩa từ techopedia

Mục lục:

Anonim

Định nghĩa - Dữ liệu bẩn có nghĩa là gì?

Dữ liệu bẩn đề cập đến dữ liệu chứa thông tin sai lệch. Nó cũng có thể được sử dụng khi tham chiếu đến dữ liệu trong bộ nhớ và chưa được tải vào cơ sở dữ liệu. Việc loại bỏ hoàn toàn dữ liệu bẩn từ một nguồn là không thực tế hoặc hầu như không thể.

Dữ liệu sau đây có thể được coi là dữ liệu bẩn:

  • Dữ liệu sai lệch
  • Dữ liệu trùng lặp
  • Dữ liệu không chính xác
  • Dữ liệu không chính xác
  • Dữ liệu không tích hợp
  • Dữ liệu vi phạm quy tắc kinh doanh
  • Dữ liệu không có định dạng tổng quát
  • Dữ liệu sai chính tả hoặc chính tả

Techopedia giải thích dữ liệu bẩn

Ngoài việc nhập dữ liệu không chính xác, dữ liệu bẩn có thể được tạo do các phương pháp không phù hợp trong quản lý dữ liệu và lưu trữ dữ liệu. Một số loại dữ liệu bẩn được giải thích dưới đây:

  • Dữ liệu không chính xác - Để đảm bảo dữ liệu hợp lệ hoặc chính xác, giá trị được nhập phải tuân thủ các giá trị hợp lệ của trường. Chẳng hạn, giá trị được nhập trong trường tháng phải nằm trong khoảng từ 1 đến 12 hoặc tuổi của một cá nhân phải nhỏ hơn 130. Độ chính xác của giá trị dữ liệu có thể được thực thi theo chương trình bằng các bảng tra cứu hoặc kiểm tra chỉnh sửa.
  • Dữ liệu không chính xác - Có thể giá trị dữ liệu có thể đúng, nhưng không chính xác. Đôi khi, việc kiểm tra đối với các tệp hoặc trường khác để tìm hiểu xem giá trị dữ liệu có chính xác hay không dựa trên ngữ cảnh được sử dụng. Tuy nhiên, độ chính xác thường chỉ có thể được xác nhận bằng cách xác minh thủ công.
  • Vi phạm quy tắc kinh doanh - Dữ liệu vi phạm quy tắc kinh doanh là một loại dữ liệu bẩn khác. Chẳng hạn, một ngày hiệu lực phải luôn đến trước ngày hết hạn. Một ví dụ vi phạm quy tắc kinh doanh khác có thể là yêu cầu bảo hiểm Medicare của bệnh nhân trong đó bệnh nhân có thể vẫn chưa đến tuổi nghỉ hưu và không được hưởng Medicare.
  • Dữ liệu không nhất quán - Dự phòng dữ liệu không được kiểm soát dẫn đến sự không nhất quán dữ liệu. Mỗi tổ chức bị ảnh hưởng với dữ liệu không nhất quán và lặp đi lặp lại. Điều này đặc biệt điển hình với dữ liệu khách hàng.
  • Dữ liệu không đầy đủ - Dữ liệu có giá trị thiếu là loại dữ liệu không đầy đủ chính.
  • Dữ liệu trùng lặp - Dữ liệu trùng lặp có thể xảy ra do đệ trình lặp lại, nối dữ liệu không đúng hoặc lỗi người dùng.

Để tăng chất lượng dữ liệu và ngăn chặn dữ liệu bẩn, các tổ chức nên kết hợp các phương pháp để đảm bảo tính đầy đủ, hợp lệ, nhất quán và chính xác của dữ liệu.

Dữ liệu bẩn là gì? - định nghĩa từ techopedia