Exploratory Data Analysis Là Gì

Video exploratory data analysis là gì

hinh-anh-phu-de-CHO-BAI-VIET

Giới thiệu

Khám phá dữ liệu (Exploratory Data Analysis – EDA) được xem là một quá trình cực kỳ quan trọng trong việc nghiên cứu dữ liệu. Đây là giai đoạn đầu tiên trong việc phân tích dữ liệu, trong đó ta làm sạch, biến đổi và mô hình hóa các tập dữ liệu để khám phá thông tin có ích. Việc thực hiện EDA giúp chúng ta hiểu rõ hơn về tập dữ liệu của mình và đảm bảo rằng dữ liệu được sử dụng là chính xác và có thể áp dụng trong các quyết định kinh doanh. Trong bài viết này, chúng ta sẽ tìm hiểu về EDA: EDA là gì, có những công việc/kỹ thuật nào và cách áp dụng nó trong phân tích dữ liệu.

1. Cơ bản về Exploratory Data Analysis (EDA)

1.1. Exploratory Data Analysis (EDA) là gì?

Exploratory Data Analysis (EDA) hay còn gọi là phân tích khám phá dữ liệu, là một bước quan trọng trong quy trình phân tích dữ liệu. Ở giai đoạn này, chúng ta sẽ tìm hiểu và giải thích các đặc điểm của tập dữ liệu trước khi tiến hành phân tích. Công việc “hiểu rõ về tập dữ liệu” có thể bao gồm việc nắm vững dữ liệu mô tả tập dữ liệu, thống kê mô tả các biến, xác định mối quan hệ giữa các biến, phát hiện các pattern và xu hướng của dữ liệu, tìm ra những bất thường và ngoại lệ trong dữ liệu, kiểm tra các giả định ban đầu… Phân tích khám phá dữ liệu (EDA) được hiểu là một phần của phân tích mô tả (descriptive analytics). Để hiểu rõ về dữ liệu, chúng ta cần đặt ra các câu hỏi nhằm tìm ra nhiều hướng khai thác và góc nhìn dữ liệu khác nhau.

1.2. Vì sao cần khám phá dữ liệu (EDA) trong phân tích dữ liệu?

Các ứng dụng của EDA có thể bao gồm:

  • Hỗ trợ làm sạch dữ liệu với các kỹ thuật xác định các giá trị bị thiếu, sai sót hoặc các điểm dữ liệu bất thường.
  • Nắm rõ đặc điểm, cấu trúc và mô hình của tập dữ liệu.
  • Phát triển và kiểm chứng các giả thuyết và giả định.
  • Xác định các biến quan trọng nhất và mối quan hệ tương quan giữa các biến.
  • Xây dựng data model.
  • Xác định phạm vi sai lệch của dữ liệu.
  • Xác định các công cụ thống kê và kỹ thuật phân tích thích hợp nhất.

2. Các bước trong quá trình khám phá dữ liệu (EDA)

2.1. Thu thập dữ liệu

Thu thập dữ liệu là bước đầu tiên và quan trọng trong quá trình EDA. Để thực hiện EDA, ta cần thu thập đủ dữ liệu từ nhiều nguồn khác nhau như khảo sát, mạng xã hội và đánh giá từ khách hàng. Nếu thiếu dữ liệu hoặc không có dữ liệu đầy đủ, ta sẽ không thể tiến hành các bước phân tích tiếp theo.

2.2. Xác định tất cả biến dữ liệu quan trọng và nắm rõ đặc điểm của từng biến

Trước khi tiến hành phân tích EDA, ta cần xác định và nắm rõ tất cả các biến quan trọng trong tập dữ liệu. Bước này rất quan trọng để đảm bảo kết quả cuối cùng của quá trình phân tích là chính xác.

2.3. Làm sạch dữ liệu

Sau khi xác định các biến quan trọng, ta cần làm sạch dữ liệu trước khi tiến hành EDA. Công việc này bao gồm việc loại bỏ các giá trị thiếu, loại bỏ thông tin không liên quan và xác định các giá trị ngoại lai trong tập dữ liệu.

2.4. Xác định các biến tương quan

Sau khi làm sạch dữ liệu, ta có thể tiến hành xác định mối tương quan giữa các biến dữ liệu. Phân tích tương quan giữa các biến giúp ta hiểu rõ hơn về mối quan hệ giữa các biến và có thể tìm ra những mẫu tương quan quan trọng.

2.5. Chọn phương pháp thống kê mô tả thích hợp

Khi ta đã xác định các biến quan trọng và biết về sự tương quan giữa chúng, ta cần chọn phương pháp thống kê mô tả thích hợp để mô tả các biến dữ liệu. Điều này giúp ta hiểu rõ hơn về phân phối của các biến và tìm hiểu về các thuộc tính cơ bản của chúng.

2.6. Trực quan hóa và phân tích dữ liệu

Cuối cùng, ta cần trực quan hóa và phân tích dữ liệu để tìm ra các thông tin quan trọng. Bằng cách sử dụng các biểu đồ và biểu đồ khác nhau, ta có thể trực quan hóa dữ liệu và tìm ra các mẫu, xu hướng và quy luật ẩn.

3. Công cụ thực hiện EDA

  • Python: Python thường được sử dụng để thực hiện EDA với các thư viện như Matplotlib, Pandas, Seaborn, NumPy, Altair,…
  • R: R cũng là một công cụ phổ biến để thực hiện EDA với các thư viện như ggplot, Leaflet, Lattice, Data Explorer, SmartEDA và GGally,…
  • MATLAB: MATLAB là một công cụ phổ biến trong ngành kỹ thuật và cũng được sử dụng trong EDA.

HEFC trân trọng giới thiệu đến bạn khóa học “Phân Tích Dữ Liệu”. Tại khóa học này, bạn sẽ được học về các quy trình và kỹ thuật phân tích dữ liệu, từ EDA đến phân tích dự báo. Hãy tham khảo khóa học tại HEFC để tìm hiểu thêm chi tiết nhé!

Related Posts

Xét nghiệm Giải phẫu bệnh – Dẫn đường cho việc điều trị

Xét nghiệm giải phẫu bệnh được thực hiện trên những mẫu bệnh phẩm tế bào, bệnh phẩm mô từ các cơ quan trong cơ thể được sinh…

Phương pháp điều trị tủy răng tại nha khoa hiện nay

Viêm tủy răng là một trong những vấn đề về sức khỏe răng miệng nghiêm trọng. Người mắc viêm tủy răng không chỉ phải chịu đựng những…

Mỹ thuật ứng dụng là gì? (cập nhật 2023)

Khi những giá trị thẩm mỹ ngày càng được chú trọng thì các phẩm mỹ thuật ứng dụng ngày càng đi sâu vào đời sống của mọi…

Bát quái đồ là gì? Ý nghĩa và vai trò của bát quái trong phong thủy

Bát quái đồ là vật phẩm phong thủy được sử dụng khá rộng rãi và phổ biến trong văn hoá phương Đông, nhằm mang lại những niềm…

Du học ngành khoa học ứng dụng và cơ bản

>> Du học ngành khoa học đại cương >> Các trường có đào tạo ngành Khoa học ứng dụng và cơ bản Khoa học Ứng dụng và…

Trồng răng implant là gì? Những điều cần phải biết trước khi chọn trồng răng implant

Trồng răng implant là phương pháp trồng răng cấy trụ kim loại vào xương hàm để thay thế cho răng đã mất. Chính vì vậy trụ implant…