Biểu đồ Phân Tán ( Scatter Plot Là Gì | Bostonenglish.edu.vn

Google Sheets là một phần mềm hay chương trình chuyên dụng trong việc thiết kế và chỉnh sửa các bảng tính của bạn. Google Sheets, cùng với Google Docs và Google Slides, là một phần của ứng dụng mà Google gọi là Google Drive, Các chương trình này cũng tương tự như Microsoft Excel, Microsoft Word, và Microsoft PowerPoint của Microsoft Office. Tuy nhiên khác với Excel, Google Sheets phù hợp cho những ai chỉ cần phải sử dụng bảng tính với lượng thông tin vừa phải hay cần phải làm việc từ xa với những công cụ khác nhau và đặc biệt là cần phải chia sẻ, hợp tác và làm việc trong một nhóm nhiều người. Và cho dù có vô vàn các dạng biểu đồ mà bạn có thể sử dụng trong việc thiết kế báo cáo, có một dạng biểu đồ mà tôi thấy rất hữu dụng trong việc đưa ra các dự đoán nhưng lại không được ưu chuộng. Đó là biểu đồ phân tán (Scatter plot chart). Trong bài viết này, hãy cùng Gitiho tìm hiểu xem lý do tại sao chúng ta nên dùng dạng biểu đồ này nhiều hơn và cách thiết kế nó nhé! 

Biểu đồ phân tán (Scatter plot) là gì?

Khái niệm

Biểu đồ phân tán (hay tiếng anh còn gọi là scatter plot, scatter chart) sử dụng các dấu chấm để thể hiên giá trị (điểm giao nhau) của hai biến số khác nhau. Vị trí của mỗi dấu chấm trên trục tung và trục hoành tương ứng với một khía cạnh của một điểm dữ liệu riêng lẻ. Biểu đồ phân tán thường được sử dụng để quan sát mối tương quan giữa hai yếu tố khác nhau, 

Nói một cách đơn giản, biểu đồ phân tán là một biểu đồ sử dụng tọa độ để hiển thị các giá trị của dữ liệu trong không gian 2 chiều. Và hai biến số của chúng ta được thể hiện trên trục tung (trục Y) và trục hoành (trục X).

Bạn đang xem: Scatter plot là gì

*

Hình 1: Ví dụ đơn giản của một biểu đồ phân tán

Trong ví dụ ở trong hình trên, biểu đồ phân tán cho chúng ta biết được mối quan hệ giữa số lần truy cập trang của một trang web và số lượng người dùng đăng ký làm thành viên của trang web đó. Như bạn có thể thấy, 2 yếu tố này có một mối quan hệ tỉ lệ thuận với nhau, khi số lần truy cập tăng lên thì số lượng thành viên của trang cũng có xu hướng tăng theo. 

Thông thướng, các biến được thể hiện theo trục hoành là các biến độc lập, là một biến liên tục (ví dụ như: tuổi tác) luôn được theo dõi và dưới sự kiểm soát của người thử nghiệm và biến theo trục tung là biến phụ thuộc, hoặc biến được sử dụng để đo lường, tính toán. Biến số của trục Y thay đổi dựa theo những thay đổi diễn ra đối với biến số ở trục X.

See also  Hardening Là Gì - Linux Tập 3: Hardening (Làm Cứng) Linux | Bostonenglish.edu.vn

Có những trường hợp mà cả hai biến đều là những biến độc lập, khi này thì bạn sẽ không cần quá chú trọng vào việc xác định phải thể hiện biến nào ở trên trục nào. Tuy nhiên biểu đồ phân tán vẫn sẽ thể hiện bất kỳ mối tương quan nào giữa hai biến độc lập này.

Lý do chúng ta nên sử dụng biểu đồ phân tán

Nếu chúng ta chỉ đưa ra kết luận về giá trị của các dữ liệu sử dụng bảng biểu thì các kết luận thường không bao quát. Và việc tìm ra mối quan hệ giữa 2 biến số sẽ rất khó và không biết được chúng liên quan như thế nào. Đó chính là mục đích chủ yếu trong việc sử dụng dạng biểu đồ này: để quan sát và thể hiện mối quan hệ giữa hai biến số. Các dấu chấm trong biểu đồ phân tán không chỉ thể hiện giá trị của một điểm dữ liệu mà còn thể hiện xu hướng khi chúng ta nhìn tổng thể toàn bộ tập dữ liệu. Việc xác định các mối quan hệ tương quan thường được thể hiện bằng dạng biểu đồ này. Và trong những trường hợp như vậy, chúng ta sẽ muốn tìm hiểu xem, nếu chúng ta được yêu cầu dự đoán giá trị của biến số ở trục tung (biến phụ thuộc) khi được đưa một giá trị bất kỳ của biến số trên trục hoành (biến độc lập). Và mối tương quan của chúng ta có thể được diễn tả theo nhiều cách như: mối quan hệ tỉ lệ thuận hay tỉ lệ nghịch, có ảnh hưởng nhiều đến nhau hay không, và xu hướng của toàn bộ biểu đồ là đường thẳng hay dạng đường biểu diễn của chúng ta là dạng khác,

*

Hình 2: Các mối tương quan giữa 2 biến số trong biểu đồ phân tán

Những lưu ý khi thiết kế biểu đồ phân tán

Biểu đồ trở nên quá phức tạp

Khi chúng ta có một tập dữ liệu quá dày đặc, dẫn đến việc biểu đồ có quá nhiều điểm dữ liệu và trở nên vô cùng phức tạp. Đây là trường hợp khi các điểm dữ liệu (các chấm trên biểu đồ) chồng chất lên nhau ở mức độ mà việc nhận xét và tìm ra mối quan hệ giữa các điểm với các biến trên 2 trục là một việc gần như không thể. Việc này xảy ra khi mức độ dày đặc của các điểm dữ liệu chỉ xuất hiện ở trong một khu vực nhỏ.

Có một vài cách thông dụng trong việc giải quyết vấn đề này. Một hướng giải quyết là chúng ta chỉ thể hiện một tập hợp nhỏ của tập dữ liệu: một sự lựa chọn ngẫu nhiên của các biến số vẫn có thể cho chúng ta biết được mối tương quan và góc nhìn tổng thể về xu hướng của toàn bộ tập dữ liệu. Chúng ta cũng có thể thay đổi định dạng của các điểm dữ liệu trên biểu đồ. Thay vì thể hiện các điểm dữ liệu là các chấm đặc, chúng ta chỉ thể hiện phần viền. Hoặc bạn cũng có thể giảm đi kích thước của chúng để việc chồng chất ít xảy ra hơn. Cách giải quyết thứ 3 mà bạn có thể dùng là sử dụng heatmap (biểu đồ nhiệt kế), để thể hiện toàn bộ tập dữ liệu nhưng chỉ tập trung vào xu hướng của chúng. 

See also  Accounted for là gì ? cách sử dụng account for thế nào cho đúng? | Bostonenglish.edu.vn

Lầm tưởng mối tương quan giữa 2 biến là mối quan hệ nhân quả

Ngoại trừ lưu ý trong việc thể hiện quá nhiều dữ liệu, việc thiết kế biểu đồ phân tán không thực sự quá phức tạp như khi đưa ra những kết luận sử dụng biểu đồ này. Đơn giản là vì chúng ta có thể biết được mối quan hệ giữa 2 biến số trong biểu đồ phân tán không đồng nghĩa với việc các thay đổi của một biến số sẽ ảnh hưởng đến biển số còn lại trên biểu đồ. Việc này làm tôi nhớ đến một câu nói thường được dùng trong ngành thống kê: không phải bất kỳ mối quan hệ nào cũng là mối quan hệ nhân quả. Có thể có một biến số thứ 3 ảnh hưởng đến mối tương quan giữa 2 biến số mà chúng ta đang xem xét dẫn đến việc chúng ta lầm tưởng liên kết của 2 biến số này là mối quan hệ nhân quả. 

Ví dụ về việc thiết kế biểu đồ phân tán

Chúng ta hãy cùng xem
xét một ví dụ thực tế, sử dụng các dữ liệu thể hiện doanh số của việc kinh doanh bất động sản ở thành phố Manhattan. Ví dụ này tôi sẽ sử dụng dữ liệu về diện tích của một bất động sản (diện tích dao động từ 100 mét vuông tới 500 mét vuông) với giá thành trên thị trường của nó. 

Và tập dữ liệu chúng ta bao gồm 250 giá trị như sau: 

*

Hình 3: Tập dữ liệu ví dụ của ngành bất động sản 

Để tạo một biểu đồ phân tán, hãy đánh dấu cả hai cột dữ liệu (bao gồm cả hàng tiêu đề).

Sau đó nhấp vào Insert > Chart

Ban đầu Google Sheets sẽ tạo ra một biểu đồ cột, một biểu đồ vô cùng tệ hại, trong đó mỗi hàng trong số 250 hàng của tập dữ liệu sẽ được thể hiện bằng 1 cột. Èo!

*

Hình 4: Sử dụng biểu đồ cột để thể hiện tập dữ liệu ví dụ

Để có thể chuyển đổi thành biểu đồ phân tán, chúng ta chỉ cần phải làm như sau. Trên menu các dạng biểu đồ, trong tab Data, chỉ cần chọn dạng biểu đồ phân tán (Scatter), như được hiển thị trong hình sau:

*

Hình 5: Thay đổi thành dạng biểu đồ phân tán trong Google Sheets

Và bạn đã có một biểu đồ phân tán đẹp mắt!

Bây giờ tôi muốn bạn tập trung vào một điểm duy nhất (được hiển thị bằng màu đỏ trong hình dưới đây):

*

Hình 6: Chú ý vào dữ liệu để tìm ra các giá trị trên 2 trục (trục tung là giá thành – trục hoành là diện tích)

See also  Cách dùng Can, Could và Be able to trong tiếng anh | Bostonenglish.edu.vn

Bạn có thể đọc ra một cặp giá trị, trong trường hợp này là 3.000 square feet (khoảng 300 mét vuông) và 3.750 đô la. Hai giá trị này cho chúng ta biết rằng có một điểm dữ liệu (đại diện cho một bất động sản được bán ở Manhattan) rộng 300 mét vuông và có giá bán là 3.750 đô la.

Xem thêm: Eco Drive Là Gì – Cách Phân Biệt Và Sử Dụng Ra Sao

Chúng ta có thể viết nó như một cặp tọa độ: (3.000, 3.750)

Do đó, mỗi dấu chấm, mỗi điểm dữ liệu trong biểu đồ của chúng ta thể hiện cho một cặp tọa độ thể hiện cho diện tích và giá thành của nó. Và mỗi điểm dữ liệu thể hiện cho một hàng trong tập dữ liệu ở trong bảng của chúng ta.

Đây chính là vẻ đẹp và giá trị thực sự của biểu đồ phân tán. Nó hiển thị tất cả các hàng dữ liệu đó trong một biểu đồ duy nhất, vì vậy chúng ta có thể biết được góc nhìn tổng thể của toàn bộ tập dữ liệu.

Phân tích biểu đồ phân tán (tìm mối tương quan)

Tất cả những điểm đó trên biểu đồ phân tán của bạn đều đẹp mắt và chúng đang cho thấy điều gì đó, nhưng cụ thể ý nghĩa là gì? Chúng ta còn có thể rút ra được điều gì khác từ biểu đồ ở trên không?

Chúng đang thể hiện xu hướng chung cho chúng ta.

Xem thêm: 127.0.0.1 Là Gì – Localhost Là Gì Sự Khác Biệt Giữa 127

Nhưng nếu chỉ nhìn các dấu chấm ở trong biểu đồ thì có vẻ khó nhận ra được xu hướng, bạn có thể thêm một đường biểu diễn xu hướng như sau (được thể hiện bằng màu đỏ):

*

Hình 7: Thêm đường xu hướng vào trong biểu đồ

Và thao tác vừa rồi đã làm cho biểu đồ chúng ta trở nên hữu ích hơn rồi!

Nó cho thấy mối tương quan của chúng ta là tỉ lệ thuận, xu hướng chung của bất động sản tăng, đây cũng chính là những gì mà chúng ta dự đoán. Khi diện tích của bất động sản tăng lên, thì giá bán của nó cũng vậy.

Bây giờ, nếu chúng ta muốn dự đoán giá bán cho một diện tích nhất định, chẳng hạn 4.500 square feet, chúng ta có thể sử dụng đường này, bắt đầu ở điểm 4.500 square feet trên trục hoành, tìm điểm giao trên đường xu hướng và sau đó chuyển sang trục tung và đọc giá trị:

*

Hình 8: Đọc giá trị của các điểm dữ liệu sử dụng đường xu hướng

Dựa vào đây, chúng ta có thể dự đoán rằng một bất động sản có diện tích 4500 square feet (khoảng 450 mét vuông) sẽ có giá trị là 5900 đô la. 

Và bạn cũng có thể đang thắc mắc rằng có cách nào khác để đưa ra các dự đoán như thế này dựa vào công thức không?

Chuyên mục: Hỏi Đáp

See more articles in the category: Wiki

Leave a Reply