Tính hệ số tương quan

Phân tích tương quan Pearson r (cung cấp cho một hệ số đối sánh tương quan Pearson, được ký hiệu là r) là thước đo độ mạnh mẽ của mối links tuyến tính thân hai biến. Về cơ bản, sự đối sánh Pearson cố gắng vẽ một đường tương xứng nhất thông qua dữ liệu của hai đổi mới và hệ số đối sánh tương quan Pearson, r, cho biết thêm khoảng cách toàn bộ các điểm tài liệu này mang lại đường phù hợp nhất này (tức là các điểm tài liệu này giỏi như ráng nào với quy mô / đường mới cân xứng nhất).

Bạn đang xem: Tính hệ số tương quan

1. Bao giờ sử dụng?

Phân tích tương quan Pearson, r, hoàn toàn có thể được thực hiện làm ước lượng chủng loại cho đối sánh dân số, ρ (rho). Nó là 1 trong chỉ số không có thứ nguyên về mối quan hệ tuyến tính giữa hai biến hóa ngẫu nhiên, giá bán trị bằng 0 có nghĩa là không có mối quan hệ tuyến tính giữa các biến và giá trị bởi 1 cho thấy thêm mối quan liêu hệ con đường tính hoàn hảo. Nếu mối đối sánh tương quan là âm, có nghĩa là giá trị tăng trên một phát triển thành được kết hợp với giá trị giảng trên biến chuyển kia. Cực hiếm của r có thể biến hóa giữa −1 và +1 bất kỳ kích thước đo lường và thống kê của hai biến.

Tương quan lại Pearson, r, cần được xem là một thống kê thể hiện (descriptive statistic) lúc một nhà phân tích muốn định lượng mức độ của quan hệ tuyến tính giữa những biến. Một tương quan tham số sẽ thích hợp bất cứ khi nào các phép đo định lượng được triển khai đồng thời trên nhị hoặc những biến, mối quan hệ giữa hai trở thành là đường tính và cả hai vươn lên là đều được cung cấp chuẩn. Các mối đối sánh tương quan phải luôn được chất vấn trước khi tiến hành các phân tích nhiều biến tinh vi hơn, chẳng hạn như phân tích nhân tố (factor analysis) hoặc so sánh thành phần chính (principal component analysis). Cường độ của quan hệ tuyến tính thân hai biến chuyển số hoàn toàn có thể khó nhận xét từ biểu thiết bị phân tán và hệ số tương quan hỗ trợ một bạn dạng tóm tắt gọn gàng hơn. Mặc dù nhiên, sẽ không còn khôn ngoan nếu cố gắng tính toán mối tương quan khi biểu trang bị phân tán diễn tả một mối quan hệ phi tuyến đường tính rõ ràng. Lúc 1 nhà nghiên cứu suy nghĩ cả mức khoảng tầm rộng và chân thành và ý nghĩa của một mối tương quan thì r được sử dụng theo phong cách suy diễn như một mong lượng của mối đối sánh tương quan dân số, ρ (rho).

Công thức tính hệ số đối sánh tương quan Pearson trong hai biến x và y trường đoản cú n chủng loại như sau:

*

2. Giả thuyết vô hiệu hóa và suy luận thống kê

Khi cầu lượng size của mối đối sánh dân số, bạn có thể muốn bình chọn xem nó có chân thành và ý nghĩa thống kê giỏi không. Giả thuyết vô hiệu hóa là H0: ρ = 0, nghĩa là, đổi thay X không tương quan tuyến tính với đổi thay Y. Mang thuyết sửa chữa là H1: ρ ≠ 0. đưa thuyết vô hiệu là 1 phép kiểm tra xem có ngẫu nhiên mối quan liêu hệ cụ thể nào giữa các biến X với Y hoàn toàn có thể phát sinh một cách vô tình hay không. Trưng bày mẫu của r là không chuẩn chỉnh khi đối sánh dân số lệch ngoài 0 và khi khuôn khổ mẫu bé dại (n Fisher’s z.

3. Các giả định thống kê

Trong một trong những sách thống kê giành cho các nhà kỹ thuật xã hội, fan ta xác minh rằng để thực hiện mối đối sánh Pearson, cả hai trở nên phải gồm phân phối chuẩn, nhưng trong số văn bản khác, nó bảo rằng phân phối của cả hai biến đề nghị đối xứng (symmetrical) và đơn phương (unimodal) tuy nhiên không độc nhất thiết buộc phải chuẩn. Những chủ ý này gây hoang mang và sợ hãi lớn cho những nhà nghiên cứu và phân tích và cần được gia công rõ. Nếu như thống kê đối sánh tương quan chỉ được áp dụng cho mục đích mô tả thì không quan trọng phải sử dụng những giả định chuẩn về bề ngoài (form) của bày bán dữ liệu. Những giả định tuyệt nhất được yêu ước là:

các phép đo định lượng (mức khoảng hoặc mức xác suất của phép đo) được tiến hành đồng thời trên nhị hoặc nhiều đổi mới ngẫu nhiên. Có nghĩa là hai biến đề nghị được tính toán trên thang đo khoảng tầm hoặc tỷ lệ. Tuy nhiên, cả nhị biến không cần phải được đo lường và thống kê trên cùng một thang đo (ví dụ, một biến hoàn toàn có thể là phần trăm và một rất có thể là khoảng).các phép đo bắt cặp cho mỗi đối tượng (ví dụ, mọi cá nhân tham gia) là độc lập. Ví dụ, các bạn đã thu thập thời gian ôn tập (tính bởi giờ) và kết quả thi (đo tự 0 cho 100) trường đoản cú 100 sinh viên được mang mẫu đột nhiên tại một trường đại học (tức là bạn có hai biến hóa liên tục: “thời gian ôn tập” và “kỳ thi hiệu suất”). Mỗi cá nhân trong số 100 sinh viên sẽ sở hữu được một quý giá về thời gian ôn tập (ví dụ: “sinh viên số 1” sẽ học vào “23 giờ”) và kết quả bài chất vấn (ví dụ: “sinh viên số 1” đạt “81/100”). Do đó, các bạn sẽ có 100 giá trị được ghép nối.

Các hiệu quả thu được sẽ trình bày mức độ mà mối quan hệ tuyến tính được vận dụng cho dữ liệu mẫu.

Ngoài ra, yêu cầu nhận xét không nguy hiểm về việc thực hiện r. Đây chưa hẳn là gần như giả định ngặt nghèo nhưng trong những tình huống nghiên cứu và phân tích điển hình lúc r hoặc là cần được lý giải một bí quyết thận trọng, hoặc không nên sử dụng.

Khi phương không đúng của nhị thước đo siêu khác nhau, thường liên quan đến các phạm vi khác biệt hoặc hoàn toàn có thể là một phạm vi giới hạn cho một biến, thì mối đối sánh mẫu đã bị ảnh hưởng. Ví dụ: trường hợp một đổi thay bị tinh giảm phạm vi, (một phần của phạm vi điểm số không được áp dụng hoặc không phù hợp) thì điều này sẽ có được xu phía làm giảm (thấp hơn) mối đối sánh tương quan giữa nhị biến.Khi có các giá trị ngoại lệ, r yêu cầu được lý giải một biện pháp thận trọng.Khi các quan gần kề được lấy từ một đội nhóm không nhất quán (heterogeneous). Nếu giỏi nhất, tài liệu nên là đồng tuyệt nhất (homoscedasticity). Đồng độc nhất trong tương quan có nghĩa là các phương không nên dọc theo mặt đường của sự tương xứng nhất vẫn tương tự khi dịch rời dọc theo đường. Nếu những phương sai không giống nhau thì tất cả phương sai biến đổi (hay còn gọi heteroscedasticity). Đồng độc nhất (hay độ co giãn đồng nhất) được thể hiện dễ dàng nhất bằng sơ đồ, như hình dưới đây:

*

Khi tài liệu thưa thớt (có quá ít số đo), r tránh việc được sử dụng. Với thừa ít giá chỉ trị, chẳng thể nói liệu quan hệ hai biến tất cả tuyến tính xuất xắc không. đối sánh tương quan Pearson r là phù hợp nhất cho những mẫu lớn hơn (n> 30).Không buộc phải sử dụng đối sánh tương quan r khi các giá trị bên trên một trong những biến sẽ được cố định trước.

4. Phân tích đối sánh tương quan Pearson r trong SPSS

Ví dụ, một nhà nghiên cứu muốn biết liệu kết quả kỳ thi viết cuối kì môn Toán giải thích có đối sánh với thời gian ôn tập cuối kì của những sinh viên xuất xắc không. Có 20 sinh viên được mời gia nhập một cuộc test nghiệm, kể từ khi bài học của môn Toán giải tích kết kết mang đến ngày thi cuối kì, họ được đề nghị ghi lại tổng thời gian ôn bài (cộng dồn của từng ngày) giành cho môn Toán. Xong xuôi kì thi, nhà phân tích thu thập điểm số của đôi mươi sinh viên này theo thang điểm 100, cùng tổng phù hợp theo bảng bên dưới đây.

*

Hai thắc mắc nghiên cứu được xem như xét: i) Điểm thi viết cuối kì môn Toán phân tích và lý giải có tương quan tuyến tính với thời gian ôn tập của các sinh viên hay không? và ii) số giờ ôn tập của những sinh viên có tương quan tuyến tính với điểm thi viết cuối kì môn Toán phân tích và lý giải hay không?

Các bước dưới đây hướng dẫn họ cách phân tích tương quan Pearson r trong những thống kê SPSS.

Xem thêm: Xem Phim Ngọn Gió Đông Năm Ấy Tập 16 /16 Vietsub, Gió Đông Kết Thúc Bằng Nụ Hôn Giữa Hoa Anh Đào

– bước 1: chất vấn biểu đồ phân tán tế bào tả quan hệ giữa nhì biến. Xin vui mừng đọc bài cách vẽ biểu đồ gia dụng phân tán. Hiệu quả vẽ biểu đồ phân tán được trình bày trong hình dưới đây.

*

Nhận xét: Biểu thứ scatter thân Điểm thiÔn tập nhắc nhở xu hướng sát đúng đường tính, cơ mà cỡ mẫu mã là nhỏ tuổi để quan tiền sát cụ thể một con đường tuyến tính. Vào thực tế, họ cần một kích thước mẫu bự hơn, tối thiểu n > 30. Biểu đồ dùng này cũng cho biết thêm một quan gần cạnh ngoại lệ rất ví dụ (điểm gần quý hiếm 4 sống trục hoành).

– bước 2: khi biểu đồ gia dụng phân tán dự đoán mối quan tiền hệ đường tính, chúng ta tiến hành phân tích đối sánh tương quan Pearson r. Click Analyze-> Correlate -> Bivariate…

*

– cách 3: Trong vỏ hộp thoại Bivariate Correlations, bọn họ chuyển những biến cần kiểm tra tương quan với nhau vào hộp Variables. Chú ý check vào vỏ hộp Pearson vào vùng Correlation Coefficients. Kế tiếp nhấp OK nhằm chạy kết quả.

*

Phân tích kết quả:

Bảng Correlations trình bày hệ số đối sánh tương quan Pearson r, giá bán trị ý nghĩa p của chính nó và kích cỡ mẫu được tính toán. Trong lấy một ví dụ này, bạn có thể thấy rằng hệ số đối sánh tương quan Pearson, r, là 0.78 cùng nó có chân thành và ý nghĩa thống kê (p = 0.000).

*

Chúng ta có thể viết báo cáo rằng, một tương quan Pearson đã được chạy để khẳng định mối quan tiền hệ tuyến tính thân Điểm thi viết cuối kì môn Toán phân tích và lý giải và thời gian ôn tập của những sinh viên. Kết quả cho thấy thêm có mối đối sánh tương quan thuận thân Điểm thi viết cuối kì môn Toán lý giải và thời gian ôn tập của các sinh viên (r = 0.780, n = 20, phường = 0.000).

– bước 4: Kiểm tra ý nghĩa của hệ số đối sánh r

Một khi mối tương quan đã được tính toán, công ty nghiên cứu hoàn toàn có thể muốn biết năng lực xảy ra mối đối sánh thu được này như thế nào, nghĩa là, đây tất cả phải là sự việc xuất hiện vô tình hay nó đại diện thay mặt cho mối đối sánh tương quan dân số xứng đáng kể?

Để thực hiện việc này, r được đưa đổi, và tỷ lệ của hình thức ước lượng này dựa vào phân phối mẫu của những thống kê t (t-statistic). bởi vì đó, chân thành và ý nghĩa của một hệ số đối sánh Pearson chiếm được được tấn công giá bằng cách sử dụng phân phối t (t-distribution) với n − 2 bậc tự do (df) và được cho do phương trình sau:

*

Giả thuyết vô hiệu được kiểm định là hai trở thành độc lập, có nghĩa là không có mối quan hệ tuyến tính thân chúng, H0: ρ = 0. đưa thuyết sửa chữa là, H1: ρ ≠ 0.

Để vấn đáp câu hỏi, tất cả mối đối sánh đáng nhắc nào, ở tại mức 5%, thân điểm Điểm thi viết cuối kì môn Toán phân tích và lý giải và số giờ ôn tập của những sinh viên không? t sẽ tiến hành tính như sau:

*

Tra bảng tới hạn của quý hiếm t (critical t-value) thu được giá trị là 2.101. Thống kê soát sổ t là vượt quá cực hiếm tới hạn này, (5.433 > 2.101), và vì vậy giả thuyết loại bỏ bị chưng bỏ. Chúng ta kết luận rằng mối đối sánh có chân thành và ý nghĩa ở nút 5%.

– cách 5: bình chọn khoảng tin cẩn của hệ số đối sánh r

Khoảng tin cậy là phụ thuộc một sự biến hóa thống kê r thành những thống kê Fisher’s z. Điều này không giống hệt như độ lệch Z (Z-deviate) đối với phân phối chuẩn (đôi lúc được gọi là vấn đề Z). Để diễn giải khoảng tầm tin cậy, điểm số Fisher’s z nên được biến hóa trở lại số liệu tương quan. Fisher’s z được reviews là:

Khoảng tin yêu (95%) mang đến mối tương quan lưỡng biến giữa Điểm thi viết cuối kì môn Toán giải thích và khoảng thời gian ôn tập của các sinh viên được xem bằng công thức:

*

Công thức chuyển đổi Fisher’s Z được định nghĩa là:

*

Áp dụng các công thức trong ví dụ như (với r = 0.78), ta có:

*

Khoảng tin cẩn (95%):

*

= 0.57 cho 1.52

Các quý hiếm này hiện nay phải được thay đổi trở lại số liệu ban đầu.

*

Nhận xét: bạn có thể kết luận rằng bọn họ chắc chắn 95% rằng mối đối sánh dân số là dương và nằm trong vòng 0.515 mang lại 0.909. Khoảng tin yêu này không bao gồm giá trị 0, điều này cho biết thêm mối đối sánh tương quan có ý nghĩa thống kê ở tầm mức 5%.

Tài liệu tham khảo