بلاگ

ماتریس همبستگی (Correlation) چیست؟

ماتریس همبستگی

در ماتریس همبستگی (Correlation Matrix)، متغیرهای ما همان ویژگی (Feature) های مجموعه داده هستند. برای مثال در اینجا قصد داریم داده‌های میدان آزادگان را بررسی کنیم. در این بررسی هر چاه، ۷ ویژگی دارد که ۵ سطر اول مجموعه داده‌ها در زیر نمایش داده شده است:

جهت محاسبه ماتریس همبستگی برای این مجموعه داده، از کد زیر در پایتون استفاده می‌کنیم:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

dataset = pd.read_excel(“F:/Promizer/Azn.xlsx”)

print(dataset.head())

import seaborn as sb
corr = dataset.corr()
sb.heatmap(corr, annot=True, xticklabels=corr.columns.values, yticklabels=corr.columns.values)

plt.savefig(‘weight_chart_dpi.png’, bbox_inches=’tight’, dpi=300)

پس از اجرای این کد، شکل اول صفحه نمایش داده می‌شود که همان ماتریس همبستگی می‌باشد.

این یک ماتریس است که ۷ سطر و ۷ ستون دارد و متقارن می‌باشد. دقت کنید که تعداد سطر و ستون‌ها برابر تعداد ویژگی‌های مجموعه داده است. هر کدام از خانه‌ها با رنگی مشخص شده‌اند که در بازه منفی ۱ تا مثبت ۱ قرار دارند. هرچه این عدد به منفی یک نزدیک‌تر باشد به این معنی است که دو ویژگی (در محل تقاطع آن دو عدد) با همدیگر ارتباط معکوس دارند و هرچقدر این عدد به مثبت یک نزدیک‌تر باشد یعنی دو ویژگی با همدیگر ارتباط مستقیم دارند.

قطر اصلی این ماتریس برابر ۱ هست زیرا هر ویژگی با خودش طبیعتاً همبستگی حداکثری دارد.

برای مثال در شکل بالا، تراوایی مغزه (Permeability_Core) با تخلخل (poro fraction) همبستگی مثبت (۰.۵۸) دارد و با رنگ نارنجی مشخص شده است. این نشان می‌دهد که با افزایش تخلخل موثر، تراوایی نیز افزایش می‌یابد.

نکته: پارامتر annot=True باعث می‌شود که اعداد همبستگی در داخل هر سلول نوشته شود.

نکته: برای مشاهده اثر پارامتر bbox_inches=’tight’ بر روی شکل نمودار، یک بار این پارامتر را وارد نکنید و شکل را ذخیره نمایید.

دیدگاهتان را بنویسید