ماتریس همبستگی (Correlation) چیست؟
در ماتریس همبستگی (Correlation Matrix)، متغیرهای ما همان ویژگی (Feature) های مجموعه داده هستند. برای مثال در اینجا قصد داریم دادههای میدان آزادگان را بررسی کنیم. در این بررسی هر چاه، ۷ ویژگی دارد که ۵ سطر اول مجموعه دادهها در زیر نمایش داده شده است:
جهت محاسبه ماتریس همبستگی برای این مجموعه داده، از کد زیر در پایتون استفاده میکنیم:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
dataset = pd.read_excel(“F:/Promizer/Azn.xlsx”)
print(dataset.head())
import seaborn as sb
corr = dataset.corr()
sb.heatmap(corr, annot=True, xticklabels=corr.columns.values, yticklabels=corr.columns.values)
plt.savefig(‘weight_chart_dpi.png’, bbox_inches=’tight’, dpi=300)
پس از اجرای این کد، شکل اول صفحه نمایش داده میشود که همان ماتریس همبستگی میباشد.
این یک ماتریس است که ۷ سطر و ۷ ستون دارد و متقارن میباشد. دقت کنید که تعداد سطر و ستونها برابر تعداد ویژگیهای مجموعه داده است. هر کدام از خانهها با رنگی مشخص شدهاند که در بازه منفی ۱ تا مثبت ۱ قرار دارند. هرچه این عدد به منفی یک نزدیکتر باشد به این معنی است که دو ویژگی (در محل تقاطع آن دو عدد) با همدیگر ارتباط معکوس دارند و هرچقدر این عدد به مثبت یک نزدیکتر باشد یعنی دو ویژگی با همدیگر ارتباط مستقیم دارند.
قطر اصلی این ماتریس برابر ۱ هست زیرا هر ویژگی با خودش طبیعتاً همبستگی حداکثری دارد.
برای مثال در شکل بالا، تراوایی مغزه (Permeability_Core) با تخلخل (poro fraction) همبستگی مثبت (۰.۵۸) دارد و با رنگ نارنجی مشخص شده است. این نشان میدهد که با افزایش تخلخل موثر، تراوایی نیز افزایش مییابد.
نکته: پارامتر annot=True باعث میشود که اعداد همبستگی در داخل هر سلول نوشته شود.
نکته: برای مشاهده اثر پارامتر bbox_inches=’tight’ بر روی شکل نمودار، یک بار این پارامتر را وارد نکنید و شکل را ذخیره نمایید.
مطالب زیر را حتما مطالعه کنید
1 Comment
Join the discussion and tell us your opinion.
بسیار عالی،خلاصه،مفید و کابردی