يعد العثور على النسبة المئوية لقيم "NAN" (وليس رقمًا) في مجموعة البيانات خطوة حاسمة في المعالجة المسبقة للبيانات وتحليلها. كمورد للمنتجات عالية الجودة المتعلقة بأجهزة الشبكة ، بما في ذلكXPON 1GE 1GE 1GE VOIP CAVT WIFI44وXPON ONU 1GE 3FE VOIP wifi4، وXPON ONU 4GE WIFI5 AC1200، أنا أفهم أهمية معالجة البيانات الدقيقة في مختلف المجالات. في هذه المدونة ، سأشارك بعض الأساليب العملية لحساب النسبة المئوية لقيم "نان" في مجموعة البيانات.
فهم أهمية قيم "نان"
قبل الغوص في طرق الحساب ، من الضروري فهم سبب أهمية قيم "النان". في تحليل البيانات ، يمكن أن تمثل قيم "NAN" البيانات المفقودة أو الأخطاء في جمع البيانات أو القيم التي لا تنطبق. يمكن أن يؤدي تجاهل هذه القيم إلى نتائج إحصائية غير دقيقة ونماذج متحيزة وتنبؤات غير موثوقة. على سبيل المثال ، في مجموعة بيانات المبيعات ، قد تشير قيم "NAN" إلى مفقودة أرقام المبيعات لبعض المنتجات أو الفترات الزمنية. إذا لم يتم حساب هذه القيم بشكل صحيح ، فقد يكون تحليل المبيعات الإجمالي مضللاً.
المتطلبات الأساسية
لحساب النسبة المئوية لقيم "نان" ، ستحتاج إلى مجموعة بيانات ولغة برمجة مع إمكانيات معالجة البيانات. Python هو خيار شائع بسبب مكتباتها الواسعة مثل Pandas و Numpy. إليك خطوة - بواسطة - دليل الخطوة حول كيفية تنفيذ هذا الحساب باستخدام Python.
الخطوة 1: استيراد المكتبات اللازمة
أولاً ، تحتاج إلى استيراد مكتبات الباندا والمكتبات. يستخدم Pandas لمعالجة البيانات وتحليلها ، بينما يوفر Numpy الدعم للمصفوفات والمصفوفات الكبيرة ذات الأبعاد الكبيرة.
استيراد الباندا كأسلوب pd numpy مثل np
الخطوة 2: تحميل مجموعة البيانات
افترض أن لديك مجموعة بيانات في ملف CSV. يمكنك تحميله باستخدامread_csvوظيفة في الباندا.
data = pd.read_csv ('your_dataset.csv')
الخطوة 3: حساب العدد الإجمالي للقيم في مجموعة البيانات
لحساب النسبة المئوية لقيم "نان" ، تحتاج أولاً إلى معرفة إجمالي عدد القيم في مجموعة البيانات. يمكنك استخداممقاسسمة من DataFrame.


Total_values = data.size
الخطوة 4: حساب عدد قيم "نان"
يوفر Pandas طريقة مريحة لحساب عدد قيم "Nan" في نظام البيانات. يمكنك استخدامهو ()طريقة لإنشاء قناع منطقي ثم تلخيص كلحقيقيقيم.
nan_values = data.isna () sum () sum ().
الخطوة 5: حساب النسبة المئوية لقيم "نان"
الآن بعد أن أصبح لديك إجمالي عدد القيم وعدد القيم "NAN" ، يمكنك حساب النسبة المئوية.
النسبة المئوية _nan = (nan_values / total_values) * 100 طباعة (f "النسبة المئوية لقيم" nan 'في مجموعة البيانات {النسبة المئوية} ٪ "))
التعامل مع هياكل البيانات المختلفة
تعمل الطريقة أعلاه بشكل جيد للبيانات الجدولية في Pandas DataFrame. ومع ذلك ، إذا كنت تعمل مع صفيف numpy ، فإن العملية مختلفة قليلاً.
استيراد numpy كـ np # إنشاء نموذج صفيف numpy = np.array ([1 ، np.nan ، 3 ، np.nan ، 5]) = (nan_elements / total_elements) * 100 طباعة (f "النسبة المئوية لقيم" nan "في صفيف numpy هي {النسبة المئوية_nan_array} ٪")
تصور قيم "نان"
يمكن أن يوفر التصور فهمًا أفضل لتوزيع قيم "نان" في مجموعة البيانات. يمكنك استخدام مكتبات مثل Matplotlib أو SeaBorn لإنشاء خرائط الحرارة أو المخططات الشريطية.
استيراد SeaBorn كما sns استيراد matplotlib.pyplot كما plt # قم بإنشاء خريطة حرارة من قيم "nan" sns.heatmap (data.isna () ، cbar = false) plt.title ('توزيع قيم nan') plt.show ()
التعامل مع نسب مئوية عالية من قيم "نان"
إذا كانت النسبة المئوية لقيم "نان" عالية ، فأنت بحاجة إلى تحديد كيفية التعامل معها. تشمل بعض الاستراتيجيات الشائعة:
- إزالة الصفوف أو الأعمدة: إذا كان صف أو عمود يحتوي على عدد كبير من قيم "Nan" ، فيمكنك التفكير في إزالته. ومع ذلك ، قد يؤدي هذا النهج إلى فقدان المعلومات القيمة.
- التضمين: يمكنك ملء القيم "nan" بالقيم المناسبة مثل الوسط أو الوسيط أو وضع القيم غير النانوية في نفس العمود.
# فرض قيم "نان" مع mean data.fillna (data.mean () ، inplace = true)
خاتمة
يعد حساب النسبة المئوية لقيم "nan" في مجموعة البيانات خطوة مهمة في تحليل البيانات. يساعدك على فهم جودة بياناتك وتحديد كيفية التعامل مع القيم المفقودة. كمورد لأجهزة الشبكة مثلXPON 1GE 1GE 1GE VOIP CAVT WIFI44وXPON ONU 1GE 3FE VOIP wifi4، وXPON ONU 4GE WIFI5 AC1200، نحن نتفهم أهمية البيانات الدقيقة في تحسين أداء الشبكة واتخاذ قرارات تجارية مستنيرة.
إذا كنت مهتمًا بمنتجاتنا أو لديك أي أسئلة حول تحليل البيانات في سياق إدارة الشبكة ، فلا تتردد في الاتصال بنا للمشتريات والمزيد من المناقشات. نحن هنا لتزويدك بأفضل الحلول لاحتياجاتك.
مراجع
- ماكيني ، دبليو (2017). Python لتحليل البيانات: البيانات المشاحبة مع pandas ، numpy ، و ipython. O'Reilly Media.
- Vanderplas ، J. (2016). كتيب علم بيانات بيثون: الأدوات الأساسية للعمل مع البيانات. O'Reilly Media.
