ست نصائح من أجل إنشاء جداول بيانات أفضل
دورية Nature
2022-10-10 03:04
بقلم جيفري إم. بيركل
شهدت ستيفاني لابو بوصفها أمينة مكتبة لعلوم البيانات في جامعة كاليفورنيا في مدينة سان دييجو الأمريكية، ما يكفي من القصص المرعبة عن كوارث تطبيقات جداول البيانات. والقصة الباعثة على القدر الأكبر من الكوابيس في هذا السياق دارت حول كارثة صنعها جدول لإحداثيات نظام التموضع العالمي، يجري إدخال بياناته يدويًا.
قالت لابو مسترجعة أحداث هذه القصة: "لقد كانت كارثة مكتملة الأركان". إذ وضع علماء ضمن شبكة تعهيد جماهيري جدول البيانات ذاك. وتعبيرًا عن الإحداثيات به، استخدم البعض كلمة "درجة"، والبعض الآخر كتب الرمز º، والبعض الآخر كتب الرمز "0". كما استخدم البعض الرموز الفوقية والبعض الآخر لم يستخدمها. كذلك كتب البعض "شمالًا"، أو "غربًا"، أو لم يكتب كليهما. تعقيبًا على ذلك، تقول لابو: "نتحدث عن عشرات الآلاف من صفوف البيانات، التي جرى فيها توصيف خطوط العرض وخطوط الطول في كل مرة على نحو مختلف. فكان هذا جدول البيانات الأقل اتساقًا من بين ما رأيته من هذه الجداول".
ويتبنى علماء البيانات آراءً قوية فيما يخص استخدام جداول البيانات لتحليل البيانات. فبوجه عام، هم يفضلون لغات البرمجة مثل «آر» R و«بايثون» Python. فبالاستعانة بهذه اللغات، يكون توثيق التحليلات أيسر وأكثر قابلية لنسخه. بيد أن لابو تضيف أن العديد من الباحثين يجدون سهولة أكبر في استخدام جداول البيانات، والاستهزاء بهم لاستخدامهم لها يأتي بنتائج عكسية. ففي بعض الأحيان، تكون جداول البيانات أسرع طريقة لحل مشكلة ما، عندما لا يوجد حقيقةً خيار آخر لتوثيق البيانات المجدولة.
تتسم جداول البيانات بكونها تفاعلية؛ إذ تُحدَّث الخلايا التي تعتمد على خلايا أخرى تلقائيًا مع تغيُّر البيانات. ويمكن أن تكون مفيدة أيضًا في ضبط تنسيق كتابة البيانات على نحو ذكي، بهدف تيسير عملية قراءتها. فضلًا عن ذلك، هي متوفرة في كل مكان. من هنا، تريسي تيل، مديرة البرمجيات مفتوحة المصدر في شركة تطوير البرمجيات «آر ستوديو» RStudio، في مدينة بوسطن بولاية ماساتشوستس الأمريكية، تصف جداول البيانات قائلة: "إنها النقطة التي يبدأ منها علم البيانات".
إلا أن هذه الجداول أنها أكثر تعقيدًا مما تبدو عليه. فدالة حساب متوسط الأرقام في عمود بيانات، على سبيل المثال، يُتوقع أن تعود بقيمة خاطئة إذا فشلت صيغتها في احتساب نطاق البيانات المراد بدقة. والخلايا التي تبدو فارغة، قد لا تكون كذلك. ولا يعمل التنسيق التلقائي دائمًا على النحو المرجو منه. ولطالما وعى الباحثون إلى أن بعض الدراسات الجينومية تحتوي على بيانات مُضللة، لأن برنامج «إكسل» Excel حوَّل، بطريق الخطأ، بعض رموز الجينات، مثل OCT4، إلى تواريخ. كذلك وجد تحليل أُجريَّ لنحو 11,100 ورقة بحثية نُشِرَت بين عامي 2014 و2020 أن 31% منها لا يزال يتضمن أخطاءً من هذا القبيل (M. Abeysooriya et al. PLoS Comput. Biol. 17, e1008984; 2021).
ووفقًا لما كتبه في عام 2018، عالم البيانات كارل برومان، من جامعة ويسكونسن-ماديسون، وكارا وو، التي عملت آنذاك في جامعة واشنطن بمدينة سياتل الأمريكية: "ظلت جداول البيانات، رغم طبيعة جداولها المستطيلة المملة ، تثير المخاوف والتحفظات والجدل لعقود" (K. W. Broman and K. H. Woo Am. Stat. 72, 2–10; 2018).
وفيما يلي ست نصائح لاستخدامها بشكل صحيح.
اترك البيانات الأوَّلية دون تغيير
ساعدت كريستي باهلاي، اختصاصية علم التحليل الحوسبي للنظم البيئية، من جامعة ولاية كينت في ولاية أوهايو، في إعداد ورش عمل وتقديم دورات تدريبية حول أفضل الممارسات التي يمكن لعلماء البيئة اتباعها في إعداد جداول البيانات. وتقول إن أول ما تنصح به هو "الاحتفاظ بالبيانات الأوَّلية دون تغيير".
وتقول باهلاي إن جداول البيانات "واضحة"؛ فهي سهلة الاستخدام، ويمكن بديهيًا فهمها، والتحكم بها بيسر. من جهة أخرى، "يسهل إفسادها"، و"من السهل أن تغدو متابعة تحديثاتها مربكة". على سبيل المثال، يمكن للأخطاء في النقر بالفأرة أن تؤدي بالبيانات إلى المكان الخطأ. ويمكن أن تفضي دالة التنسيق التلقائي إلى إتلاف البيانات. علاوة على ذلك، يمكن أن يحتوي جدول البيانات على معلومات توضح كيفية تنظيم البيانات به، وهي معلومات قد لا تكون جلية من الوهلة الأولى. نتيجة لذلك، توصي باهلاي مستخدمي جداول البيانات بأن يجعلوا جدول البيانات الأصلي الخاص بهم وثيقةً للقراءة فقط، وأن يدخلوا البيانات الجديدة على نسخ منه، حتى يتسنى لهم البدء في إعداد جدول البيانات من جديد إذا لزم الأمر.
فتذكر باهلاي مرة ظلت تجد فيها أحرف مفردة في أحد أعمدة جدول البيانات، عندما بدأت معالجة البيانات. وتقول حول ذلك: "كنت أتساءل: ما معنى حرف Mالمذكور هنا؟ وما معنى حرف A؟". اتضح فيما بعد أن أحد أعضاء الفريق كان قد كتب عبارة "NO SAMPLE" (أي لا توجد عينة) عموديًا في أحد الأعمدة، بحيث يحتوي كل صف بيانات على حرف من العبارة، بموجب قرار لتنظيم شكل الجدول، واضح للقارئ البشري، لكن ليس للحاسوبات. وحينما فرزت باهلاي بيانات الجدول، تبعثر هذا الشكل التنظيمي. وتقول ضاحكة عن ذلك: "بدا هذا كلغز مربك. وفيما بعد أن أدركت أن هذه تهجئة لعبارة ما تحمل رسالة!".
اجعل البيانات قابلة للقراءة الحاسوبية
توفر جداول البيانات طيفًا واسعًا من خيارات التنسيق، بدءًا من تعيين حجم خط الكتابة، وصولًا إلى اختيار لون الخلفية، و شكل حدود الخلايا في جداول البيانات. ويمكن لـ"خواص إضفاء الجاذبية" الرقمية هذه أن تجعل الجدول مبهجًا وأكثر قابلية للقراءة. غير أنه عند استخدام الباحثين لخواص التنميق تلك لتشفير البيانات، قد يصطدمون بمشكلات.
فتقول ماين سيتينكايا روندل، خبيرة علم الإحصاء من جامعة ديوك في مدينة دورهام بولاية كارولاينا الشمالية: "[نصيحتي] التي أوصي بها فوق كل شيء هي عدم تشفير البيانات بالألوان أو بتنسيق كتابي محدد، وإنما القيام بذلك بإنشاء عمود آخر يمكن فرز البيانات به أو فلترتها".
ويرجع ذلك إلى أن تنسيق الخلية يصَعِّب على المستخدمين في المراحل التالية استخلاص المعلومات. حول ذلك، يقول دنكان جارمونسواي، المتخصص في علم البيانات من الخدمة الرقمية الحكومية البريطانية في مدينة لينكولن: "جميع الأدوات الإلكترونية المتاحة لعلماء البيانات لا تفهم البيانات التي يُعبر عنها في صورة تنسيق كتابي، وليس نص أو قيمة رقمية". ويُمكن أن يضيع التنسيق الكتابي في أثناء المعالجة الروتينية لجداول البيانات. وقد يجد الباحثون صعوبة في تذكر ما يمثله التنسيق عند عودتهم إلى جدول البيانات بعد شهور أو سنوات.
تعرَّض لويس فيردي أريجويتيا، اختصاصي علم الثدييات من معهد علوم البيئة (INECOL) في مدينة فيراكروز بالمكسيك، لتلك المشكلة عندما رجع إلى مجموعة قديمة من سجلات التنوع البيولوجي. حدد لويس الصفوف باللون الأصفر، أو البرتقالي، أو الأخضر، للإشارة إلى مستوى ثقته في البيانات. وفي ذلك الصدد، يقول: "في هذه اللحظة، لا أذكر بدقة حقيقةً نظام الترميز اللوني الذي كنت أستخدمه".
توخ السير على نهج واحد
يعتمد عمل أدوات تحليل البيانات على توقع بأن تأخذ جداول البيانات نسقًا معينًا؛ يتمثل في نَظْم عناوين الأعمدة في صفوف، مع عدم احتواء الجدول على خلايا مُدمَجة، وعدم احتواء كل صفحة إلا على جدول واحد. والوضع الأمثل هو ملء جميع الخلايا، حتى في حال عدم توفُّر بيانات حول ما تشير له الخلية (كملئها بعبارة "لا توجد بيانات"، على سبيل المثال)، وأن تحتوي كل خلية على جزء واحد محدد من البيانات. على سبيل المثال، تنصح تيل بأنه لجدولة البيانات من دراسة ميدانية لحساب عدد الحشرات، ينبغي استخدام أعمدة منفصلة لأنواع الحشرات، وأعمدة منفصلة لأعدادها، بدلًا من كتابة: "3 خنافس حمراء"، على سبيل المثال.
وتستطيع أدوات متخصصة فك غموض جداول البيانات التي تحيد عن التنسيق الأمثل. فعلى سبيل المثال، تعالج حزمة برمجيات «أنهيدَر» ’unheadr‘ التي يستخدمها الباحث فيردي أريجويتيا جداول البيانات التي تتضمن صفوفًا لتقسيم الجدول إلى مجموعات مختلفة، وهي صفوف يسميها فيردي "العناوين الفرعية المُضَمَّنة". وتوفر أداة «تيديكسِل» tidyxl التي يستخدمها جارمونسواي وحزمة «جداول بيانات جوجل 4» googlesheets4 التي تستخدمها جيني برايان عالمة البيانات من شركة «آر ستوديو» طرقًا لاستخلاص البيانات المرتبطة بتنسيق كتابي محدد.
وتقول لابو إن الأهم هو التزام نهج واحد في إعداد جداول البيانات؛ فينبغي تحديد النهج المتبع، وتوثيقه، والالتزام به. على سبيل المثال، كيف سيُشار إلى الأنواع؟ وكيف ينبغي إعداد التنسيق الكتابي للتواريخ؟ على سبيل المثال، هل "2/1/2022" تعني الأول من فبراير أم الثاني من يناير؟ في ذلك الصدد، يوصي معظم الخبراء إما باختيار صيغة سنة/شهر/يوم، وهي الصيغة القياسية التي وضعتها المنظمة الدولية للمعايير، أو تخصيص أعمدة منفصلة للسنة والشهر واليوم. وترى لابو أن استخدام أعمدة منفصلة، مع استخدام خاصية تحجيم نطاق البيانات المدخلة، المعروفة باسم data validation، "لا يترك مجالًا للغموض على الإطلاق". بيد أن برومان يحذر من أن فصل هذه الأعمدة يُصَعِّب حساب الفروق بين التواريخ.
وَثّق عملك
في الوقت الذي يمكن فيه حفظ نصوص البرامج والتحكم في إصداراتها، لا يمكن بوجه عام القيام بالمثل مع ضغطات المفاتيح ونقرات الفأرة. مع ذلك، يظل بإمكان مستخدمي جداول البيانات توثيق تحليلاتهم.
خصِّص جدول بيانات (أو علامة تبويب) ليخدم كـ"دفتر رموز" يوثق الاختصارات المستخدمة في التحليل، والكيفية التي جرى بها جمع البيانات، ووحدات القياس المستخدمة، وكيفية سيُعبر عن القيم المفقودة، والعمليات الحسابية المستخدمة، وأي بيانات وصفية لازمة لفهم جدول البيانات ومعالجته وحفظه. حول ذلك، تقول سيتينكايا روندل: "من الأهمية بمكان صياغة خارطة طريق لخطتك".
الخطوة التالية توضحها باهلاي قائلة: "اكتب الخطة التي اتبعتها في تحديث بياناتك". على سبيل المثال، ما وظيفة كل صيغة تستخدمها؟ وأي مصدر بيانات تعتمد عليه؟ إذ ستشعر بالندم، عندما تشرع في صياغة المقاربة التي استخدمتها وتجد نفسك تتساءل: كيف حسبت هذا المتوسط؟". (في هذا السياق، تشير فيلين هيرمانز، اختصاصية علم الحاسوب من جامعة لايدن في هولندا إلى أنه يمكن استخدام خاصية «التدقيق» Audit في برنامج «إكسل» Excel، للاطلاع على سير تحديث البيانات من خلال الصيغة التي تقوم عليها الخاصية).
أسس لعملية تدقيق مرجعية للتحقق من صحة البيانات
في كثير من الأحيان، يضيف اختصاصيو تحليل البيانات عمليات تدقيق مرجعية للتأكد من أن كود معالجة البيانات يحقق الغرض المأمول منه. وتقول هيرمانز إن مستخدمي جداول البيانات بإمكانهم اتخاذ إجراءات مماثلة.
على سبيل المثال، في دراسة تجرى بعينات لحالتين ومجموعة مقارنة، ينبغي أن يكون العدد الإجمالي للقيم في المجموعتين، مساويًا لعدد العينات دائمًا. وعلى أضعف التقديرات، تضمن عملية التدقيق المرجعية هذه أن الخلايا التي يُعتقد أنها فارغة تكون كذلك بالفعل. وتوضح هيرمانز ذلك قائلة: "التأسيس لعمليات التدقيق المرجعية هذه للتحقق من صحة كل البيانات، هو في الواقع فكرة جيدة حقًا".
يمكنك أيضًا "حماية" أجزاء من جدول البيانات من التعديلات، واستخدام خاصية تحجيم نطاق البيانات المدخلة، للتأكد من احتواء أعمدة التَّواريخ على تواريخ صحيحة، أو أن الأرقام تقع ضمن نطاقات معينة، أو أن حقول النصوص تتضمن المصطلحات المرجوة. وبدلًا من ذلك، تشير سيتينكايا روندل إلى إمكان استخدام نماذج إدخال البيانات (مثل نماذج جوجل Google) بدلًا من تحرير جدول البيانات مباشرةً. فبتلك الطريقة، يُمكِن التحقق من صحة القيم مع إدخالها، ولا يُترك مجال لإجراء المستخدمين تعديلات على الوثيقة بطريق الخطأ. وختامًا، تنصح تيل في هذا الصدد بالتحقق بعناية من صحة الإجراءات المستخدمة في إعداد جداول البيانات. وتشير إلى أن تحليل البيانات غالبًا ما يتسم بالتكرارية. وتوضح ذلك قائلة: "لا يمكنك خوض هذه العملية بنية وضع المعادلات، والفروغ منها ببساطة". فما أن تستقر على سير عمل محدد، أعد ضبط إجراءاتك، وابدأ من جديد، وتأكد فحسب من أن لديك الإجابات التي حسبت أنك تملكها.
فَكِّر مسبقًا
النبأ السار في هذا الصدد هو أنه بإمكان علماء البيانات عمومًا التلاعب بجداول البيانات بصرف النظر عن تنسيقها. فيقول برومان: "من المبادئ الأساسية التي أتبناها كمحلل بيانات، هي أنه إذا سألني شخص ما عن الشكل الذي أود أن تظهر به البيانات، أحرص على أن يكون جوابي هو: في شكلها الحالي. فإذا تطلبت البيانات إعادة تنظيم أو تغيير بطريقة ما، يتاح لي ذلك بمنتهى السهولة". إلا أن لابو ترى أنه من الأفضل التفكُّر في ما تأمَل في تحقيقه ببياناتك، قبل إنشاء جدول بيانات في المقام الأول. على سبيل المثال، ما المتغيرات والمتغيرات المشتركة التي ستستخدمها؟ وما الأطر الزمنية التي تحتاج لتوثيقها؟ وما التحليلات التي ستجريها؟ وتقول: "التفكير في ذلك مبكرًا هو من أفضل الخطوات التي يمكن القيام بها".
ويضيف جارمونسواي أنه عليك استشارة شركائك في التعاوُن البحثي. ويقول إن قواعد تنظيم البيانات "ليست قاطعة في أي مكان". ويستطرد قائلًا: "لم يكتشف الفيزيائيون هذه القواعد بين القوانين الأساسية للكون. فقد نشأت بسبب صعوبات العمل مع الآخرين. فإن أنشأت جداول بيانات من تلك التي يمكن التشارُك في تحديثها، فعلى الأرجح أنها ستكون مفيدة للآخرين، لأنها تفيد من التو أشخاصًا سواك".