كيف يمكن استخراج بيانات جيدة باستخدام أدوات استخلاص البيانات؟
دورية Nature
2022-09-26 06:24
بقلم: مايكل آيزنشتاين
عندما تعاون إنشنج دونج مع زملاء آخرين في إنشاء لوحة للمعلومات الخاصة بمرض «كوفيد-19» في جامعة جونز هوبكنز في يناير من عام 2020، كانت مهمة شاقة لكن محببة إلى قلبه. يعمل دونج، مهندس أنظمة بفرع الجامعة في مدينة بالتيمور بولاية ميريلاند الأمريكية. وقد كانت الصين، وكذلك مدينة ووهان الصينية التي كانت مسرحًا لأولى فاشيات الجائحة، محل إقامة عدد من أصدقائه وأفراد أسرته آنذاك. حول ذلك، يقول دونج: "أردت بشدة أن أكون على اطلاع بما يجري في المنطقة التي يقطن بها أقربائي". من هنا، بدأ في جمع بيانات متعلقة بالصحة العامة في المدن التي وردت إفادات بأن الجائحة ضربتها.
وفي البداية، جمع الفريق المعلومات يدويًا. بيد أنه عندما تحولت الفاشية إلى جائحة، وصارت لوحة المعلومات مرجعًا لعدد من الحكومات والعلماء الساعين نحو الحصول على معلومات حول انتشار مرض «كوفيد-19»، واجه دونج وزملاؤه صعوبة في مواكبة ذلك التحول. ففي الولايات المتحدة وحدها، على حد قول دونج، كان الفريق يتابع التقارير الطبية الواردة من أكثر من ثلاثة آلاف مقاطعة. ويقول مسترجعًا أحداث تلك الفترة: "كنا نجري تحديثات على لوحة المعلومات بواقع ثلاث إلى أربع مرات يوميًا، على الأقل". وكان استخدام الطرق اليدوية لمواكبة وتيرة مهمة تحديث هذه المعلومات التي لا تنفك عن التدفق ضرب من المستحيل. بيد أنه لحسن الحظ، وجد دونج والقائمة على توجيهه في دراساته العليا، مهندسة الأنظمة لورين جاردنر، حلاً يتيح للفريق مواكبة هذا التدفق المتزايد للمعلومات، يتمثل في أدوات استخلاص البيانات من صفحات الويب.
تتولى الخوارزميات التي تستخدمها هذه الأدوات استخراج المعلومات ذات الصلة من مواقع الويب، ونقلها في جداول بيانات، أو في أية صيغة أخرى سهلة الاستخدام. وقد طور دونج وزملاؤه نظامًا يمكنه استخلاص البيانات المتعلقة بمرض «كوفيد-19» من جميع أنحاء العالم، وتحديث الإحصائيات المتعلقة بالمرض دون أي تدخل بشري. ويقول دونج عن ذلك: "للمرة الأولى في تاريخ البشرية، صرنا قادرين على أن نرصد أولًا بأول تطورات ومستجدات جائحة عالمية".
تتولى أدوات مماثلة جمع البيانات في طيف من المجالات المعرفية. على سبيل المثال، يستخدم أليكس لاسكومب، المتخصص في علم الجريمة من جامعة تورنتو في كندا، تقنية استخلاص المعلومات من شبكة الإنترنت لمراقبة ممارسات جهات إنفاذ القانون الكندية. كما يرصد فيل كايسي، المتخصص في بيولوجيا الحفاظ على الأنواع من جامعة أديلايد في أستراليا، حركة الإتجار في الأحياء البرية على مستوى العالم عبر منتديات على الإنترنت. أما جورجيا ريتشاردز، اختصاصية علم الأوبئة من جامعة أكسفورد بالمملكة المتحدة، فتستخدم أدوات استخلاص بيانات الويب لإجراء مسح لتقارير الأطباء الشرعيين بحثًا عن أسباب الوفاة التي يمكن درؤها. وتجدر الإشارة هنا إلى أن المهارات التقنية المطلوبة لاستخدام تلك الأدوات ليست بالبسيطة ولا التافهة، بيد أنها أيضا ليست جمة الصعوبة ولا يستحيل اكتسابها، ويمكن أن تكون ذات مردود ضخم، إذ تمكن الباحثين من جمع كميات كبيرة من البيانات، بسرعة بالغة دون الوقوع في الأخطاء التي ينطوي عليها النسخ اليدوي للبيانات. تعقيبًا على ذلك، تقول ريتشاردز: "ثمة كثير من موارد البيانات، وكثير من المعلومات المتاحة عبر الإنترنت، بيد أنها تبقى غير مستغلة، في انتظار أن يأتي شخص ما وينتفع بها".
كيف نجني المنافع؟
صُقل تصميم متصفحات الويب الحديثة بما فيه الكفاية، بحيث يسهل إغفال ما تنطوي عليه من تعقيدات. فمواقع الويب تمزج في أكوادها بين الأكواد البرمجية المكتوبة بلغات مثل لغة ترميز النص الفائق (HTML)، ولغة «جافا سكريبت»، لتحديد الأماكن التي ستظهر فيها عناصر النص والعناصر المرئية المتنوعة على الصفحة، بما في ذلك كلٍ من المحتوى "الثابت" (المحدد) والمحتوى "الديناميكي" الذي يتغير استجابةً لإجراءات المستخدم.
وتتيح بعض قواعد البيانات العلمية، مثل قاعدة بيانات «بب ميد» PubMed، وشبكات التواصل الاجتماعي، مثل موقع «تويتر» Twitter، واجهات برمجة التطبيقات (APIs)، التي توفر إمكانية الوصول إلى بياناتها تحت قيود رقابية. أما بعض المواقع الأخرى، فتتبع سياسة تتيح فقط الوصول إلى بياناتها دون السماح بإجراء أي تعديلات عليها. وما من طريقة لتحويل البيانات المتاحة على تلك المواقع إلى صيغة يمكن استخدامها وتطويعها، إلا من خلال بذل جهود مضنية في نسخ ما يظهر أمامك من نصوص وصور، ونسخ ما بها من ملفات مدمجة. وحتى في حال وجود واجهة برمجة تطبيقات، فربما تفرض بعض مواقع الويب قيودًا على أنواع البيانات التي يمكن الوصول إليها، وعلى عدد مرات إتاحة هذا الوصول.
بيد أن أدوات استخلاص البيانات تشكّل بديلاً فعالاً؛ فتلك البرامج بعد "تدريبها" على التركيز على عناصر معينة في صفحة الويب، يمكنها جمع البيانات، إما يدويًا، أو تلقائيًا، بل ووفقًا لجدول زمني محدد. وكثيرًا ما تشتمل بعض أدوات وخدمات الويب التجارية على واجهات سهلة الاستخدام، تعمل على تبسيط اختيار عناصر البيانات المستهدف تجميعها في صفحة الويب. ويتميز بعض تلك الأدوات، مثل ملحقي متصفحات الويب؛ «ويب سكريبر» Web Scraper و«داتا ماينر» Data Miner، بقدرته على أن يتيح استخلاص البيانات يدويًا أو آليًا بالمجان، من أعداد صغيرة من الصفحات. بيد أن التوسع في استخدام تلك الأدوات قد يغدو باهظ التكلفة. فخدمات مثل «موزيندا» Mozenda و«سكريب سيمبل» ScrapeSimple تتقاضى رسومًا لا تقل عن 250 دولارًا أمريكيًا شهريًا في المشاريع القائمة على استخلاص البيانات. كذلك قد تفتقر هذه الأدوات أيضًا إلى المرونة اللازمة لمعالجة بيانات مواقع الويب المتنوعة.
نتيجة لذلك، يفضل كثير من الأكاديميين البدائل مفتوحة المصدر. على سبيل المثال، الحزمة البرمجية «بيوتيفول سوب» Beautiful Soup، التي تستخلص المعلومات من الملفات المكتوبة بلغة ترميز النص الفائق، ولغة الترميز القابلة للامتداد (XML)، وحزمة برمجيات «سيلينيوم» Selenium، التي يمكنها معالجة المحتوى الديناميكي بلغة «جافا سكريبت»، تتميزان بأنهما تدعمان كذلك لغة البرمجة «بايثون» Python. كذلك تقوم الحزمتان البرمجيتان «آرفيست» rvest و«آر سيلينيوم» RSelenium بوظائف مماثلة لتلك التي تحققها لغة برمجة أخرى هي لغة «آر» R. إلا أن مكتبات تلك البرمجيات لا تتيح عادة سوى العناصر الأساسية لتلك المهام. وبعد ذلك، يتعين على الباحثين تطويع أكواد هذه البرمجيات لتلائم كل موقع من مواقع الويب. فيقول كايسي عن أدوات استخلاص البيانات التي طورها بنفسه: "استخدمنا بعض الأدوات المتوفرة بالفعل، ثم أدخلنا عليها تعديلات. وبمرور الوقت، تزايد تطويعنا لتلك البرمجيات لتلائم أغراضًا معينة".
فك الشفرات
تتطلب مشروعات استخلاص البيانات البسيطة مهارات برمجة غير معقدة نسبيًا. فتقول ريتشاردز إن فريقها يتوصل إلى حل لمعظم المشكلات التي قد تطرأ "عن طريق البحث على موقع جوجل عن كيفية إصلاح الأخطاء البرمجية". وتضيف أن الفهم الجيد لتصميم مواقع الويب، وأساسيات البرمجة يمنح الباحث مزايا ثمينة.
في ذلك الصدد، يقول لاسكومب: "صرت أستخدم وضع المطور أغلب الوقت"، مشيرًا بذلك إلى إعداد تصفح، يسمح للمستخدمين بإزالة الواجهة المألوفة لموقع الويب، للوصول إلى البنية الأساسية لها التي تشكلها لغة ترميز النص الفائق، وأكواد البرمجة الأخرى. بيد أن ثمة وسائل أخرى يمكنها تقديم يد المساعدة في ذلك، مثل ملحق متصفحات الويب «سيليكتور جاديت» SelectorGadget، الذي يتيح واجهة سهلة الاستخدام لتحديد "الوسوم" المرتبطة بعناصر معينة على موقع الويب.
إن تحديد مدى تعقيد مشروعات استخلاص البيانات يتوقف إلى حد كبير على المواقع التي تستهدفها. على سبيل المثال، تتسم المنتديات عادة بتصميم قياسي نسبيًا، ويمكن تعديل أدوات استخلاص البيانات التي تستقي البيانات من منتدى معين بسهولة، بحيث تؤدي المهمة نفسها على منتدى آخر. غير أن استخلاص البيانات من بعض المواقع الأخرى ينطوي على إشكاليات أكبر. على سبيل المثال، يراقب كايسي وزملاؤه عمليات بيع النباتات والحيوانات التي تجري إما بصورة غير قانونية أو التي يرجح كونها ضارة من المنظور الإيكولوجي. ويمكن للمنتديات التي تستضيف مثل هذه المعاملات أن تظهر أو تختفي دون سابق إنذار، أو أن تغير تصميمها. يوضح كايسي هذا قائلًا: "تكون تلك المواقع عادة أكثر قابلية للتغيير، في محاولة للحد من سهولة وصول أدوات استخلاص البيانات الجاهزة إليها، لتجمع المعلومات منها". وقد تحتوي مواقع ويب أخرى على عناصر مشفرة بلغة ترميز النص الفائق، أو تتسم بخصائص ديناميكية معقدة يصعب فك شفرتها. وحتى التصميم غير المتقن لمواقع الويب يمكن أن يقوِّض مشروعات استخلاص البيانات. وهي مشكلة كثيرًا ما يواجهها لاسكومب عند استخلاص البيانات من مواقع تخضع لإدارة حكومية.
من جهة أخرى، قد لا تتوفر البيانات المراد استخلاصها في صيغة نص مُشفَّر بلغة ترميز النص الفائق. على سبيل المثال، أشرف شاوي يانج، الباحث المتخصص في الجغرافيا المكانية من جامعة جورج ميسون في فيرفاكس بولاية فيرجينيا الأمريكية، على تطوير أداة استخلاص البيانات «كوفيد سكرابر» COVID-Scraper، التي تعمل على استخراج البيانات حول عدد مرضى الجائحة ووفياتها من جميع أنحاء العالم. وهو يشير إلى أنه في بعض المناطق القضائية، ظلت تلك البيانات محتجزة في ملفات بصيغة «بي دي إف» PDF، وفي ملفات صور بصيغة «جيه بي إي جي» JPEG. وكلتاهما صيغتان لا يمكن استخراج بياناتهما باستخدام أدوات استخلاص البيانات التقليدية. وحول ذلك، يقول يانج: "كان علينا أن نجد أدوات يمكنها قراءة مجموعات البيانات تلك، والعثور على متطوعين من تلك المناطق لمساعدتنا في ذلك".
بذل العناية الواجبة في استخلاص البيانات
ما أن تتوصل إلى الكيفية التي يمكنك من خلالها استخلاص البيانات من موقع الويب المستهدف، عليك أن تفكر في كيفية القيام بذلك على نحو أخلاقي.
تفرض مواقع الويب عادةً شروطًا لتقديم خدماتها، وترسي قواعد جمع البيانات منها، وقواعد إعادة استخدام هذه البيانات. وتتسم هذه الشروط عادة بالتساهل، إلا أنها لا تكون كذلك دائمًا. على سبيل المثال، وفقًا للاسكومب، بعض المواقع تستخدم تلك الشروط كسلاح لمنع التحقيق الصادق في صحة محتوياتها. فيقول: "أتصدى لعدد هائل من أجهزة العدالة الجنائية قوية النفوذ، التي لا ترى حقيقة ما يخدم صالحها في حصولي على بيانات بشأن الأصول العرقية لمن تعتقلهم أجهزتها الأمنية".
كذلك تتيح مواقع ويب عديدة ملفات «robots.txt»، التي تسمح باستخدام أدوات استخلاص البيانات بها بموجب شروط تشغيل معقولة. ويهدف تصميم تلك الملفات، في جانب منه، إلى منع الاستفسارات التي تُستحدث بصورة أوتوماتيكية من إرباك الخوادم. بيد أنها عمومًا تترك مساحة للمناورة في عمليات جمع البيانات الروتينية. ويُعد احترام هذه القواعد من أفضل الممارسات، حتى لو أدى إلى إطالة أمد عملية استخلاص البيانات، على سبيل المثال، من خلال إفساح مدة زمنية فاصلة بين طلب بيانات كل صفحة والذي يليه. في هذا السياق، يقول كايسي: "معدل استخلاصنا للبيانات، لا يفوق في سرعته ذاك الذي يتأتى مع الاستخدام العادي للموقع". ويمكن للباحثين أيضًا تقليل حركة مرور البيانات عبر الخوادم عن طريق جدولة مهام استخلاص البيانات، بحيث تجري في أوقات بخلاف ساعات ذروة حركة البيانات، مثل فترة منتصف الليل.
وجدير بالذكر أنه عند جمع بيانات سرية ومعرِّفة للهوية الشخصية، فقد تكون هناك حاجة إلى مزيد من الإجراءات الاحترازية. على سبيل المثال، طور باحثون بقيادة سيدريك بوسكيه من مستشفى جامعة سانت إتيان في فرنسا أداة تسمى «فيجي 4 ميد» Vigi4Med، تعمل على استخلاص البيانات من المنتديات الطبية، للوقوف على الآثار الجانبية المرتبطة بتلقي بعض العقاقير، والتي قد تغفل التجارب الإكلينيكية رصدها. حول ذلك، تقول بيسان عودة، التي ساعدت في تطوير هذه الأداة، بوصفها من باحثي مرحلة ما بعد الدكتوراه في المختبر الذي يرأسه بوسكيه: "أخفينا هويات مستخدمي المنتديات، وفصلناها عن البيانات الأخرى. ولم يُتح لأفراد الفريق الذين نهضوا بعملية توصيف البيانات الاطلاع على أسماء هؤلاء المستخدمين". بيد أنه، حسبما تقول عودة، لا تزال الشواهد السياقية المستمدة من المنشورات عبر الإنترنت، تسمح بالتعرُّف على هوية هؤلاء المستخدمين بعد إخفائها. فكما تقول عودة: "لا يمكن إخفاء هوية أصحاب البيانات تمامًا".
نظام من رحم الفوضى
لا تنتهي مشروعات استخلاص البيانات بانتهاء جمع البيانات. يعلل كايسي لذلك قائلًا: "تجد نفسك فجأة بصدد معالجة كميات هائلة من البيانات غير المنظًّمة. وتصبح المشكلة حينئذٍ متعلقة بمعالجة البيانات أكثر مما ترتبط بالحصول على البيانات".
على سبيل المثال، لوحة معلومات «كوفيد»، التي استحدثها مستشفى جونز هوبكنز، تتطلب تدقيقًا متأنيًا في بياناتها لضمان دقتها وصحتها. من هنا، انتهى المطاف بالفريق إلى تطوير نظام لرصد الحالات الشاذة، يلفت الاهتمام إلى التغيرات المستبعدة في الإحصاءات. يشرح دونج ذلك قائلًا: "لنفترض أن مقاطعة صغيرة كانت تخطِر في المعتاد برصد مائة حالة يوميًا، ثم باتت فجأة ترصد عددًا قد يبلغ عشرة آلاف حالة. هذا وارد الحدوث، بيد أنه مستبعد إلى حد كبير". تدفع حالات كتلك إلى التمحيص في دقة البيانات الأساسية، وهي مهمة تعتمد على جيش صغير من المتطوعين، الذين يتحدثون عدة لغات، ويمكنهم فك شفرات تقارير «كوفيد-19» الخاصة بكل بلد على حدة. بل إن خطأً مطبعيًا بسيطًا أو تغيير الطريقة المستخدمة في تنسيق التواريخ يمكن أن يعوق مسار تحليل البيانات.
وفيما يخص تطبيق كايسي لرصد الإتجار في الأحياء البرية، فإن الوقوف على الأنواع التي يجري الإتجار بها بالفعل، إلى جانب تحديد ما إذا كانت تلك المعاملات التجارية قانونية أم لا، يجعل الفريق دائما على أهبة الحذر. إذا إن بائعي تلك الأنواع عندما يعون بمخالفتهم للقوانين، يعمدون في الأغلب إلى التعتيم على تلك المعاملات، من خلال تعمد استخدام أسماء مضللة أو أسماء شوارع عوضًا عن أسماء النباتات والحيوانات التي يبيعونها، مثلما يفعل تجار المخدرات عبر الإنترنت. ويضرب كايسي لذلك مثلًا قائلًا إن فريقه عثر على 28 "اسمًا تجاريًا" لنوع معين من أنواع الببغاوات. من هنا، يضيف: "ثمة حاجة إلى كثير من أدوات معالجة اللغات الطبيعية وأدوات التحقق من مدى مطابقة النتائج لكلمات البحث".
مع ذلك، تقول ريتشاردز إنه ينبغي للراغبين في إجراء عمليات استخلاص البيانات ألا يتخوفوا من القيام بها. فيمكن البدء بتغيير استخدام أحد أدوات استخلاص البيانات المتوفرة بالفعل. على سبيل المثال، استعان فريق ريتشاردز بأداة لتحليل بيانات تجارب إكلينيكية امتلكها أحد زملائها، وعمل الفريق على مواءمة برمجية الأداة لتخدمه في تحليل تقارير الأطباء الشرعيين. إلا أن ريتشاردز تقول حول ذلك: "ثمة كثير من المنصات لذلك، وكثير من الموارد عبر الإنترنت. وإذا لم يكن في زمرة زملائك منْ أقدمَ على استخدام أدوات استخلاص البيانات من قبل، فلا تدع ذلك يمنعك من محاولة الاستعانة بها".