الوصول الى المكتبات الرقمية
0%
Close
العودة إلى الرئيسية

تتمحور هذه الوحدة حول مفهوم استرجاع المعلومات Information Retrieval، وهو ايجاد المحتوى والذي غالبا ما يكون على شكل مستندات documents غير منظمة (مثل النصوص) من بين كم هائل من هذه المستندات التي تكون مخزنة على اجهزة الحاسوب والتي تلبي احتياجات المستخدم من المعلومات. وبدأ البحث في مجال استرجاع المعلومات في السبعينات من القرن الماضي وذلك بالبحث عن البيانات المهيكلة structured data، ولكن حديثا أصبح البحث عن النصوص الحرة free text مثل كتابة نص ما واسترجاع جميع الوثائق التي ورد فيها هذا النص او حتى الوثائق المتعلقة بالموضوع حتى وان لم يرد ذلك النص فيها. مثل عمل جوجل.

مخرجات التعلم
بعد الانتهاء من هذه الوحدة، ستكون قادراً على أن:
  • توضح مفهوم استرجاع المعلومات.
  • توضح المشاكل اللغوية في استرجاع المعلومات.
  • توضح نماذج استرجاع المعلومات الرئيسية.
الموضوعات

استرجاع المعلومات هو ايجاد المحتوى والذي غالبا ما يكون على شكل مستندات documents غير منظمة (مثل النصوص) من بين كم هائل من هذه المستندات التي تكون مخزنة على اجهزة الحاسوب والتي تلبي احتياجات المستخدم من المعلومات.
بدأ البحث في مجال استرجاع المعلومات في السبعينات من القرن الماضي وذلك بالبحث عن البيانات المهيكلة structured data، ولكن حديثا أصبح البحث عن النصوص الحرة free text مثل كتابة نص ما واسترجاع جميع الوثائق التي ورد فيها هذا النص او حتى الوثائق المتعلقة بالموضوع حتى وان لم يرد ذلك النص فيها. مثل عمل جوجل.

نموذج البيانات المهيكلة
البيانات المهيكلة هي البيانات المنظمة على شكل جداول وتمكننا من الاستعلام عن أرقام في مدى معين او النصوص المتطابقة باستخدام لغات الاستعلام كلغة SQL، مثلاً . Salary < 60000 AND Manager = Smith

نموذج النصوص الحرة to google
البحث عن نصوص حرة في مستندات وملفات وصفحات انترنت غير منظمة على شكل جداول.

كما نعلم لغة الانسان تتألف من الكلمات والتي تأتي على شكل سلاسل او جمل، باستخدام هذه الكلمات نستطيع التعبير عن أفكارنا والتواصل مع الأخرين. لان الكلمات في أحاديثنا تشير الى أشياء او لها معنى مفهوم بين البشر الذين يتحدثون. ولكن بعض الكلمات في اللغة مترادفه -أي لها نفس المعنى-وبعضها غامض غير مفهوم بشكل واضح .

يسبب استخدام اللغات الطبيعية من اجل استرجاع المعلومات العديد من المشاكل. المشكلة الأساسية تمثلت بما يعرف بمشكلة عدم التعيين “indeterminacy”، وهي مشكلة عدم الوصول لموضوع المستند. ان هذه المشكلة تظهر بسبب تمثيل المواضيع بتراكيب لغوية مختلفة. ان هذه التراكيب اللغوية المختلفة يمكن ان تحمل نفس المعنى وهي مشكلة المترادفات (problem of synonyms)، وبعض التراكيب اللغوية المتشابهة يمكن ان تحمل معاني مختلفة وتدعى هذه المشكلة بمشكلة الغموض (problem of ambiguity). وهناك علاقات دلالية وبنيوية اخرى مختلفة ومعقدة بين التراكيب اللغوية. في الواقع، واحدة من المشاكل الرئيسية التي تواجه المسؤولين عن تطوير التطبيقات اللغوية في نظم استرجاع المعلومات هي مواجهة الكم الهائل من المشاكل الحسابية في المعالجة اللغوية ضمن بيئة معقدة جدا وغير مفهومة بشكل واضح.

من اجل التغلب على مشاكل استخدام اللغات الطبيعية كلغات بحث قام مختصو المعلومات بتطوير عدد من لغات الفهرسة مثل قواميس المترادفات (thesaurus) وعناوين المواضيع (subject headings) للتحكم بالمترادفات والالفاظ المتجانسة وانشاء علاقة بين المصطلحات (terms) لتحديد مفهوم الكلمات بشكل ادق، وتقنيات أخرى كالتحليل الصرفي والتجريد والاقتطاع تستخدم للتحكم بالتغير الصرفي للكلمات.

النماذج الرئيسية التالية والتي تم تطويرها لاسترجاع المعلومات هي: النموذج المنطقي (Boolean model)، النموذج الإحصائي (Statistical model) والذي يتضمن نموذج استرجاع الفضاء الشعاعي (Vector Space Model) والنموذج الاحتمالي (Probabilistic Model)

  1. النموذج الأول (المنطقي) يعرف عادة بنموذج التطابق التام “exact match" بينما النموذج الثاني يعرف باسم نموذج أفضل تطابق "best match" الاسترجاع بواسطة الاستعلامات عادة ما يكون أقل من الكمال في ناحيتين:
    • الأولى، استرجاع مستندات عديمة الصلة بالاستعلام.
    • ثانياً، لا يتم استرجاع جميع المستندات ذات الصلة بالاستعلام.

والمقياسان التاليان يستخدمان عادة في تقييم فعالية نظام الاسترجاع. المقياس الأول يدعى معدل الدقة "precision rate" هو نسبة المستندات ذات الصلة التي تم استرجاعها الى عدد المستندات الكلي المسترجع. المقياس الثاني يدعى معدل الاستدعاء "recall rate” ويساوي نسبة كل المستندات المسترجعة ذات الصلة الى عدد المستندات ذات الصلة الكلي. فإذا اراد الباحث رفع معدل الدقة فعليه ان يقوم بحصر-تضييق-استعلامه، اما إذا اراد رفع معدل الاستدعاء فإنه يقوم بتوسيع الاستعلام.

شكل يوضح كيفية عمل خوارزمية الربط البوليني


هناك العديد من محركات البحث التي تمكنك من البحث عن المصادر المفتوحة والمنشورة وفق تراخيص المشاع الإبداعي ومن أشهرها:


يتيح محرك المشاع الإبداعي للمستخدمين البحث عن كافة أنواع الموارد التعليمية المفتوحة، مثل المقالات، الصور، الفيديو، الصوتيات وغيرها، ويقوم باسترجاع النتائج من عدة محركات بحث أخرى مثل (جوجل)، (يوتيوب)، (فليكر)، (ويكيبيديا) وغيرها، ويمكن تحديد النتائج وفق نوع ترخيص المشاع الإبداعي المنشورة به.

عزيزي المتعلم، شاهد الفيديو لتوضيح كيفية البحث عن المصادر المفتوحة وفق تراخيص المشاع الإبداعي باستخدام محرك المشاع الإبداعي.

يتيح محرك جوجل للمستخدمين البحث عن الموارد التعليمية المفتوحة وفق تراخيص المشاع الإبداعي ويمكن تحديد النتائج وفق نوع ترخيص المشاع الإبداعي المنشورة به.

عزيزي المتعلم، شاهد الفيديو لتوضيح كيفية البحث عن الموارد التعليمية المفتوحة وفق تراخيص المشاع الإبداعي باستخدام محرك البحث جوجل.

يتيح محرك بحث يوتيوب للمستخدمين البحث عن الفيديوهات المنشورة بتراخيص المشاع الإبداعي ويمكن تحديد النتائج وفق نوع ترخيص المشاع الإبداعي المنشورة به.

عزيزي المتعلم، شاهد الفيديو لتوضيح كيفية البحث عن الفيديوهات المنشورة بتراخيص المشاع الإبداعي باستخدام محرك البحث يوتيوب.

نشاط (1)
بعد اطلاعك على كيفية البحث عن الموارد التعليمية المفتوحة وفق تراخيص المشاع الإبداعي، اختر أحد محركات البحث المذكورة في هذه الوحدة وابحث عن الموارد الآتية وشاركها مع زملاءك من خلال صفحة الفيسبوك:
  • مورد تعليمي يسمح بإعادة استخدامه والتعديل عليه دون ذكر صاحب العمل.
  • مورد تعليمي يسمح بإعادة استخدامه والتعديل عليه بشرط ذكر صاحب العمل.
  • مورد تعليمي يسمح بإعادة استخدامه بشرط ذكر صاحب العمل وعدم التعديل.

محرك البحث هو نظام مخصص للبحث عن المعلومات على شبكة الانترنت. يستقبل محرك البحث الاستعلامات من المستخدمين ويقوم بمقارنتها (باستخدام خوارزميات معينة) مع فهرس index قام بإنشائه مسبقا لاختبار المعلومات ذات الصلة ومن ثم ً عرضها للمستخدم على شكل قائمة من النتائج يعرف بـ صفحات نتائج محرك البحث Search Engine Results Pages SERPs.

توالى ظهور محركات البحث بعد انتشار الانترنت، ومنها دليل Yahoo! عام 1994, الذي لم يكن محرك بحث بحد ذاته، حيث بقيت Yahoo! معتمدة على مصادر خارجية للبحث على شبكة الويب حتى عام 2002 حيث طرحت محرك بحث خاص بها . العمل على محرك البحث العملاق حاليا بدأ عام 1996 وتم حجز النطاق google.com عام 1997.

بلغ عدد المواقع على الويب في نهاية عام2012 حوالي634 مليون موقع، منها51 مليون موقع تم إضافته في عام2012 فقط. بينما تضيف مجموعة WordPress فقط 59.4 مليون موقع، ويساهم مستخدموها في إضافة 500,000 منشور و 400,000 تعليق يوميا. يتم تحميل ما يعادل 2.5 بليون صورة شهريا إلى موقع التواصل الاجتماعي Facebook. في حين يضم موقع Tumblr 87 مليون مدونة.

هذه الأرقام ليست بسيطة، هناك تزايد هائل في حجم المعلومات، وحاجة المستخدم الفورية لهذه المعلومات. محرك البحث لن يقدم المعلومة فقط بل سيقدم أفضل معلومة نسبيا. ففي حين قد لا يكون مصدر المعلومة موثوقا ًعلى الانترنت تقوم بعض محركات البحث بتطبيق خوارزميات ذكية تدرس سلوك المستخدمين الآخرين لزيادة أو إنقاص تقييم بعض الصفحات وعرضها بأولويات متفاوتة حسب مصداقيتها.

هناك أيضا مستخدمون مؤذون على شبكة الانترنت قد يضعون محتوى وهمي أو مضر للمستخدمين الآخرين. يقوم محرك البحث تلقائيا بفلترة المحتوى المؤذي أو غير المفيد حسب سلوك المستخدمين السابقين أو حسب تقييم بعض شركات مضادات الفيروسات والملفات المشبوهة.


يقوم محرك البحث بإرسال برامج صغيرة تدعى Spiders أو Crawlers تقوم هذه البرامج بتحميل صفحات خادم ما وتفقد كل الروابط فيها وجمع كل المعلومات الممكنة عن هذه الصفحات، تعود المعلومات التي جمعتها Crawlers لتتم فهرستها من قبل المفهرس Indexer ومن ثم ترتيبها وتخزينها في فهرس ذكي. عندما يرد استعلام إلى محرك البحث من قبل المستخدم، يقوم المحرك بالبحث فقط في الفهرس ويرتب النتائج حسب أهميتها، وأولويتها، وصلتها بعملية البحث ومن ثم يعرضها على المستخدمين.

  • Crawling
    • Crawler: هو عبارة عن Web bot او Internet bot يقوم بتصفح الانترنت بشكل منهجي بغرض الفهرسة.
    • bot: هو تصغير لـ robot، هو برنامج يعمل كعميل لبرنامج آخر ليحاكي بذلك سلوك المستخدم، يؤدي مهام عادة ما تكون بسيطة وتكرارية بمعدل كبير لا يستطيع أن يقوم به الإنسان لوحده.
    • Internet bot: هو تطبيق برمجي يقوم بأداء مهام مؤتمتة على شبكة الانترنت.
    • آلية عمل الـ Crawler
      ينظم الـ Crawler مجموعة كبيرة من عناوين الانترنت URLs يقوم بطلبها وتحميلها بشكل متتالي حسب مجدوِل زمني. يبحث في كل منها عن المعلومات التي يحتاجها فيخزنها لتتم فهرستها لاحقا، ومن ثم يقوم باستخراج كل الروابط الموجودة في الصفحة التي قام بتحميلها وإضافتها إلى مجموعة الصفحات التي سيقوم بزيارتها.
      يبحث الـ Crawler عن المعلومات في الصفحات التي يزورها في المصادر التالية:
      • عنوان الموقع website URL .
      • عنوان الصفحة web page title.
      • أمارة البيانات الإضافية في meta tag information: HTML .
      • محتوى الصفحة web page content .
      • الروابط على الصفحة links on the page.
    • سياسات عمل الـ: Crawler
      يحدد سلوك الـ Crawler بالسياسات التالية:
      • سياسة الاختيار: : لتحديد الصفحات التي يتم تحميلها، لا يمكن للـ Crawler أن يقوم بتحميل جميع الصفحات، خاصة أن بعض خادمات الويب قد لا ترغب بأن يتم إدراج صفحات معينة في فهرس محرك البحث، كما أن تحميل بعض الصفحات قد يؤدي إلى خلل في عمل الـ Crawler.
      • سياسة الاختيار: لتحديد الصفحات التي يتم تحميلها، لا يمكن للـ Crawler أن يقوم بتحميل جميع الصفحات، خاصة أن بعض خادمات الويب قد لا ترغب بأن يتم إدراج صفحات معينة في فهرس محرك البحث، كما أن تحميل بعض الصفحات قد يؤدي إلى خلل في عمل الـ Crawler.
      • سياسة التهذيب: لتجنب التحميل الزائد لخادمات الويب وحماية الـ Crawler من الوقوع في فخ بعض المخدمات. (حيث أن الـ Crawler يقوم بطلب عدة صفحات من الخادم خلال زمن قصير جدا فمن السهل جدا ً إغراق الخادم إذا كان يتعرض لطلبات من عدة Crawler في وقت واحد، "المهذب" يناوب بين المخدمات المختلفة ولا يطلب مستندات من الخادم نفسه إلا كل بضع ثواني).
      • سياسة التفرع: للتنسيق بين الـ Web Crawler الموزعين، حيث أن كل محرك يملك عدة Crawlers بحث فيجب الانتباه إلى أن لا يتم استهداف مخدم واحد في وقت واحد، ولا يتم طلب الصفحة نفسها من قبل أكثر من Crawler واحد.
    • فخ الـ Crawler
      قد تستخدم برمجيات الـCrawler لأسباب مؤذية. كهجومات حجب الخدمة Denial of service او الاغراق. لذلك تلجأ خادمات الويب إلى "نصب أفخاخ" لهكذا Crawler تودي لإدخاله في حلقة لانهائية تؤدي إلى هدر موارده وتقليل إنتاجيته وقد يؤدي إلى انهياره.


  1. Castillo, C., (2005) “Effective web crawling”, SIGIR Forum, ACM Press,. Volume 39, Number 1, N, pp.55-56.
  2. Castillo, Carlos. "EffectiveWeb Crawling." Diss. University of Chile, 2004. Web. 12 Oct. 2101. www.chato.cl/papers/crawling_thesis/effective_web_crawling.pdf.
  3. Vittore Casarosa,” Information Retrieval and Search Engines” http://nmis.isti.cnr.it/casarosa/BDG/, 2018
  4. reseach Output Managment Online Educational Material (ROMOR) , Access to Digital Libraries, romor.iugaza.edu.ps/moodle/login/index.php#section-5, 2018
  5. بامفلح فاتم، "استرجاع المعلومات في المكتبات الرقمية دراسة وصفية"، قسم علم المعلومات، 2006
  6. النشرتي، مؤمن سيد ،"التحديات التي تواجه خوارزميات محركات البحث في استرجاع المحتوى العربي على الشبكة العنكبوتية العالمية: دراسة مسحية تحليلية" . Sybarian journalsالعدد 30، ديسمبر 2012
  7. محمد عبد المولى محمود .محركات البحث:من اين بدأت وإلى اين انتهت:بنيتها واساليب الاسترجاع. العربية 3000 متاح في : http://www.arabcin.net/arabiaall/index.html
  8. نبيل علي. العرب وعصر المعلومات.عالم المعرفة.الكويت:المجلس الوطني للثقافة والفنون والاداب.1994.ص333.