تعلم مع يوستدي إسترجاع المعلومات

إسترجاع المعلومات

July 4, 2023

مع ظهور أجهزة الحاسب وتطورها ، أصبح من الممكن تخزين كميات هائلة من المعلومات مما أدي الي تعقيد عملية العثور على معلومات مفيدة من بين هذا الكم الواسع من المعلومات المخزنة ، لذلك يأتي دور اجراءات وأساليب استرجاع المعلومات الذي تعتمد عليه أنظمة الإرجاع والبحث المختلفة والمنوط بها ارجاع المعلومات والمستندات التي تلبي احتياجات المستخدم في وقت أقل و بدقة كبيرة . في هذا المقال نتعرف علي مفهوم استرجاع المعلومات وأهم مراحلة.

مفهوم استرجاع المعلومات (Information Retrieval):

هوأحد فروع علوم الحاسب وأحد أهم مهام معالجة اللغة الطبيعية (NLP)، حيث يهتم بتنظيم وارجاع المعلومات وذلك من داخل مجموعات عديدة من المستندات المحفوظة علي قواعد البيانات الضخمة. بمعني أنه يتم تمثيل مجموعة من البيانات وتخزينها والبحث فيها إستجابة لطلب المستخدم أو ما يعرف تقنيا بالإستعلام [1].الهدف الأساسي لإسترجاع المعلومات هو الحصول علي المستندات ذات الصلة التي تلبي استعلام المستخدم بدقة كافية.

تتضمن عملية استرجاع المعلومات (IR)مراجل مختلفة ، حيث تبدأ بتمثيل البيانات وفي المرحلة المتوسطة يوجد عمليات البحث والتصفية والمطابقة وأيضا ترتيب البيانات ، وفي المرحلة الأخيرة يتم ارجاع المعلومات ذات الصلة بالإستعلام للمستخدم.

مراحل إسترجاع المعلومات :

ولتحقيق الهدف المنشود من استرجاع المعلومات (IR) ، ينبغي المرور بعدة بمراحل : سنقوم في هذا المقال استعراض أهم و أول هذه المراحل وهي الفهرسة.

1- الفهرسة (Indexing):

لا تعمل أنظمة استرجاع المعلومات مباشرة مع الإستعلامات أو المستدات ولكنها بدلا عن ذلك تقوم باستخدام استراتيجيات مختلفة لتمثيل الجوانب السياقية الأساسية للإستعلامات والمستندات وهو ما يعرف بعملية الفهرسة والتي يمكن وصفها من خلال :

1.1 أبعاد الفهرسة (Indexing Dimensions):

تهدف الفهرسة الي تمثيل المحتوى الدلالي لمحتوى المستند وليس الخصائص الخارجية مثل تاريخ النشر أو اسم المؤلف ، وهذا التمثيل يتم باستخدام الخصائص Indexing Features)) . وتكون الوحدات الأساسية للفهرسة (Indexing Units) هي بمثابة الكلمات اذا كان محتوى المستندات نصي أو الوحدات الصوتية للمحتوي الصوتي وغيرها . بالحديث عن المستندات النصية ، وحدات الفهرسة ليست فقط الكلمات المفردة مثل ("محمد" ، المدرسة) ولكن أيضا التراكيب. و قد يضطر أحيانا لفك هذه التراكيب للحصول علي وحدات الفهرسة الأساسية التي تساعد في عمليات البحث مثل كلمة "handgun" في اللغة الألمانية يمكن تفكيكها الى "hand" و "gun" كوحدات أساسية تفيد في عملية البحث .

بعد تحديد الوحدات الأساسية للفهرسة يلزم الاجابة عن بعض الاسئلة لتحديد الاستراتيجية السليمة للفهرسة مثل:

هل هانك حاجه للنظر في كل تفاصيل المستند أم الجوانب الأساسية فقط؟

هل يوجد مستندات داخلية بحيث تعطي تغطية وفهم ومن ثم تمثيل أفضل للسياق ؟

1.2 عملية الفهرسة (Indexing Process):

تعتمد اغلب أنظمة استرجاع المعلومات حاليا على الفهرسة التلقائية للاستعلامات والمستندات [2] . خوارزميات الفهرسة التلقائية البسيطة تعتمد علي 4 خطوات :

تحليل الهيكل (Structure Analysis) و الترميز (Tokenization):

في هذه الخطوة يتم تحليل المستندات من أجل التعرف على هيكلها ، بمعني تحديد العنوان ،القسم ، الفقرات ، الملخص . بعد ذلك يتم تقسيم الجمل في كل نوع تم تحليل الي كلمات (Tokens) .

ازالة كلمات التوقف :

في هذه الخطوة يقوم نظام استرجاع المعلومات بإزالة الكلمات التي لها ظهور متكرر متكرر ولكنها لا تساهم كثيرا في تحديد أي معلومات سياقية ، وتعرف هذه الكلمات بكلمات التوقف (Stop Words) مثل “in” و “the” وغيرها . الغرض من هذه الإزالة هو المساعدة في المطابقة بين الاستعلامات والمستندات بنا علي كلمات تحمل محتوى فقط ، وأيضا تقليل حجم تخزين المجموعة المفهرسة [2].

التسوية الصرفية :

وهي بمثابة الخطوة الثالثة حيث تستخدم الفهرسة بعض من الاجراءات الصرفية وذلك لدمج متغيرات الكلمة في جذر واحد. أحد هذه الاجراءات هو الاشتقاق (stemming) وهو بمثابة الحصول علي جذر الكلمة (الشكل الأساسي لها )[3] . الهدف من هذا الاجراء هو تجميع الكلمات ذات الجذر الواحد حيث يمكن أن يزيد ذلك من معدل نجاح مطابقة المستندات بالاستعلام المطلوب من المستخدم.

الترجيح.

وهو عملية اسناد ترجيحات (Weights ) للكلمات الاكثر اهمية في المستند ، حيث تعكس هذه الترجيحات مدي أهمية الكلمات المقابلة لها داخل المستند [2]. . الجدير بالذكر أن إجراء أكبر قدر ممكن من حساب ترجيحات الكلمات أثناء الفهرسة يساهم في تحسين عملية الاستعلام.

نتاج عملية الفهرسة هو تمثيل المستند ثم تأتي المرحلة الثانية وهي تمثيل احتياجات المستخدم الذي يبحث عنها والذي يطلق عليها مرحلة صياغة الاستعلام (Query Formation process). مرحلة صياغة الاستعلام تساعد في تكوين استعلام مناسب معبر عن ما يبحث عنه المستخدم و ايضا مساعدة المستخدم في الوصول لفهم أفضل لما يبحث عنه تحديدا .

ثم تأتي المرحلة الثالثة والتي فيها يتم مقارنة التمثيلين (تمثيل المستند والاستعلام) وهي ماتعرف بالمطابقة(Matching Process) . نتاج مرحلة المطابقة هو قائمة مرتبة من المستندات والتي تكون ذات الصلة باستعلام المستخدم ، ليقوم المستخدم بتصفحها بحثا عما يريده بالفعل, وفي بداية القائمة تقوم خوارزميات الترتيب بوضع أكثر المستندات صلة باستعلام المستخدم وذلك للتسهيل علي المستخدم وأيضا لتوفير الوقت الذي يمكن ان يستثمره في قراءة المستند .

الخاتمة:

مما لا شك فيه أن مجال استرجاع المعلومات هو من المجالات الأساسية الذي يمكننا بسهولة لمس اثاره وتطويره لمحركات البحث وأنظمة استرجاع المعلومات المختلفة . تركز مراحل استرجاع المعلومات على تمثيل البيانات المحفوظة وذلك لتحقيق فهم أمثل لمحتواها يسهل عملية البحث فيها عن ما يلبي احتياجات المستخدم، ثم تنتطلق لتمثيل احتياجات المستخدم ومطابقتها مع تمثيلات البيانات لإرجاع معلومات مرتبة وذات صلة بما يبحث عنه المستخدم في أقل وقت ممكن .

المراجع :

[1]: https://www.researchgate.net/publication/326075149_A_Survey_on_Information_Retrieval_Models_Techniques_and_Applications

[2]: https://www.researchgate.net/publication/281886222_Information_Retrieval

[3]: https://dl.acm.org/doi/10.1145/2975608

عدد الزائرين:2309