اللسانيات الحاسوبية… البدايات والتطبيقات والتحديات

26 يونيو 2024

اللسانيات الحاسوبية… البدايات والتطبيقات والتحديات

26 يونيو 2024

رنا الدقاق

محررة رئيسية في مركز تريندز للبحوث والاستشارات

في ظل المخاوف من غزو الذكاء الاصطناعي الذي يطلق عليه بعضهم “الغزو النبيل”، وهيمنته على الكثير من مجالات الحياة بسرعةٍ لفتت أنظار أنظمة الدول ومؤسساتها، برز فرع من فروعه يَعِد بالانتقال باللغة وتطبيقاتها نحو آفاق جديدة لم تعهدها من قبل، وذلك بالعمل على حوسبة اللغة؛ أي إنشاء برامج تستوعب اللغة الطبيعية[1] فهمًا، وتطلقها مخرجات تقنية تجاري قدرة الإنسان على التعامل معها، وهو ما بات يُعرف بـ “اللسانيات الحاسوبية” أو “المعالجة الآلية للغة NLP[2]، أو “هندسة اللغة”، وجميعها مسميات لمبحث لساني جديد يجمع بين اللغة والحاسوب لمعالجة اللغة الإنسانية معالجة آلية.

فما هي اللسانيات الحاسوبية أو المعالجة الآلية للغة العربية؟ ومتى كانت إرهاصاتها؟ وما تطبيقاتها؟ وما التحديات التي تواجهها؟

اللسانيات الحاسوبية:

اللسانيات الحاسوبية علم بينيّ يجمع بين علم اللسانيات، الذي يعرفه العالم السويسري، فرديناند دي سوسير بأنه العلم الذي يدرس نظام الرموز اللغوية ودلالاتها التي تعبر عن المعاني[3] أي أنه يدرس اللغة دراسة موضوعية بعيدًا عن الانطباعية والذاتية في مختلف جوانبها الصوتية والصرفية والدلالية؛ وبين علوم الحاسوب التي تهدف إلى تطويع اللغات البشرية حاسوبيًّا بالاعتماد على قدرات الحاسوب الرياضية والتخزينية الهائلة. من هنا فإن اللسانيات الحاسوبية علم يُعنى بتحويل عيّنات ونماذج من اللغات الإنسانية إلى تمثيل شكلي يسهُل على برامج الحاسوب تطويعه والتعامل معه، ودراسة توليد اللغة والفهم الآلي للغات الإنسانية الطبيعية بهدف تحويل البيانات والمعلومات المخزنة في قواعد بيانات الحاسب إلى لغة بشرية تبدو طبيعية، وهو “يرمي إلى وضع نظام آلي لمعالجة اللغة الطبيعية، ويحتاج إلى مدوّنة لتطبيق أو اختبار النظام الذي يضعه على نماذج ممثِّلة لجميع أنواع النصوص التي من المتوقع أن يعالجها ذلك النظام”[4].

وللسانيات الحاسوبية صلة بعلوم شتى إضافة إلى علم اللسانيات العام الذي هو علم أساسي بالنسبة إلى البرمجيات اللغوية الآلية، وعلم الحاسبات الإلكترونية، فهناك علاقة بينه وبين علم الذكاء الاصطناعي، وعلم الفلسفة، وعلم الرياضيات، وعلم المنطق، من حيث إنه يقوم على تحليل المواد اللغوية وتركيبها مسبقًا بتقنيات الذكاء الاصطناعي، نظرًا إلى أن تمثيل المعارف البشرية في الحاسبات الإلكترونية شبيه بتمثيل المعارف اللغوية في الدماغ البشري، وخاصة التمثيل الدلالي. والبحث الحالي لعلم اللسانيات الحاسوبية هو تطبيق برامج آلية تمكنها من فهم اللغات البشرية[5].

اللسانيات الحاسوبية العربية والبدايات:

أحدثت الثورة الصناعية الثالثة التي ارتبطت بتصنيع وانتشار الحاسوب وتقنية المعلومات تحوّلات كبرى في العالم، وغدا دخول العالم الرقمي باللغة الأم حاجة ملحة سيؤدي التخلف عنها إلى تهميش العربية وانكفائها في زاوية لا ينفذ إليها بريق التقدم التكنولوجي، ويحرم الناطقين بها المزايا التي يتيحها الوافد الجديد على مختلف الصُّعد.

بدأ أول اتصال علمي بين اللغة العربية والحاسوب عام 1971، على يد الدكتور إبراهيم أنيس والدكتور علي حلمي موسى في جامعة الكويت وكانت ثمرته (الدراسة الإحصائية للجذور الثلاثية وغير الثلاثية لمعجم الصحاح للجوهري)[6]. وتجدر الإشارة إلى أن بعض الباحثين يرى أن هذا النوع من العمل لا يتجاوز كونه إحصاء لغويًّا باستخدام الحاسب؛ لا معالجة آلية للغة[7].

ثم وضع كتاب (اللغة العربية والحاسوب) الصادر عام 1988 للدكتور المهندس المصري نبيل علي اللبنة الأولى في بناء اللسانيات الحاسوبية العربية- كما يرى كثير من الباحثين-، إذ تناول فيه مؤلفه- لأول مرة -اللسانيات الحاسوبية مطبَّقة على أنظمة اللغة العربية الصوتية والصرفية والنحوية والمعجمية، مع المعالجة الآلية لهذه النظم جميعها، أي أنه درس منظومة اللغة العربية من منظور الحاسوب، وتناول إمكانيات توظيف ذلك في مباحث لغوية عدة؛ منها الإحصاء اللغوي، والتحليل والتركيب اللغويين، والفهم الآلي للسياق، وتحليل النصوص، والترجمة الآلية، منطلقًا من دراسات تقابلية للنظم اللغوية بين العربية والإنجليزية، نظرًا إلى أن الإنجليزية هي اللغة الأم لتقنيات الحاسب الآلي.

أما كتاب الدكتور عبد ذياب العجيلي (الحاسوب واللغة العربية) الصادر عام 1996 فكان الخطوة الثانية على الطريق الطويل لعلم اللسانيات الحاسوبية العربية، وقد تناول فيه مسائل لغوية عربية انطلاقًا من لغة البرمجة (برولوغ)[8] المستخدمة في الذكاء الاصطناعي، وحظي الكتابان السابقان باهتمام الباحثين حتى أقام بعضهم دراسة تلخص ما ورد فيهما من معارف في هذا الحقل، وتُقارن بين منهجيهما في تناول اللغة العربية من وجهة نظر حاسوبية[9].

ثم قُيضّ لهذا العلم الفتيّ متخصص في اللغة العربية وعلومها هو الدكتور نهاد الموسى، الذي أحدث بكتابه الصادر عام 2000 (العربية نحو توصيف جديد في اللسانيات الحاسوبية) نقلة نوعية في مجاله، فقد هدف من خلاله إلى رسم صورة العربية للحاسوب، مع تعويضه عن الحدس الذي يتفرّد به العقل البشري، أي أنه سعى إلى الانتقال بفهم الآلة للغة من الوصف إلى استقراء المعطيات المدركة بالحدس، وهو ما تسعى إليه المعالجة الآلية للغة العربية في وقتنا الحالي.

كانت تلك الإرهاصات الأولى لما شهدته الساحة العلمية من اهتمام باللسانيات الحاسوبية، توالت بعدها البحوث والمقالات المهتمة بهذا الشأن الذي يجسر الهوة بين الحاسوب والعربية، وجدير بالذكر أن من أهم المبادرات التي رافقت البدايات كانت مبادرة تعريب الحاسوب من حيث برامجه ومصطلحاته التي اضطلعت بها شركة (صخر) للبرامج، لمؤسسها رجل الأعمال الكويتي محمد الشارخ، الذي عرّفته الصحافة الكويتية بأنه مؤسس أول برنامج عربي على الكمبيوتر، لأنه أول من أدخل العربية إلى الكمبيوتر، إضافة إلى إنجازه الكبير في “أرشيف الشارخ” الذي يضم المجلات العربية، والمعجم اللغوي، ومشروع “كتاب في جريدة”.

أنشأ الشارخ شركة “صخر” لبرامج الحاسوب عام 1982، وهي شركة كويتية تابعة للشركة العالمية للإلكترونيات، وقد استعان بالعالم المصري نبيل علي، الذي شغل منصب المدير المساعد في الشركة، لتمكين أسس اللغة العربية وقواعدها في الحواسيب ليصبح “صخر” -الذي استوحى اسمه من مقولة “العلم في الصغر كالنقش على الحجر”، أول حاسوب عربي[10].

جدوى حوسبة اللغة العربية:

في ظل وجود ما يربو على 422 مليون شخص يتحدثون العربية، ومليار ونصف المليار مسلم يمارسون بها عباداتهم[11]، إضافة إلى مستخدمين آخرين من غير الناطقين بها يُعنون بها لأغراض تعليمية وسياسية واقتصادية وأمنية، فإن المعالجة الآلية للغة العربية تصبح شأنًا بالغ الأهمية.

فعلى صعيد اللغة ذاتها، تضمن اللسانيات الحاسوبية للعربية حضورها العالمي الفاعل بوصفها جزءًا من المنظومة الحضارية العالمية، وتتيح لها مزيدًا من الانتشار على جميع الصُّعد، ومنها على سبيل المثال الصعيد التجاري، فالأسواق العربية حاليًّا جزء من الأسواق العالمية المفتوحة، وتمثّل اللغة الأداة الأولى في الحصول على بضائعها والتواصل معها، كما أن نجاح مواقع التجارة الإلكترونية يرتبط بصورة أساسية بتطبيق تقنيات معالجة اللغة الطبيعية، وتطوير خوارزميات تُمكّن المستخدمين من الوصول إلى ما يبحثون عنه عبر تقديم نتائج بحث أمثل، وقد بُذلت بعض الجهود الأولية في سبيل إيجاد موطئ قدم للعربية في إنشاء محركات بحث للتجارة الإلكترونية باللغة العربية نذكر منها على سبيل المثال محرك البحث بالعربية “لبلب”[12]، الذي يوفر تجربة في البحث عن المنتجات بالعربية، وشعاره المعلَن: “لم يعد البحث بالعربية يشكل تحديًّا”.

أما بالنسبة إلى الناطقين بالعربية فإن حوسبة اللغة تتيح لهم تواصلًا سهلًا مع التطورات التي تأتي بالجديد في كل حين، وتمكّنهم من استخدام التطبيقات الرقمية التي تزيد مستوى ثقتهم بإنجازاتهم وأدائهم الوظيفي، كما تتيح لهم عبر الترجمة- التي تُعدّ أولى وأهم تطبيقات اللسانيات الحاسوبية- التوسعَ المعرفي والتلاقح الثقافي والفكري بين الألسن واللغات العالمية، وتعين على الوصول الفعال إلى المعلومات، وتحول الثروة المعلوماتية الرقمية إلى معرفة جماعية تنهض بالمجتمعات وتجعلها قادرة على مواكبة التطورات الحديثة، إضافة إلى أن حقل التعلّم والتعليم، ذا الأهمية التي لا تتراجع ولا تضمحل عبر العصور، كونه أساس التقدم الفكري، هو أحد الحقول التي تعتمد على اللسانيات الحاسوبية. والبرامج اللغوية التعليمية التي تقدّمها حوسبة اللغة تسعى إلى تلبية حاجات التعلم والتعليم بالنظر إلى أن الكفاية اللغوية أداة الحصول على المعارف، كما أن منصات التعليم العربية التي تقدم دروسًا في مختلف أنواع العلوم باتت كثيرة ومتنوعة، نذكر منها على سبيل المثال منصة “ألف للتعليم”[13] وهي شركة عالمية متخصصة بتكنولوجيا التعليم، مقرها في دولة الإمارات العربية المتحدة.

كما تُعنى تطبيقات حوسبة اللغة أو اللسانيات الحاسوبية بتقديم الخدمات التعليمية اللازمة لغير الناطقين بالعربية، وتتيح لهم النُظم الآلية للتعلم الذاتي فهمًا أعمق للمحيط الاجتماعي للغة يوفره فهم الحاسب للغة الطبيعية السائدة في مجتمع ما.

وبصورة عامة، فإن تطبيقات اللسانيات الحاسوبية شأن حيوي يصعب حصر أهدافه وفوائده، وإن كانت جميعها تصب في خدمة الإنسان وتسهيل حصوله على احتياجاته، وتعفيه من الإجهاد الذي تسببه أعمال الذاكرة المضنية، وتوفر السرعة والدقة اللازمتين لإنجاح الكثير من الأعمال في مجالات عدة؛ حيوية واقتصادية واجتماعية؛ فالنظم الآلية الخبيرة باتت قادرة على تشخيص الأمراض، وتقديم الاستشارات الطبية، وغيرها من الاستشارات الفنية والقانونية والفتاوى الشرعية وغيرها، وأداة ذلك كله بالطبع اللغة المحوسبة.

تطبيقات اللسانيات الحاسوبية:

كثرت تطبيقات اللسانيات الحاسوبية بعد أن صبت اهتمامها على نمذجة كيفية استخدام الإنسان للغة الطبيعية، وجعل الحاسب قادرًا على فهمها على مستوى الكلمة والجملة والمعنى وتنفيذ ما يريده منها، واحتلت هذه التطبيقات مكانها في حياة البشر بوصفها ضروريات؛ كالترجمة الآلية، والبحث الآلي في النصوص، والمساعدات الافتراضية “شات بوت” وغيرها، وتتنوع هذه التطبيقات بين تطبيقات تعالج النصوص، وتطبيقات تعالج الصور، وأخرى تعالج الصوت، وجميعها كثيرة جدًّا ومتنوعة، لذا فإننا سنتناول بعضها بشيء من التفصيل.

أولًا: الترجمة الآلية:

تُعدّ الترجمة الآلية من أقدم تطبيقات اللسانيات الحاسوبية المرتبطة بالنصوص وأهمّها، بل إنها “واحدة من الغايات القصوى لحوسبة اللغة، إذ تأتي ثمرةً لتحقُّق ما يسمى الفهم الآلي للغة، ومع بدايات المعالجة الآلية للغة لم تكن الآلة قادرة على أن تحوّل نصًّا من لغة إلى أخرى من دون تحليل هذا النصّ إلى عناصر تكوينه، ثم بناء النص المقابل في اللغة الأخرى”[14]، باعتماد طرق عدة للترجمة منها الإحصاء اللغوي المعتمد على ذخيرة لغوية تُدعى “المكانز” قوامها ملايين الكلمات وهي عالية التكلفة، أو الترجمة المعتمدة على القواعد، وفيها “تعرب اللوغاريتماتُ النصَّ وتنشئ تمثيلًا رمزيًّا وسيطًا يولّد منه النص باللغة الهدف وفقًا لطبيعة التمثيل الرمزي[15]، ويُعدّ برنامج “الناقل العربي” MLTS من أوائل برامج الترجمة من العربية إلى الإنجليزية.

أما في عصرنا الحالي فقد أصبحت برامج الترجمة الآلية تعتمد على مدونات متوازية للغات تعتمد على شبكات عصبية، وسميت هذه الترجمة “الترجمة الآلية العصبية” (NMT) [16] وهي نظام يقل تكلفة عن المدونات الضخمة، مستوحى من الشبكات العصبية البيولوجية التي تشكّل الدماغ البشري، وتعمل من خلال صيغة رياضية معقدة تُمثَّل على شكل شبكة عصبية. “يستخدم NMT عملية “التعلم العميق” حيث تتنبّأ الشبكات العصبية الاصطناعية بسلسلة من الكلمات المحتملة. وبناء على النسخ السابقة للترجمة الآلية (الإحصائية والقائمة على القواعد) توفر حلول الترجمة الآلية العصبية مستوى من الجودة جديدًا تمامًا، وتقدم مخرجات تحاكي الترجمة البشرية”[17].

وهذا النوع من الترجمة هو المعتمد حاليًّا في Google Translate وجميعنا يلحظ المستوى المتقدم الذي وصلت إليه شركة غوغل في الترجمة في الآونة الأخيرة؛ وخاصة في الترجمة من العربية إلى الإنجليزية، ويُرجح أن ذلك عائد إلى اهتمام الشركات الكبرى في الغرب باكتشاف اللغة العربية لأسباب أمنية، أما الشق الثاني وهو الترجمة من الإنجليزية إلى العربية فما زال يحتاج إلى جهود كبيرة من الجانب العربي.

ثانيًا: التعرف على الحروف المكتوبة بخط اليد (ICR):

لابد في البداية من التفريق بين هذه التطبيقات، وتطبيقات التعرف إلى الحروف المطبوعة (OCR)، فمع أن طريقة التعرف في الحالتين تكون عن طريق الماسح الضوئي، لكن تقنية (OCR) يجري العمل فيها على مواد مطبوعة ومولودة إلكترونيًّا، أما الثانية فتستهدف مواد كُتبت بخط اليد ابتداءً[18]. ونسلط الضوء هنا على النوع الثاني الذي يمثّل فتحًا حقيقيًّا بالنسبة إلى المخطوطات؛ خصوصًا أن المخطوطات العربية الموزعة على مكتبات العالم تقدر بـ 300 مليون مخطوط، وستسهل هذه التقنية الوصول إلى كنوز من المعرفة كانت حكرًا على الخبراء من الباحثين المتخصصين في تحقيق النصوص.

وتحيط بهذا النوع من التطبيقات صعوبات عدة؛ أولها اختلاف طريقة كتابة الحروف من شخص لآخر، إذ لا يوجد رمزان مكتوبان بخط اليد متطابقان، كما في الكتابة الإلكترونية، إضافة إلى أخطاء الكتابة، وأخرى تتعلق بجودة الصورة وتحميلها في صورة إلكترونية على الحاسب للتعرف إليها[19].

وقد طوّر مهندسون تونسيون في شركة “ريفمبر” تطبيقًا فريدًا لتحويل المخطوطات العربية القديمة والكتابات اليدوية إلى نص قابل للتعديل باسم “زنكي”[20] يضم محرك بحث في المخطوطات العربية والمستندات المصورة، ينجز المحرك جميع مراحل معالجة المخطوطات باستخدام الذكاء الصناعي، وتبدأ بمرحلة المعالجة الأولية للمستند لتحسين جودة الصورة، تليها مرحلة المعالجة التي تشمل تجزئة الوثيقة، وكشف التخطيط، وتقسيم الأسطر، وتحديد الكلمات، ثم التعرف الضوئي على الحروف.

وفي المرحلة الأخيرة يعالج التطبيق “زنكي” اللغة ويحلل النص ويضبطه ضبطًا دقيقًا. ثم يكتشف محرك البحث موضوع الوثيقة ويستخلص المعلومات المفيدة منها ويصنفها. كما يتعرف على الأعلام ويصحح النص آليًّا، ويضع الفهرسة، إلى جانب التخريج الآلي للآيات والأحاديث والأشعار[21].

ثالثًا: تحويل النص إلى كلام منطوق: TTS [22]

تمرّ عملية معالجة النص اللغوي آليًّا لتحويله إلى كلام منطوق بمرحلتين أساسيتين، الأولى هي توصيف اللغة، أي تحويل النص إلى فونيمات[23]، وفي العربية يؤدي الضبط بالشكل دورًا مهمًّا في تحديد الفونيمات، ويتضمن التوصيف اللغوي معلومات عديدة من الكلمة نفسها، كالفونيمات المجاورة، وعدد مقاطع الكلمة وموقع المقطع من الكلمة، ونوع الأسلوب (إنشائي أو خبري) وغير ذلك، وفي المرحلة الثانية تُنتَج إشارات الكلام عن طريق تسجيل قاعدة بيانات من متكلم واحد لمدة قد تصل إلى آلاف الساعات، وتقسيمها إلى وحدات، لإنتاج الكلام باختيار الوحدات المناسبة[24].

ويبدو أن هذا النوع من التطبيقات تطوّر في السنوات الأخيرة، ففي محاضرة للدكتور محسن رشوان الشريك المؤسس للشركة الهندسية لتطوير الأنظمة الرقمية RDI، أوضح أن تحويل النص إلى كلام بات يمر بمراحل ثلاث؛ إذ يُدخل النصّ إلى ما يُدعى “ممهّد النص” الذي يحول بعض رموزه إلى كلمات، كتحويل حرف نقطة (أ.) قبل الاسم العلم إلى (أستاذ) على سبيل المثال، وحرف (هـ) بعد التاريخ السنوي إلى (هجري)، وهكذا، ثم يُدخَل إلى المشكل الآلي، لأن معظم النصوص العربية غير مشكلة وهذا أمر ذو أثر كبير في توضيح المعنى، وبعدها مباشرة إلى الناطق الآلي، ويؤكد الدكتور رشوان أن التحليل الصرفي والتحليل النحوي لم يعودا مهمين جدًا في مجال الحوسبة للغة العربية، ولكن الأهمية الحقيقية الآن لوجود كميات ضخمة من البيانات المضبوطة بالشكل للوصول إلى الهدف[25]. كما وفرت تقنية استنساخ البيانات بما فيها البيانات الصوتية إمكانية الاعتماد على تسجيلات صوتية بشرية قصيرة جدًّا قد لا تتجاوز ثلاث ثوان، ثم استنساخها وتطبيقها على نصوص مكتوبة مختلفة. وقد أنتجت شركة RDI برنامج “ناطق”[26] لقراءة النصوص العربية، الذي حقق بدعمٍ من وحدة التشكيل الآلي نسبة عالية من الدقة في تحويل النصوص العربية إلى أصوات شبه طبيعية تولّد أتوماتيكيًّا، وهو يستقبل النص من لوحة المفاتيح مباشرة أو من ملفات محفوظة، وقد أتاحته الشركة مجانًّا في صورة موقع إلكتروني وتطبيق للهواتف الذكية.

رابعًا: إدارة الحوار والإجابة عن الأسئلة:

تُعد قدرة الحواسيب على الإجابة عن الأسئلة نوعًا من استرجاع المعلومات المخزنة، لكنها تتطلب وسائل معالجة متقدمة للغة لكي يتمكن الحاسب من فهم أي سؤال مكتوب أو بلغة عادية بسيطة، وتقديم الإجابة عن السؤال فقط، أو الإرشاد إلى المستندات التي تتضمن هذه الإجابة، ولم تصل هذه التطبيقات إلى ما هي عليه الآن من تقدم مذهل إلا بعد تطوير الويب الدلالية[27] خلال السنوات القليلة الماضية، وتطوير قدرة محرك البحث على فهم السؤال باللغة العادية. ويتلقى هذا النوع من التطبيقات الكلام المكتوب أو المنطوق، ثم يُجري بتقنية محددة تحليلًا لهذه المدخلات باستخدام تحليل لغوي متعمق للبيانات المقدّمة، ثم يُحلّل رسالة المستخدم ويُحدّد هدف التفاعل، ليولّد في الخطة النهائية الكلام، أي أنه يصوغ الاستجابة بناء على إنشاء لغة طبيعية أو اختيارها من ذاكرة سير العمل. وفي كل مرة يتفاعل فيها هذا التطبيق مع عميل أو مستهلك فإنه يزيد من مجموعة البيانات المستخدمة للتدريب، وهو الأمر الذي يحسّن دقة فهمها واستجابتها لمدخلات المستخدم. وتُعرف الدردشة النصية باسم “شات بوت”، والدردشة الصوتية باسم “فويس بوت”، والقادم القريب يَعِدُ بولادة “الفيديو بوت”. من أشهر أنظمة الدردشة التي باتت بين أيدي الجميع نظام “شات جي بي تي” الذي طورته شركة أوبن آي Open AI وهو إحدى ثمار الثورة الصناعية الرابعة التي اخترقت فيها التكنولوجيا حياة الإنسان؛ ولا تزال جولات المنافسة في وادي السيليكون لإصدار تكنولوجيا أكثر كفاءة مستمرة، ومن أحدث هذه الإصدارات (كلود 3 أبوس) الذي تفوق في العديد من الاختبارات القياسية على “شات جي بي تي”.

رابعًا: كشف الاستلال أو السرقات العلمية:

تعتمد هذه التقنية على تحليل النص واستخراج الأجزاء المشتبه في استلالها من غيره، ولا يقتصر عمل تطبيقات الاستلال على كشف الأجزاء المنقولة حرفيًّا من النصوص الأخرى، بل يشمل كشف الكلمات أو الجمل المعاد ترتيبها، أو استبدال بعض التعبيرات مع المحافظة على معناها.

وتعمل هذه التطبيقات بطريقتين: الأولى هي التحليل الخارجي الذي يقسم النص إلى فقرات، ثم يستخرج الكلمات المفتاحية في كل فقرة، ثم يكوّن جمل بحث يسترجع من خلالها النصوص المشتبه الاستلال منها ويقارنها بالنص موضع المعالجة. أما الطريقة الثانية فهي التحليل الذاتي للنص، وتوفر هذه الطريقة رسمًا بيانيًّا يوضح مقدار التناسق اللغوي للنص المدخل، أي الأجزاء المختلفة عن باقي النص وهي الأجزاء المشتبه فيها.

وتنتشر على شبكة الإنترنت تطبيقات كثيرة لكشف الانتحال أشهرها برنامج Turnittin الذي أنتجته شركة iparadigms.

خامسًا: فهم الصوت:

لا تقل عملية تحليل الأوامر الصوتية وفهمها تعقيدًا عن تحويل النص إلى كلام منطوق، وهي بأبسط صورها تحويل الاهتزازات الصوتية إلى إشارات رقمية ورموز يفهمها الحاسب، ثم مقارنة مكونات الصوت “الفونيمات” بالمقاطع الصوتية المخزنة لديه، ثم فصل اللفظ عن الصوت للكشف عن معناه عبر عمليات إحصائية في المكانز اللغوية التي أُنشئت من الكلمات المعروفة والجمل الشائعة[28]. وهذا التطبيق التقني مطبّق حاليًّا في مجالات عدة؛ منها الاتصالات وعمليات البحث على محركات البحث، والألعاب الإلكترونية، وهي خير معين لمن يريدون إدخال بيانات معينة إلى الحاسوب مع وجود إعاقة في الأيدي تمنعهم من الكتابة.

وقد أطلق معهد الابتكار التكنولوجي في أبوظبي نموذجًا قادرًا على فهم جميع التعليمات الصوتية المنطوقة باللغة العربية، هو نموذج “نور”، الذي يوصف بأنه أكبر نموذج مدرب مسبقًا على معالجة اللغة العربية[29].

وقد تطور هذا النوع من التطبيقات إلى حدّ تجاوز فهم الحاسب للصوت إلى تحليل مزاج المتحدث اعتمادًا على نبرة صوته وبعض الكلمات التي يختارها في حديثه، فكلمات قليلة كافية لوصف الحالة المزاجية لشخص ما بين السعادة والتعاسة، كما أن الصوت ونبرة التحدث تقول الكثير عن أصحابها.

وجاء في تقرير لدويتشه فيلا أن شركة audeering أنتجت برنامجًا يُجري فلترة لأكثر من 6000 معيار للصوت البشري؛ كارتفاع النبرة أو لون نغمته في سبيل السعي إلى فتح نافذة إلى نفوس الآخرين، وهذا الأمر يفيد الشركات التجارية على سبيل إلى حدّ كبير في تحديد مستوى الرضا لدى عملائها، لكن استخدام هذا النوع من التطبيقات لا يزال يجري بحذر، لأنه يثير قضايا أخلاقية تتعلق بالخصوصية، وقد نقلت دويتشه فيلا في تقريرها عن أستاذة الأخلاق الرقمية في جامعة زيورخ، كورنيليا ديتلم، قولها في هذا الشأن: “أصواتنا تفشي الكثير عنا؛ مثل الحالة المعنوية أو الصحة والمرض، وهذه بيانات حساسة لا يجب على أي شركة أن تمسها ما لم أسمح لها صراحة بذلك”[30].

التحديات التي تواجهها اللسانيات الحاسوبية العربية:

تواجه عمليات حوسبة اللغة العربية تحديات شتى، يمكن تصنيفها إلى نوعين من التحديات؛ بعضها يأتي من داخل اللغة وبعضها من خارجها، وسنتناول فيما يأتي أبرزها:

أ- تحديات تفرضها طبيعة اللغة: (من داخل اللغة)

شغلت الباحثين في معالجة اللغة العربية حاسوبيًّا قضيةُ اللبس الذي تثيره شؤون لغوية عدة هي من صميم تكوين هذه اللغة وطبيعتها، أولها غياب الضبط بالشكل في معظم المواد المكتوبة أو المقروءة، والضبط بالشكل كثيرًا ما يكون حاسمًا في دقة نقل الرسالة في اللغة العربية، فالحركات في أغلب الجمل هي التي تحدد الفاعل وتميزه عن المفعول به في الجملة العربية على سبيل المثال، كما أنها تؤدي إلى تعدد احتمالات القراءة، فكلمة (وُعِد)- في حال غياب الضبط بالشكل- يمكن قراءتها بصورة تُحوّل المعنى إلى “وأحصى”، بجعل حرف الواو حرف عطف، أو ربما تُقرأ بفتح الواو وسكون العين لتصبح بمعنى “عهد”.

كما تثير الدلالة التي يفرضها السياق اللبسَ في مواضع كثيرة، فكلمة (ساعة) على سبيل المثال تعني آلة الزمن، وتعني أيضًا فترة من الزمن، ولا يحدد معناها إلا السياق الذي يضمّها، وتحوّل الدلالة يمثّل تحديًّا آخر، فهو يُكسب الكلمات معاني جديدة لم تكن لها في كتب التراث، ككلمة (سيّارة) التي كانت تعني قافلة، وتحولت دلالتها إلى آلة للتنقل. كما أن تعدّد المعاني للفظة الواحدة يمثل تحدّيًا رابعًا أمام حوسبة اللغة، فلكلمة (عين) على سبيل المثال معانٍ كثيرة في العربية.

وإذا ما أضفنا إلى ما سبق اللبسَ الذي قد تسببه الاستعمالات المجازية للألفاظ، ومرونة التركيب النحوي وإمكانية التقديم والتأخير في مكونات الجملة، وغيرها الكثير من المسائل النحوية والبلاغية فإننا ندرك أن ما يفهمه القارئ البشري بسبب ثقافته ومعرفته بالسياقات واستخدامه المنطق في تفسير الوحدات اللغوية المتعددة المعاني، يمثّل عقبات أمام فهم الآلة للغة العربية؛ ما يستدعي عملًا جبّارًا من علماء اللغة المتخصصين وخبراء الحاسب، لجمع جميع الوحدات اللغوية التي تستدعي لبسًا في المعنى، وتحديد تفسير لكل سياق تأتي فيه، وتغذية الحاسب بها؛ إضافة إلى الاستعانة بتقنيات الذكاء الاصطناعي لدعم عملية التعلم الذاتي لدى الحاسب من خلال المكانز والمدوّنات اللغوية الرصينة والمراجَعة المنضبطة.

ب- تحديات لا علاقة لها بطبيعة اللغة، (من خارج اللغة):

برغم كثرة العاملين في حوسبة اللغة العربية، والوفرة النسبية لأبحاث الحوسبة اللغوية، فإن ما يلفت النظر أن جلّ المنتجات العربية المتاحة اليوم في السوق هي من إنتاج شركات كبرى مثل غوغل ومايكروسوفت وآبل وسامسونج، وأن جهود الباحثين الأكاديميين في المؤسسات البحثية لم تسفر عن إضافة منتجات جديدة ذات أثر إذا ما قورنت بمنتجات الشركات الكبرى[31]، وهذا عائد إلى أسباب عدة؛ منها محدودية المحتوى الرقمي العربي على شبكة الإنترنت، والمنافسة الكبيرة من اللغة الإنجليزية، فبحسب إحصاءات منصة “دبليو ثري تكس” للتدريب وتوفير الاستشارات حول تطوير البرمجيات، فإن نسبة المحتوى العربي من إجمالي المحتوى العالمي على شبكة الإنترنت هو 0.6%، في مقابل 50.1% للغة الإنجليزية[32]، وهذا الضعف في المحتوى يمتد إلى التطبيقات الآلية التي تعالج هذا المحتوى، فالمحتوى الرقمي الضخم والموارد الموسومة[33] هي التي يبني عليها الذكاء الاصطناعي تدريب النماذج اللغوية، وهي متوافرة بكمّ هائل في اللغة الإنجليزية بينما تُعد العربية فقيرة بها.

ويمثل نقص الكوادر المؤهلة في هذا النوع من العلوم الجديدة تحديًّا آخر، فتعليم علوم الحاسوب في معظم نُظم التعليم المدرسية في الدول العربية يقتصر على مبادئ أوليّة لا ترقى إلى التعريف بعلوم البرمجة، وحتى إن وُجدت هذه الكوادر فإنها تهاجر للالتحاق بالشركات العالمية الكبرى، كما أن معظم الجامعات العربية لم تستحدث بعد أقسامًا في كلياتها تتيح التخصص في الدراسات اللغوية الحاسوبية.

أما التحدي الثالث فهو أن البحث العلمي في معظم الدول العربية لا يحظى بالدعم المادي الذي يحتاج إليه، ومعلوم أن التمويل لتطوير البحث الحاسوبي يمثل البنية التحتية لعمليات التطوير والبحث، ونقصه يؤدي إلى غياب الجانب العملي فيها، إذ لا تجد هذه البحوث البيئة المتكاملة لدورة حياة المنتج منذ ولادته بحثًا نظريًّا وصولًا إلى التطبيق ثم إلى السوق، وهو ما ينبغي أن يتحقق من خلال الربط بين بيئة البحث وبيئة العمل[34].

حلول وخطوات جادة على الطريق الطويل

قدّم تقرير حالة اللغة العربية ومستقبلها الذي أنجزته وزارة الثقافة والشباب منذ بضع سنوات توصيات مهمة لترسيخ العربية في عمق المعرفة التقنية، كونه السبيل الأقوى للحفاظ عليها وتوثيق العلوم والمعارف بها وتوريثها للأجيال، ومن هذه التوصيات التمويل والاستثمار في المشاريع الخاصة باللغة العربية والتكنولوجيا، وتنشيط البحوث العلمية والدراسات الخاصة بالذكاء الاصطناعي، وهذا ما سعت إليه دولة الإمارات بالفعل من خلال جامعة محمد بن زايد للذكاء الاصطناعي، التي كان افتتاحها عام 2019 جزءًا من استراتيجية الدولة في الذكاء الاصطناعي، لتكون أول جامعة في العالم للدراسات العليا المتخصصة ببحوث الذكاء الاصطناعي، وهي تتيح برامج الماجستير والدكتوراه في معالجة اللغات الطبيعية، وتموّلها حكومة دولة الإمارات تمويلًا كاملًا[35] في سبيل دعم البحث العلمي في هذا الحقل وتأهيل كوادر متخصصة تدفع به قُدمًا.

ولأن توفير الموارد هو نواة العمل للغوي المحوسب، وهو أحد التحديات الماثلة في وجه تطوير البحث المحوسب للغة العربية فإن تكاتف المختصين اللغويين والتقنيين لإنشاء المدونات المحوسبة شأن مهم جدًّا، وقد بدأت بعض الجهود تتجه إليه، فأنشأ مختبر العمليات الحاسوبية لنمذجة اللغات في جامعة نيويورك في أبوظبي مكنز (قُمر) للهجة العربية الخليجية، وقد ركز هذا المكنز على الروايات العربية ذات المحتوى الخليجي وتحليلها وجمعها في مستندات لتكون بذلك مادة غنية لبناء هذا المكنز، إضافة إلى وجود مكانز[36] أخرى كمكنز “كراس” الذي أطلقته جامعة بير زيت في فلسطين للهجة الفلسطينية، ومكنز “بلدي” للهجة اللبنانية، و”لسان” الذي يجمع مدونات العاميات العراقية واليمنية والسودانية والليبية، وغيرها من المكانز والمدونات، ويُذكر أن المختبر اللغوي في جامعة نيويورك أبوظبي أنجز مشروعات عدة في مجال حوسبة اللغة؛ منها برنامج “سامر” وهو مبادرة بحثية تمولها الجامعة، وتهدف إلى وضع معايير وأدوات لتبسيط روائع الأدب العربي وجعلها مناسبة للمتعلمين الناشئين، ومشروع “مداميرا” للتحليل الصرفي.

كما أن لدولة الإمارات إنجازًا كبيرًا في مجال المعاجم المحوسبة وهو المعجم التاريخي للغة العربية الذي يضطلع بإنشائه المجمع اللغوي في الشارقة، وقد زُوّد بقارئ ذكي يتميز بخوارزميات متطورة وقدرة على التعلم الذاتي والتطوير المستمر، ما يمكّنه من التعرف على الحروف العربية بدقة عالية، كما يستخدم المعجم ماسحًا ضوئيًّا بدقة تصل إلى 99.9%، وهو قادر على فهم الحروف بأشكالها المختلفة، وتنقية الصور الضوئية تلقائيًّا لضمان جودة المخرجات[37].

وتستمر الجهود وتتنامى في أنحاء الوطن العربي لمواجهة التحديات السابقة الذكر، ومنها جهود الشركة الهندسية لتطوير النظم الرقمية RDI التي تأسست عام 1993، وطوّرت تطبيقات كثيرة من أهمها تطبيق التشكيل الآلي الذي وصلت دقته إلى 96% بحسب الشركة، وتطبيق “ناطق”، وتطبيق “كاتب”، وتطبيقات “قارئ الهوية” المفتوحة المصدر.

ومن أحدث هذه الجهود إطلاق مجمع الملك سلمان العالمي للغة العربية بمدينة الرياض في إبريل 2024 أوَّلَ مركز ذكاء اصطناعي للمعالجة الآلية للغة العربية، باسم: (مركز ذكاء العربية)[38]، وبحسب الأمين العام للمجمع فإن المجمع سيسهم في إثراء المحتوى العربي بمجالات البيانات والذكاء الاصطناعي، ودعم الأبحاث، والتطبيقات، والقدرات المتعلقة بمجالات الذكاء الاصطناعي واللغة العربية وتنميتها، وتوفير رخص مدفوعة للباحثين، ودعم الدراسات التي تتقاطع مع أهدافه، والإسهام في توسيم البيانات للأبحاث المشتركة.

خاتمة:

الذكاء الاصطناعي ثورة صناعية جديدة تُعنى بالقدرات العقلية البشرية وتهتم بدراستها ومحاكاتها ونمذجتها آليًّا من منطلق أساسي مفاده أن لكل نشاط معرفي نموذجه الحاسوبي، وهذا يعدّ بالكثير في مجال اللغة تعليمًا وتأليفًا وحفظًا وتطويرًا، وقد أظهرت هذه الإطلالة السريعة على عالم المعالجة الآلية للغة العربية أنه وبرغم وجود المعوقات والتحديات الكبرى فإن هناك تطورًا مستمرًا في مجال الذكاء الاصطناعي وتطبيقاته على اللغة العربية، وهناك عمل عربي مستمر وسعي دؤوب لتحسين النماذج والأدوات وإنتاج تطبيقات أدقّ وأكثر فاعلية في هذا المجال. ولأن اللغة شريك أساسي في جميع مناحي الحياة السياسية والاقتصادية والثقافية؛ فإن لحاقها بركب التطور مطلب قومي واستراتيجي لا بد من تحقيقه، والطريق إلى ذلك بات واضحًا؛ إنه بعث الحياة في ذخائر اللغة العربية المستقرة منذ زمن على رفوف المكتبات وتحويلها إلى مواد محوسبة تتطور بلا توقف عبر العمليات التحليلية والتوليدية، التي تتيحها اللسانيات الحاسوبية.

[1] اللغة الطبيعية مصطلح يعني اللغة البشرية المكتسبة منذ الطفولة، وهي تنتقل من الآباء إلى الأبناء بصورة عفوية، تقابلها اللغة الاصطناعية التي ينشئها الإنسان كلغة البرمجة مثلًا.

[2] اختصار لـ Natural Language Processing.

[3] فرديناند دي سوسير، محاضرات في علم اللسان العام، ترجمة عبد القادر قنيني، أفريقيا الشرق، 1987، ص 24-25.

[4] علي القاسمي، علم المصطلح وأسسه النظرية وتطبيقاته العلمية، بيروت، لبنان، مكتب ناشرون، بيروت ص711.

[5] انظر مازن الوعر، دراسات لسانية تطبيقية، طلاس للدراسات والنشر والترجمة والنشر، الطبعة الأولى، 1989، ص322.

[6] عبدالرحمن بن حسن العارف، (توظيف اللسانيات الحاسوبية في خدمة الدراسات اللغوية. جهود ونتائج)، جامعة أم القرى، ص6.

[7] انظر: عمر مهديوي، (توليد الأسماء من الجذور الثلاثية الصحيحة في اللغة العربية)، مقاربة لسانية حاسوبية، 2009، ص17.

[8] برولوغ (Prolog) لغة برمجة منطقية، صُممت لتُستخدم في عمل برامج معالجة اللغات الطبيعية، وهي محاولة لجعل لغة البرمجة قادرة على استخدام عبارات منطقية بدلًا من أن تكون تعليمات محددة تلقَّن للحاسوب.

[9] إيمان بلحداد وزهور شتوح، (اللغة العربية والحاسوب عند نبيل علي وعبد ذياب العجيلي)، جسور المعرفة، ص ص 48-64 المجلد 7، العدد (1) مارس 2021.

[10] محمد الشارخ مؤسس شركة “صخر” وأول من أدخل العربية للحاسوب، موقع الجزيرة، على الرابط: https://tinyurl.com/56kjxx32.

[11] أودري أزولاي، المديرة العامّة لمنظّمة الأمم المتّحدة للتربية والعلم والثقافة، تقرير حالة اللغة العربية ومستقبلها، وزارة الثقافة والشباب بدولة الإمارات، ص8.

[12] رابط محرك البحث لبلب: https://lableb.com/ar .

[13] رابط منصة ألف للتعليم: https://www.alefeducation.com/ar /.

[14] مأمون الحطاب، (الترجمة الآلية للغة العربية: قضايا وحلول) بحث مقدم في الموسم الثقافي السادس والعشرين لمجمع اللغة العربية الأردني، 2008

[15] أبو الحجاج محمد بشير، مجلة لغة العصر، العدد 92، أوغست 2008، ص 18.

[16] اختصار لـ Neural Machine Translation.

[17] https://www.globalizationpartners.com/neural-machine-translation-services/?lang=ar

[18] نسمة عبدالحميد، استخدام تقنية ICR التعرف الذكي على الحروف المكتوبة بخط اليد في قراءة الوثائق والمخطوطات، الروزنامة الحولية المصرية، العدد20، ص15.

[19] المرجع السابق ص13.

[20] https://zinki.ai

[21] الصغير محمد الغربي: (تطبيق تونسي يحوّل المخطوطات إلى نصوص رقمية) على الرابط: https://tinyurl.com/j4uscns7 .

[22]اختصار لـ:Text-to-Speech.

[23] الفونيمات جمع فونيم، وهو أصغر وحدة صوتية تؤدي إلى تغّير في المعنى، وقد تكون حروفًا أو حركات.

[24] انظر: محسن رشوان والمعتز بالله السعيد، (تطبيقات أساسية في المعالجة الآلية للغة العربية) مركز الملك عبدالله بن عبد العزيز لخدمة اللغة العربية، 2019، ص ص77-79

[25] د. محسن رشوان (اللغة والذكاء الاصطناعي): قناة حلقة اللسانيين بالقاهرة على اليوتيوب على الرابط: https://www.youtube.com/watch?v=bY1pzOnw6zc .

[26] https://rdi-natiq.com/ar/home .

[27] الويب الدلالي رؤية حول امتداد لشبكة الويب العالمية الموجودة حاليًا، وهي تزود البرامج ببيانات وصفية يمكن أن تفسر آليًّا المعلومات والبيانات المنشورة، أي هي إضافة المزيد من واصفات البيانات Data Descriptors إلى المحتوى والبيانات الموجودة، بخلاف الموجودة مسبقًا على الويب.

[28] انظر: الموقع الإلكتروني لجامعة أم القرى، نظام التعرُّف على الكلام، على الرابط: https://uqu.edu.sa/ccl/92915 .

[29] معهد الابتكار التكنولوجي يطلق “نور” نموذج الذكاء الاصطناعي القادر على معالجة اللغة العربية: https://tinyurl.com/sfzr5zry .

[30] https://www.youtube.com/watch?v=V7mfe2Hy30o

[31] دليل أبحاث حوسبة اللغة العربية ج1، مجمع اللغة العربية الأردني، ط1، عمان-الأردن، 2019

[32]https://w3techs.com/technologies/overview/content_language .

[33]الوسم باللغة الإنجليزية (Tag) وهو كلمة توصيفية أو عبارة قصيرة يتم استخدامها من أجل تعريف أو توضيح محتوى معيّن، ووسم المدونات اللغوية هو إضافة معلومات لغوية أو غير لغوية إلى مواد المدونة اللغوية لإثرائها بمعلومات إضافية تزيد من فائدتها أو تسهل البحث فيها وتحليل نصوصها.

[34] دليل أبحاث حوسبة اللغة العربية ج1، مجمع اللغة العربية الأردني، ط1، عمّان-الأردن،2019

[35] الموقع الإلكتروني لجامعة محمد بن زايد للذكاء الاصطناعي: https://mbzuai.ac.ae/ar/study/msc-programs /.

[36] للمزيد: منصة المدونات والذخائر اللغوية على الرابط: https://sina.birzeit.edu/currasat/about-ar.html .

[37] https://tinyurl.com/2u7e9ewd

[38] https://tinyurl.com/2p9uferc

الإقليم الجغرافي

موضوعات

اللسانيات الحاسوبية… البدايات والتطبيقات والتحديات

اللسانيات الحاسوبية… البدايات والتطبيقات والتحديات

رنا الدقاق

نورة الحبسي

المواضيع ذات الصلة

الذكاء الاصطناعي والتكنولوجيا المتقدمة

الذكاء الاصطناعي كمدخل استراتيجي لتعزيز الأمن المائي واستدامة الموارد

الذكاء الاصطناعي والتكنولوجيا المتقدمة

يوتوبيا الذكاء الاصطناعي

الذكاء الاصطناعي والتكنولوجيا المتقدمة

الشرق الأوسط

كيف يمكن لدولة الإمارات العربية المتحدة صياغة سيادة السحابة الفضائية لتضمن التفوق في الذكاء الصناعي

الذكاء الاصطناعي والتكنولوجيا المتقدمة

حوكمة الذكاء الاصطناعي: تصورات بشأن استدامة السحب السيادية