إعـــــــلان

تقليص
لا يوجد إعلان حتى الآن.

تحدث إلى حاسوبك - مجلة العلوم الكويتية

تقليص
X
 
  • تصفية - فلترة
  • الوقت
  • عرض
إلغاء تحديد الكل
مشاركات جديدة

  • تحدث إلى حاسوبك - مجلة العلوم الكويتية

    مشروع الحوسبة: أكسجين
    تحدث إلى حاسوبك(*)
    إن واجهات تخاطب معقدة تعتمد على الكلام قد تسمح قريبا
    باسترجاع معلومات وإصدار أوامر للحواسيب من دون أن يحرك
    مستخدموها إصبعا.
    <V. زيو>


    لعقود خلت، تصور كتّاب الخيال العلمي عَالَما يكون فيه الكلام هو الواجهة الأكثر شيوعا بين الناس والآلات. هذا إلى حد ما نتيجة للرغبة الشديدة في جعل الحواسيب تتصرف مثل الكائنات البشرية؛ لكن الأمر أعقد من ذلك. إن الكلام شيء طبيعي، فنحن نعرف كيف نتكلم قبل أن نعرف كيف نقرأ ونكتب. والكلام أيضا فعّال، فمعظم الناس يستطيعون التكلم أسرع بنحو خمس مرات مما يستطيعون الضرب على آلة كاتبة أو ربما عشرة أمثال أسرع مما يستطيعون الكتابة. كما أن الكلام مرن، حيث لا نحتاج إلى أن نلمس أو نرى أي شيء للشروع أو المضي في محادثة.

    بدأ الجيل الأول للواجهات التي تعتمد على الكلام بالظهور مشتملا نظما عالية الأداء يمكنها تعرّف عشرات آلاف الكلمات. وفي الحقيقة، يمكنك الآن أن تشتري من أي متجر من متاجر الحواسيب برامج تعرّف الكلام من أجل التصحيح الإملائي. وهذه البرامج أنتجتها آي بي إم ودراگون سيستمز وليرن آوت أند هوسپي وفيليپس. كما يمكن لنظم أخرى أن تقبل كلاما مرتجلا منقولا عبر الهاتف. وكانت المختبرات AT&T Bell رائدة في استخدام نظم تمييز الكلام لتعاملات الهاتف، والآن دخلت في هذا الحقل أيضا شركات مثل فيليپس وسپيتش وركرز. إن التقانة المستخدمة حاليا موظفة في خدمات المساعدة الافتراضية virtual-assistant services، مثل خدمات جنرال ماجيكس پورتيكو General Magic's Portico التي تسمح لمستخدمي الحاسوب (للمستثمرين) بالاستفسار عن الأخبار وأسعار الأسهم وحتى الاستماع إلى البريد الإلكتروني عبر الهاتف. ولكن المشروع أكسجين Oxygen سيتطلب نظما أكثر تطورا بكثير لتعرف الكلام.

    وفي اعتقادي إن الجيل القادم من واجهات التخاطب التي تعتمد على الكلام سيسمح للأشخاص بالتواصل مع الحواسيب بالطريقة نفسها التي يتواصلون بها فيما بينهم؛ لذا فإن مفهوم المحادثة بالغ الأهمية. ويجب أن يضاف إلى الطريقة التقليدية في تعرّف الأصوات (تلك الطريقة التي تحول الإشارات الصوتية إلى رموز رقمية) برمجيات فهم اللغة لكي يتمكن الحاسوب من أن يستوعب معنى الكلمة المنطوقة.

    أما من ناحية المخرجات، فيجب أن تكون الآلة قادرة على التعبير، فعليها أن تأخذ وثائق من الويب (الشبكة العنكبوتية العالمية) لتحدد المعلومة المناسبة ومن ثم لوضعها في جمل مترابطة التركيب. وعبر هذه العملية، يجب على الآلة أن تجري حوارا مع مستخدم الحاسوب بحيث تستوضح الأخطاء التي يمكن أن تكون قد وقعت بها. وذلك، على سبيل المثال، من خلال طرح أسئلة مثل «هل قلت بوستن أو ماساتشوستس أو أوستن، تكساس؟»

    گالاكسي تتكلم
    لقد أمضينا العقد الماضي في مختبر M.I.T لعلم الحاسوب ونحن نعمل على نظم من هذا النوع من واجهات التخاطب. ولسوء الحظ فإن الآلات التي طُورت حتى الآن ليست بذلك الذكاء المفرط، إذ لا يمكنها التعامل إلا مع مجالات معرفية محددة، مثل تنبؤات الطقس ومواعيد الرحلات الجوية. وهذه المعلومات يُجرى تحديثها باستمرار ويمكنك الحصول عليها هاتفيا. إلا أن الآلات يمكنها التواصل بعدة لغات؛ واللغات الثلاث التي أوليناها الأهمية القصوى هي اللغة الإنكليزية الأمريكية والإسبانية واللغة الصينية الرئيسية. ويمكن لهذه النظم الإجابة عن الأسئلة بالزمن الحقيقي real time، (أي بالسرعة التي تجري فيها المحادثة بين شخصين)، وذلك بعد طرح المدة اللازمة لترحيل المعلومات من الويب.

    محادثة مع جوپيتر
    فيما يلي نصّ المحادثة الهاتفية بين ڤيكتور زيو (V.Z) ونظام جوپيتر لمعلومات الطقس. ورقم هاتف جوپيتر المجاني هو 8255-573-888-1.
    [يرن الهاتف]
    جوپيتر: مرحبا بكم في جوپيتر، نظام معلومات الطقس في مختبر المعهد M.I.T لعلم الحاسوب. سنقوم بتسجيل هذا الاتصال الهاتفي بغرض تطوير النظام. ويمكنك أن تغلق الخط أو تسأل عن مساعدة في أي وقت تريد. كيف يمكنني أن أساعدك؟
    V.Z: ما هي تنبؤات طقس بوستن اليوم؟
    [تُعزف موسيقى مقدمة العرض التلفزيوني جيوپاردي Jeopardy خلال سبع ثوان. وتتبع كل سؤال من أسئلة زيو اللاحقة وقفة تدوم من ثانية إلى ثلاث ثوان].
    جوپيتر: في بوستن بعد الظهر، يكون الطقس مشمسا جزئيا وعاصفا. ودرجة الحرارة القصوى 50 درجة. الليل، صاف ودرجة الحرارة الدنيا 35 درجة. ماذا يمكن أن أقدم لك من معلومات أخرى؟
    V.Z: هل ستمطر غدا؟
    جوپيتر: بحسب معرفتي، تقول التنبؤات إنه لا أمطار في بوستن غدا. هل هناك شيء آخر؟
    V.Z: ماذا عن سياتل؟
    جوپيتر: بحسب معرفتي، تقول التنبؤات إنه لا أمطار في سياتل غدا. هل هناك شيء آخر ترغب في معرفته؟
    V.Z: هل سيكون الجو مشمسا في أي مكان في الكاريبي؟
    جوپيتر: آسف، لست متأكدا مما قلتَ.
    V.Z: هل سيكون الجو مشمسا في أي مكان في الكاريبي؟
    جوپيتر: أنا آسف، ربما لا أعرف المدينة التي تسأل عنها. حاول السؤال عن الولاية أو البلد. فمثلا، ما هي المدن التي تعرف عنها في ماساتشوستس؟
    V.Z: ما هي درجة الحرارة في مونتيگو بِي؟
    جوپيتر: اليوم في مونتيگو بي: العليا 86 والدنيا 73. هل هناك شيء آخر؟
    V.Z: مع السلامة.

    إن التطبيقات التي تعتمد على الكلام والتي أنتجناها موجودة ضمن معمارية architecture، تسمى گالاكسي Galaxy، أدخلتها مجموعتنا قبل خمس سنوات. إنها معمارية موزّعة، أي إن جميع الحسابات تُجرى في مخدمات بعيدة remote servers. ويمكن لگالاكسي أن تستحصل معلومات من أكثر من ميدان معرفي للإجابة عن استفسار المستخدم. كما يمكن للنظام التعامل مع أكثر من مستخدم في وقت واحد؛ وأخيرا، وليس آخرا، إنه قابل للتحريك. ويمكن الوصول إلى گالاكسي باستخدام الهاتف فقط، وإذا كان لديك ارتباط بالإنترنت، فبإمكانك ترحيل المعلومات إلى حاسوبك.

    تمتلك المعمارية گالاكسي خمس وظائف أساسية: تعرّف الكلام، فهم اللغة، تحصيل المعلومات، توليد اللغة، تركيب الكلام. وعندما تسأل گالاكسي سؤالا، يقوم مخدم يدعى سَمّيت Summit بملاءمة كلماتك المنطوقة مع ما هو مخزّن في مكتبة الفونيمات(1) phonemes. وعندئذ يقوم «سمّيت» بتوليد قائمة مرتبة لجمل مرشحة ـ وهي تخمينات الآلة لما قلته بالفعل. ولإيجاد معنى الجملة الأفضل تخمينا، يستخدم نظام گالاكسي مخدما آخر يدعى تينا Tina، يقوم بتطبيق قواعد لغوية أساسية لإعراب الجمل من حيث تحديد الفاعل والفعل والمفعول به، وهلم جرا. عندها يشكل المخدم تينا السؤال في إطار دلالي semantic frame، أي في سلسلة من الأوامر التي يستطيع النظام أن يفهمها. فمثلا، إذا سألت: «أين متحف المعهد M.I.T؟» يقوم تينا بطرح السؤال على شكل أمر: «حدد موقع المتحف المسمى متحف M.I.T.»

    في هذه المرحلة يكون گالاكسي مستعدا للبحث عن الأجوبة؛ إذ يقوم مخدم ثالث يدعى جينيسيز Genesis بتحويل الإطار الدلالي إلى استفسار مصمم لقاعدة البيانات التي خُزّنت فيها المعلومات المطلوبة. ويحدد النظام قاعدة بيانات البحث وذلك بتحليل سؤال المستخدم. وعندما تُستحصل المعلومة، يرتب تينا المعلومات في إطار دلالي جديد. ومن ثم يحول جينيسيز الإطار إلى جملة في لغة المستخدم: «يقع متحف M.I.T في 265 شارع ماساتشوستس في كامبريدج.» وأخيرا، يقوم مخدم آخر مخصص لتركيب الكلام بتحويل الجملة إلى كلمات منطوقة.


    توجز معمارية گالاكسي المهام المناطة بالتطبيقات التي تعتمد على الكلام مثل نظام ڤوياجر. فبعد أن يطرح المستخدم (المستثمر) سؤالا، يولد النظام مجموعة من التخمينات لما قاله هذا المستخدم، بعدها يحول أفضل جملة مخمنة إلى أوامر تستخدم في تحصيل المعلومات من قاعدة البيانات. وتُعالج المعلومات المستحصلة في جملة جوابية، ثم يقوم مركب كلامي بتحويلها إلى كلمات منطوقة.

    لقد صمم مختبرنا حتى الآن ما يقرب من نصف دستة من التطبيقات التي تستخدم گالاكسي والتي يمكن الوصول إليها عن طريق الهاتف. فجوپيتر Jupiter يقدم معلومات الطقس لِ500 مدينة عبر العالم. ويزود پيگاسوز Pegasus يوميا الجدول الزمني لِ 4000 رحلة جوية تجارية في الولايات المتحدة، وهذا الجدول يُحدَّث كل دقيقتين أو ثلاث دقائق. كما يقوم ڤوياجر Voyager بدور دليل الملاحة وحركة المرور في مناطق پوستن الواسعة. وللانتقال من تطبيق إلى آخر يقول المستخدم ببساطة: «أريد أن أتكلم مع جوپيتر» أو «صلني بڤوياجر». ولقد سجل جوپيتر عددا كبيرا من المكالمات، وحقق فهما صحيحا لنحو 80 في المئة من أسئلة مستخدمي النظام للمرة الأولى. كما سُجلت الاتصالات وقوّمت من أجل تحديث أداء النظام [انظر ما هو مؤطر في الصفحة المقابلة].

    يمكن أن يكون تعرّف الكلام هو الواجهة المثالية لدعم الأدوات باليد كجزء من مشروع أكسجين؛ حيث إن استخدام الكلام بإصدار الأوامر سيسمح بمرونة تحرك أكبر، فلن تكون هناك حاجة إلى استخدام لوحة مفاتيح ضخمة في الوحدة المحمولة. وستسمح اللغة المحكية للمستخدمين بالتواصل مع أجهزتهم بفعالية أكبر. ويمكن أن يقول أحد المديرين لحاسوبه أثناء سفره: «أخبرني عندما يكون سهم مايكروسوفت أكثر من 160 دولارا»؛ عندئذ ستتصرف الآلة تماما كمساعد بشري، وتنجز مهام متنوعة بأقل التعليمات.

    وبالطبع هناك عدة مشكلات بحثية تجب معالجتها. فعلينا إنجاز تطبيقات تقوم على تعرّف الكلام يمكنها معالجة عدة مجالات معقدة من المعلومات. فيجب على النظم أن تكون قادرة على الحصول على المعلومات من عدة حقول، وعلى سبيل المثال: حقل معلومات الطقس وحقل معلومات الرحلات الجوية، وذلك من دون أن تكون مزودة بتعليمات مباشرة بأن تفعل ذلك. كما يجب أن نزيد عدد اللغات التي يمكن للآلات فهمها. وأخيرا، وحتى نستثمر واجهة التخاطب الكلامية بشكل كامل، يجب على النظم أن تكون قادرة على أن تفعل أكثر مما نقول، بحيث يجب أن تفعل ما نعني. ومثاليا، ستسمح ـ مستقبلا ـ واجهات التخاطب التي تعتمد على الكلام بفهم نيات مستخدميها والإجابة ضمن السياق المطروح. وعلى الأغلب، فإن نظاما كهذا لن يتوافر قبل عقد من الزمن. ولكن عندما تنجز مثل هذه النظم فإنها ستكون جزءا متكاملا من البنية التحتية لنظام أكسجين.

    المؤلف
    Victor Zue
    مدير مساعد لمختبر المعهد M.I.T الخاص بعلم الحاسوب ورئيس مجموعة نظم اللغات المحكية المختبرية. وهو أيضا باحث أول في المعهد المذكور ومنه حصل على الدكتوراه في الهندسة الكهربائية عام 1976.

    (*) Talking with Your Computer
    (1) ج: فونيم phoneme: أي وحدة صوتية لا يمكن تقسيمها؛ ومن الفونيمات تتشكل الكلمات في جميع اللغات. (التحرير)
يعمل...
X