How We Teach Computers to Understand Pictures - Fei fei li - Ted talks

المترجم: Ibrahim Alsaafin المدقّق: Tamer Mekhimar دعوني أريكم شيئًا (فيديو) طفلة: حسنًا، هذه قطة تجلس في السرير الولد يداعب الفيل هؤلاء أناس سيسافرون على متن الطائرة تلك طائرة كبيرة فاي-فاي لِي: هذه طفلة عمرها ثلاثة أعوام تصف ما تراه في مجموعة من الصور ربما لا يزال أمامها الكثير لتتعلمه عن هذا العالم لكنها بالفعل خبيرة في مهمة ضرورية جدًا أن تعي وتعقل ما تراه مجتمعنا متقدمٌ تكنولوجيًا بشكل لم يسبق له مثيل نُرسل أناسًا إلى القمر أونجعل هواتفنا تتحدث إلينا أو نخصص محطات إذاعية تستطيع أن تعزف الموسيقى التي نحبها فقط لكن، آلاتنا وأجهزة الكمبيوتر الأكثر تطورًا لا تزال تشق طريقها جاهدةً لتنفيذ هذه المهمة لذلك جئت اليوم لأعطيكم تقريرًا مرحليًا عن آخر التطورات في أبحاثنا في مجال الإبصار الحاسوبي، وهو أحد التقنيات الرائدة بل وربما الثورية في مجال علوم الحاسوب نعم، لقد صنعنا نماذج لسيارات تستطيع أن تقود نفسها بنفسها لكن بدون إبصار ذكي لن تستطيع تلك السيارات أن تميز الفرق بدقة بين كيس ورقي متكوّم على الطريق بحيث يمكنها أن تمر فوقه وبين صخرة بنفس الحجم ينبغي عليها تجاوزها لقد صنعنا كاميرات رائعة تقاس دقتها بالميجا بكسل لكننا لم نمنح الأعمى بصرًا تستطيع الطائرات بدون طيار أن تحلق فوق مساحات شاسعة لكنها لا تملك تقنية إبصار كافية لتعيننا على تتبع التغيرات في الغابات المطيرة كاميرات المراقبة أصبحت في كل مكان لكنها لا تنبهنا عندما يوشك طفل على الغرق في بركة سباحة الصور والفيديوهات أصبحت جزءًا متكاملا مع الحياة على مستوى العالم لقد أصبحت تتدفق بوتيرة أسرع بكثير مما كان أي إنسان أو مجموعة من البشر يأمل في رؤيته وأنا وأنت نساهم في ذلك في مؤتمر TED هذا لكن ما تزال أكثر برامجنا تطورًا تواجه مشكلة في استيعاب وإدارة هذا المحتوى الهائل لذلك، وبكلمات أخرى نحن كمجتمع، بصورة جمعية فاقدون للبصر بشدة لأن أذكى آلاتنا لا تزال عمياء يمكنك أن تسأل "لِمَ ذلك من الصعوبة بمكان؟" تستطيع الكاميرات أن تلتقط صورًا كهذه عن طريق تحويل الضوء إلى مصفوفة أرقام ثنائية البعد تعرف باسم البكسل لكنها مجرد أرقام خالية من الحياة لا تحمل في ذاتها أي معنى تمامًا كما أن السّمْع يختلف عن الإصغاء فإن التقاط الصور يختلف عن الإبصار فبالإبصار، فإننا في الحقيقة نعني الفهم في الواقع، فإن الأمر استغرق الطبيعة الأم 540 مليون سنة من العمل المُضني لتنجز هذه المهمة ومعظم ذلك الجهد ذهب في سبيل تطوير جهاز معالجة بصرية في أدمغتنا وليس العين بحد ذاتها إذن، تبدأ الرؤية في العين لكنها حقيقة تحدث في الدماغ منذ 15 عامًا وحتى الآن بدأتها منذ كنت أحضر الدكتوراه في معهد كاليفورنيا للتكنولوجيا وبعد ذلك عندما كنت أقود مختبر الإبصار في ستانفورد كنت أعمل مع أساتذتي ومعاونيّ وتلامذتي على تعليم الحواسيب لكي تبصر مجال بحثنا يسمى الإبصار الحاسوبي وتعليم الحواسيب وهو جزء من المجال العام في الذكاء الصناعي ما نريد الوصول إليه هو أن نُعَلّم الآلات لكي تبصر مثلنا تمامًا تُسمي الأشياء بأسمائها وتتعرف على الأشخاص وتستدل على الأبعاد الثلاثية للأسطح تفهم العلاقات والعواطف والأفعال والنوايا أنت وأنا ننسج معا قصصًا كاملة عن الناس والأماكن والأشياء في اللحظة التي تقع فيها أبصارنا عليهم أول خطوة في سبيل تحقيق هذا الهدف هي أن نلقن الحاسوب كيف يرى الأشياء اللبِنة الأساسية للعالم المرئي بأبسط العبارات، تخيل هذه العملية التلقينية كأن نُري الحواسيب بعض الصور التدريبية لشيء معين، لنفترض قطة ونصمم نموذجا يمكنه أن يتعلم من هذه الصور التدريبية ما هو مبلغ الصعوبة في ذلك؟ ففي النهاية، ما القطة إلا مجموعة أشكال وألوان وهذا ما فعلناه في الأيام الأولى لعملية نَمْذجة الأشياء كنا نلقن خوارزمية الحاسوب بلغة رياضية أن القطة لها وجه مُدوّر وجسم مُكْتَنِز وأذنان مدببتان وذيل طويل وبدا ذلك مما لا بأس فيه لكن ماذا عن هذه القطة؟ (ضحك) أنها ملتفة حول نفسها الآن عليك أن تضيف شكلًا ومنظورًا آخرين للنموذج لكن ماذا لو كانت القطط مخفية؟ ماذا عن هذه القطط المُضحكة؟ لقد فهمتم الآن ما أعنيه حتى بالنسبة لشيء بسيط كحيوان أليف يمكن أن يقدم عددا لا نهائي من المتغيرات للنموذج وهذا مجرد شيء واحد فحسب لذا منذ حوالي ثمان سنوات ملاحظة بسيطة ومتعمقة غيرت تفكيري لا أحد يُعَلّم الطفل كيف يبصر خصوصًا في السنوات الأولى هم يتعلمون من خلال التجارب والأمثلة في العالم الحقيقي إذا أخذت في الاعتبار عيني طفل كزوج من الكاميرات الحيوية فإنها تلتقط صورة واحدة كل 200 ميللي ثانية تقريبًا وهو متوسط الوقت الذي تستغرقه حركة العين إذن ففي الثالثة من العمر يكون الطفل قد رأى مئات الملايين من الصور للعالم الحقيقي هذا يشكل كمًا كبيرًا من الأمثلة التدريبية ولذلك فبدلا من التركيز على تحسين الخوارزميات لوحدها فَطِنْت لأن أعطي الخوارزميات نفس النوع من البيانات التدريبية التي يحصل عليها الطفل من خلال التجارب من حيث الكمّ والنوع طالما أننا نعرف ذلك فقد عرفنا أننا نحتاج أن نجمع مجموعة بيانات تحتوي على صور أكثر بكثير مما كنا قد حصلنا عليه من قبل ربما أكثر بآلاف المرات وبالتعاون مع البروفيسور كاي لي من جامعة برينستون أطلقنا في العام 2007 مشروع ImageNet لحسن الحظ، لم يتعين علينا أن نَنْصِب كاميرا فوق رؤوسنا ثم ننتظر لسنوات عديدة لقد اتجهنا للإنترنت حيث يقبع أكبر كنز من الصور أنتجته البشرية على الإطلاق لقد قمنا بتحميل ما يقارب المليار صورة واستخدمنا تقنية "التعهيد الجماعي" كتلك التي توفرها منصة "أمازون ميكنيكال تورك" ـ لتساعدنا في تصنيف تلك الصور كان مشروع ImageNet في ذروته واحدًا من أكبر المُشَغّلين للعاملين على منصة أمازون تلك معًا، كانوا 50,000 عامل تقريبًا من 167 دولة حول العالم ساعدونا في ترتيب وفرز وتصنيف ما يقرب من مليار صورة مُرَشّحة هذا يبين مقدار الجهد المُسْتغرق لالتقاط مجرد جزء صغير من الصور التي يستوعبها عقل طفل في سنوات تطوره الأولى في لفتة متأخرة، فإن فكرة استخدام الـ"بيانات كبيرة" (big data) لتدريب خوارزميات الحواسيب قد تبدو واضحة الآن لكنها في العام 2007، لم تكن بهذا الوضوح لقد كنا لوحدنا تمامًا في هذه الرحلة لوهلة من الزمن نصحني بعض زملائي المقربين بأن أقوم بشيء أكثر ملاءمة لمركزي وحينها كنا نعني باستمرار لتوفير التمويل لأبحاثنا مرةً، مازحت طلاب الدراسات العليا الذين كنت أشرف عليهم بأنني مستعدة لأفتتح مصبغة الملابس التي أمتلكها من جديد لتمويل ImageNet على كلٍ، كانت هذه هي الطريقة التي مولت بها نفسي خلال دراستي الجامعية وهكذا تابعنا عملنا في 2009، تم إنجاز مشروع ImageNet قاعدة بيانات ذات 15 مليون صورة ونحو 22,000 رُتبة للأشياء مرتبة بكلمات اللغة الإنجليزية المستعملة يوميًا حسب كل من الكمية والنوعية لقد كان هذا مستوًى غير مسبوق كمثال، في حالة القطط لدينا أكثر من 62,000 قطة من كل الأنواع وبكل الوضعيات ومن كل فصائل القطط الأليفة منها والبرية لقد كنا مغتبطين لأننا تمكنا من جمع شتات ImageNet وأردنا أن يستفيد المجتمع البحثي بأكمله من هذا المشروع فلذلك في مؤتمر TED fashion وفرنا قاعدة البيانات كاملة بالمجان للمجتمع البحثي حول العالم (تصفيق) والآن وقد امتلكنا البيانات لنغذي عقل حاسوبنا أصبحنا جاهزين لنعود للخوارزميات ذاتها وكما تبين لاحقًا، فإن ثراء المعلومات التي وفرها ImageNet كان متناغمًا بشكل كامل مع طراز معين من خوارزميات تعليم الحواسيب يُسمى الشبكة العصبية الملتفّة أسسها كونيهيكو فوكوشيما وجيف هينتون ويان لي كًن وذلك في السبعينات والثمانينات من القرن الماضي تمامًا كما أن الدماغ يتكون من مليارات الأعصاب المتصلة بقوة فإن الوحدة التشغيلية الأساسية في الشبكة العصبية هي العقدة العصبية هذه العقدة تأخذ مدخلاتها من عُقَد أخرى وترسل مخرجاتها لعُقَد أخرى أيضًا، فإن مئات الآلاف أو حتى الملايين من هذه العُقَد مرتبة في طبقات هرمية شبيهة جدا بالدماغ في الشبكة العصبية النمطية، اعتدنا أن ندرب نموذج التعرف على الأشياء الخاص بنا والذي لديه 24 مليون عقدة و140 مليون متغير و15 مليار وصلة هذا نموذج ضخم مدعوم بكم هائل من البيانات من ImageNet ووحدات مركزية حديثة لمعالجة البيانات والصور لتدريب نموذج ضخم كهذا الشبكة العصبية الملتفّة تطورت بشكل لم يتوقعه أحد وأصبحت هي المعمار الحاسوبي المتألق في إنتاج نتائج جديدة ومثيرة في مجال التعرف على الأشياء هذا حاسوب يخبرنا بأن هذه الصورة تتضمن قطة وأين هي القطة تحديدًا طبعًا فإن هناك أشياء أخرى عدا القطط فهذه خوارزمية حاسوب تخبرنا بأن هذه الصورة تحتوي على ولد ودبدوب كلب وشخص وطائرة ورقية صغيرة في الخلفية أو صورة مليئة جدًا بالأشياء مثل رَجُل ولوح تزلج ودرابزين وعمود إنارة وهلم جرًا أحيانًا، عندما لا يكون الحاسوب متأكدًا جدًا حيال ما يراه علمناه أن يكون ذكيًا بقدرٍ كافٍ ليعطي إجابة آمنة بدلًا من أن يرهق نفسه زيادة عن اللزوم تماما كما قد نفعل نحن لكن في أحيان أخرى تكون خوارزميتنا مميزة في إخبارنا عن ماهية الأشياء بدقة كالشركة المصنعة لسيارة وطرازها وسنة صنعها لقد طبقنا هذه الخوارزمية على ملايين الصور في Google Street View عبر مئات المدن الأمريكية وتعلمنا شيئًا مثيرًا للاهتمام حقًا أولًا، لقد أكدت لنا حِسّنا السليم حيث كان هناك علاقة وثيقة بين أسعار السيارات ومستويات الدّخل لكن المفاجأة كانت أن أسعار السيارات ترتبط أيضًا بعلاقة وثيقة مع معدلات الجريمة في المدن أو مع أنماط التصويت حسب الأحياء والضواحي فلتنتظروا لحظة. هل هذا كل ما في الأمر؟ هل وصلت قدرات الحواسيب لقدرات البشر أو تجاوزتها حتى؟ ليس بهذه السرعة حتى الآن، فقط علمنا الحاسوب كيف يرى الأشياء وهو في ذلك يشبه طفلًا صغيرا يتعلم كيف ينطق بعض الكلمات إنه إنجاز لا يصدَّق لكنها مجرد خطوة أولى قريبا سننجز مرحلة تطورية أخرى والأطفال سيبدؤون بالتواصل عن طريق جُمَل وهكذا فبدلًا من القول بأن ما في الصورة هو قطة لقد سمعتم بالفعل تلك الفتاة الصغيرة وهي تخبرنا أن تلك هي قطة تستلقي على السرير فإذن لنعلم حاسوبًا ليرى صورة ويولّد منها جملة فإن الزواج بين "البيانات الكبيرة" وخوارزميات تعليم الحواسيب يجب أن يخطو خطوة أخرى الآن، على الحاسوب أن يتعلم من الصور وكذلك جُمَل اللّغة الطبيعية التي أحدثها البشر تمامًا كما يُكامل الدماغ بين الرؤية واللغة طورنا نموذجًا يربط أجزاءً من الأشياء المرئيَة كالقصاصات المرئية مثلًا مع كلمات وعبارات في جُمل منذ حوالي أربعة أشهر ربطنا أخيرًا بين كل هذه الأجزاء وأنتجنا واحدًا من أوائل نماذج الإبصار الحاسوبية القادرة على توليد جُمل مقاربة للغة البشر عندما ترى صورة للمرة الأولى الآن، أنا مستعدة لأريك ما يقول الحاسوب عندما يرى الصورة التي رأتها تلك الفتاة الصغيرة في أول هذه المحادثة (فيديو) الحاسوب: رجلٌ يقف إلى جانب فيل طائرة كبيرة تقبع على رأس مَدْرج مطار فاي-فاي لي: طبعًا، لا نزال نعمل باجتهاد لنطور خوارزميتنا ولا يزال أمامها الكثير لتتعلمه (تصفيق) ولا يزال الحاسوب يقع في أخطاء (فيديو) الحاسوب: قطة تستلقي في بطانية على سرير فاي-فاي لي: وهكذا بالطبع، فعندما يرى الكثير من القطط يظن أن كل شيء قد يبدو مثل قطة (فيديو) الحاسوب: طفل صغير يحمل مضرب بيسبول (ضحك) فاي-فاي لي: أو إن لم يكن رأى فرشاة أسنان من قبل فقد يخلط بينها وبين مضرب بيسبول (فيديو) الحاسوب: رَجل يمتطي حصانًا في آخر الشارع بجانب مبنًى (ضحك) فاي-فاي لي: لم نشرح للحواسيب درس مبادئ الفن (فيديو) الحاسوب: حمار وحشي يقف في حقل من العشب فاي-فاي لي: ولم يتعلم كذلك كيف يُقَدّر جمال الطبيعة الساحر كما تُقَدّره أنت وأنا إذن فقد كانت رحلة طويلة الانتقال من عمر صفر إلى عمر ثلاث سنوات هو عمل شاق التحدي الحقيقي هو أن تنتقل من 3 سنوات إلى 13 سنة وأبعد من ذلك دعوني أذكركم بهذه الصورة للطفل والكعكة مرة أخرى حتى الآن، علمنا الحاسوب أن يبصر الأشياء أو أن يحكي لنا قصة بسيطة عندما يرى صورة (فيديو) الحاسوب: شخص يجلس إلى مائدة مع كعكة فاي-فاي لي: لكن هناك المزيد والمزيد في هذه الصورة أكثر من مجرد شخص وكعكة ما لا يراه الحاسوب أن تلك هي كعكة إيطالية مميزة تُقَدّم فقط بمناسبة عيد الفِصْح الولد يرتدي قميصه المفضّل الذي أعطاه إياه والده كهدية بعد رحلة إلى سيدني وجميعنا نرى كم هو سعيد ونستطيع أن نخمن ما يدور في خَلَده في تلك اللحظة هذا هو ابني ليو أثناء بحثي عن الذكاء البصري كنت أفكر في ليو باستمرار وعن عالم المستقبل الذي سيعيش فيه عندما ستتمكن الحواسيب من الإبصار الأطباء والممرضات سيحظون بأزواج إضافية من العيون التي لا تَكِلّ لتعينهم على تشخيص المرضى والعناية بهم ستسير السيارات على الطرقات بشكل أذكى وأكثر أمانًا الرجال الآليون وليس البشر فحسب سيساعدوننا في مواجهة نطاقات الكوارث لينقذوا المحتجزين والجرحى سنكتشف أنواع مخلوقات جديدة ومواد أفضل وسنستكشف الأبعاد غير المرئية بمساعدة الحواسيب شيئًا فشيئًا، نحن نمنح حاسة البصر للحواسيب في البداية نعلمها كيف ترى ثم ستساعدنا لنرى بشكل أفضل لأول مرة، لن تكون عيون البشر هي الوحيدة التي تتأمل وتستكشف عالمنا لن يقتصر استخدامنا للحواسيب لأجل ذكائها بل سوف نتعاون معها بطرق لا يمكننا حتى تخيلها هذا هو أملي أن أعطي الحواسيب ذكاءً بصريًا وأن أخلق مستقبلًا أفضل من أجل ليو ومن أجل العالم شكرًا (تصفيق)