Tip:
Highlight text to annotate it
X
>> LUCAS FREITAS: يا.
نرحب بالجميع.
اسمي لوكاس فريتاس.
أنا شابة في [غير مسموع] دراسة علم الحاسوب مع التركيز في
اللغويات الحاسوبية.
حتى بلدي الثانوي في اللغة ونظرية لغوية.
أنا متحمس حقا ليعلمك الرجال قليلا عن الميدان.
انها منطقة مثيرة جدا للدراسة.
أيضا مع الكثير من الامكانات للمستقبل.
لذلك، وأنا متحمس حقا أن يا رفاق تفكر في المشاريع
اللغويات الحاسوبية.
وسأكون أكثر من سعيدة لتقديم المشورة أي واحد منكم إذا قررت
متابعة واحدة من تلك.
>> أولا حتى من كل ما هي الحسابية اللسانيات؟
اللغويات الحاسوبية وذلك هو التقاطع بين علم اللغة و
علوم الكمبيوتر.
لذلك، ما هو علم اللغة؟
ما هو علوم الحاسب؟
كذلك من اللسانيات، ما نأخذ هي اللغات.
حتى اللسانيات هو في الواقع دراسة اللغة الطبيعية بشكل عام.
اللغة الطبيعية لذلك - ونحن نتحدث عن اللغة التي نحن فعلا استخدام ل
التواصل مع بعضهم البعض.
لذلك نحن لا نتحدث بالضبط حول C أو جافا.
نحن نتحدث أكثر عن اللغة الإنجليزية و اللغات الصينية وغيرها من أننا
استخدامها للاتصال مع بعضها البعض.
>> الشيء تحديا في ذلك هو أن الآن لدينا تقريبا 7،000
اللغات في العالم.
لذلك هناك مجموعة متنوعة جدا عالية اللغات التي يمكننا دراسة.
ثم كنت تعتقد أنه من المحتمل من الصعب جدا القيام به، على سبيل المثال،
الترجمة من لغة واحدة إلى الأخرى، معتبرا أن لديك
تقريبا 7،000 منهم.
لذلك، إذا كنت تفكر في القيام الترجمة من لغة إلى أخرى لك
ما يقرب من أكثر من مليون تركيبات مختلفة التي يمكنك
لديهم من لغة إلى أخرى.
حتى انها حقا صعبة للقيام ببعض نوع من نظام الترجمة سبيل المثال ل
كل لغة واحدة.
>> لذلك، واللسانيات يعامل مع بناء الجملة، دلالات، البراغماتية.
يا رفاق لا تحتاج بالضبط لمعرفة ما هي عليه.
لكن الشيء المثير للاهتمام للغاية هو أن باعتبارها اللغة الأم، عندما تتعلم
اللغة كما الطفل، هل تعلم فعلا كل تلك الأشياء - دلالات الجملة
والبراغماتية -
من قبل نفسك.
لا أحد لديه ويعلمك بناء الجملة من أجل لك أن نفهم كيف الجمل
منظم.
لذلك، انها مثيرة للاهتمام حقا ل انها شيء يأتي جدا
حدسي.
>> وماذا أخذ من علم الكمبيوتر؟
حسنا، أهم شيء أننا يكون في علم الحاسوب هو الأول من
كل شيء، الذكاء الاصطناعي وتعلم الآلة.
لذلك، ما نحاول القيام ل اللغويات الحاسوبية هو تعليم
جهاز الكمبيوتر الخاص بك كيفية القيام بشيء ما مع اللغة.
>> لذلك، على سبيل المثال، في الجهاز الترجمة.
أحاول لتعليم الكمبيوتر الخاص بي كيف لمعرفة كيفية الانتقال من واحدة
لغة إلى أخرى.
لذلك، أحب التدريس في الأساس كمبيوتر لغتين.
إذا كنت تفعل معالجة اللغة الطبيعية، كما هو الحال على سبيل المثال من
الفيسبوك في الرسم البياني البحث، يمكنك تعليم الكمبيوتر كيفية فهم
استفسارات جيدا.
>> لذلك، إذا أنت تقول "صور من بلادي الأصدقاء. "الفيسبوك لا يعامل أن
كسلسلة كله أن لديها مجرد حفنة من الكلمات.
فعلا يفهم العلاقة بين "الصور" و "أصدقائي" و
يدرك أن "صور" هي ممتلكات "أصدقائي".
>> لذلك، وهذا جزء من، على سبيل المثال، معالجة اللغة الطبيعية.
انها محاولة لفهم ما هي العلاقة بين
الكلمات في الجملة.
والسؤال الكبير هو، يمكنك تعليم الكمبيوتر كيف يتكلم
لغة بشكل عام؟
وهو سؤال مهم جدا ل أعتقد، كما لو ربما في المستقبل،
وأنت تسير لتكون قادرة على التحدث على الهاتف الخليوي الخاص بك.
نوع من مثل ما نقوم به مع سيري ولكن شيء أشبه، يمكنك فعلا
تقول ما تريد والهاتف سوف تفهم كل شيء.
ويمكن أن يكون لها متابعة الأسئلة والاستمرار في الحوار.
هذا شيء مثير حقا، في رأيي.
>> لذلك، شيئا عن اللغات الطبيعية.
شيء مثير للاهتمام حقا حول اللغات الطبيعية هو أنه، وهذا هو
الائتمان إلى بلدي اللغويات أستاذ، ماريا Polinsky.
انها تعطي مثالا وأعتقد انها مثيرة للاهتمام حقا.
لأننا نتعلم اللغة من عند نحن نولد ثم الأم لدينا
اللغة النوع من ينمو علينا.
>> وأساسا تتعلم اللغة من الحد الأدنى من المدخلات، أليس كذلك؟
كنت مجرد الحصول على مدخلات من هاتفك آباء ما يبدو لغتك
تحب وتتعلم فقط.
لذلك، انها مثيرة للاهتمام لأنه إذا نظرتم في تلك الأحكام، على سبيل المثال.
نظرتم، "ماري يضع على كل معطف الوقت تغادر المنزل ".
>> في هذه الحالة، فمن الممكن أن يكون كلمة "هي" إشارة إلى مريم، أليس كذلك؟
يمكنك أن تقول "ماري يضع على معطف في كل مرة يغادر مريم
المنزل. "لذلك هذا شيء طيب.
ولكن بعد ذلك إذا نظرتم الجملة "وقالت انها يضع على معطف كل مرة مريم
يترك المنزل. "كنت أعلم أنه من المستحيل أن أقول "هي" هو
في اشارة الى مريم.
>> ليس هناك طريقة للقول أن "ماري يضع على معطف في كل مرة يترك ماري
البيت ". حتى انها مثيرة للاهتمام لأن هذا هو نوع من الحدس
أن كل اللغة الأصلية لديه.
وكان يدرس أحد أن هذا هو الطريقة التي يعمل بناء الجملة.
والتي يمكن أن يكون لديك فقط هذه "هي" في اشارة الى مريم في هذه الحالة الأولى،
وفعلا في هذا الأخرى أيضا، ولكن ليس في هذا واحد.
ولكن الجميع نوع من يحصل على نفس الجواب.
يتفق الجميع على ذلك.
لذلك فمن المثير للاهتمام حقا كيف على الرغم من كنت لا تعرف كل القواعد
في لغتك التي نوع من فهم كيف تعمل اللغة.
>> وبالتالي فإن الشيء المثير للاهتمام حول الطبيعية اللغة هو ان لم يكن لديك ل
تعرف أي بناء الجملة لمعرفة ما إذا كان الجملة هو النحوية أو غير قواعدي ل
معظم الحالات.
الذي يجعلك تعتقد أنه ربما ما يحدث هو أنه من خلال حياتك، وكنت
تبقي فقط الحصول على المزيد والمزيد وقال الجمل لك.
ثم عليك أن تبقي الحفظ كل من الجمل.
ثم عندما يقوم شخص ما يخبرك شيء، تسمع هذه الجملة و
نظرتم مفرداتك الأحكام ومعرفة ما إذا كان
هذه الجملة هو هناك.
وإذا كان هناك ل نقول انها النحوية.
إذا لم تكن أنت تقول انها غير قواعدي.
>> لذلك، في هذه الحالة، وكنت أقول، يا، بحيث يكون لديك قائمة كبيرة من جميع
الجمل ممكن.
وبعد ذلك عندما تسمع الجملة، كنت أعرف ما اذا كان النحوية أو
لا تعتمد على ذلك.
الشيء هو أنه إذا نظرتم حكم قضائي، على سبيل المثال، "و
ترأس خمس سنوات CS50 TFS المطبوخة المكفوفين الأخطبوط باستخدام القدح ضبا ". انها
بالتأكيد ليست الجملة التي يسمع بها من قبل.
ولكن في نفس الوقت كنت أعلم أنه الى حد كبير النحوية، أليس كذلك؟
لا توجد أخطاء نحوية ويمكنك القول بأن
انها الجملة ممكن.
>> لذلك يجعلنا نعتقد أن الواقع الطريقة التي نتعلم اللغة ليست فقط
من خلال وجود قاعدة بيانات ضخمة من الممكن الكلمات أو الجمل، ولكن أكثر من
فهم العلاقة بين كلمات في تلك الأحكام.
فهل هذا يعقل؟
لذلك، فإن السؤال هو، يمكن أجهزة الكمبيوتر تعلم لغات؟
يمكننا تعليم اللغة لأجهزة الكمبيوتر؟
>> لذلك، دعونا نفكر في الفرق بين اللغة الأصلية للغة
وجهاز كمبيوتر.
لذلك، فإن ما يحدث للمتكلم؟
جيدا، واللغة الأم يتعلم اللغة من التعرض له.
عادة سنواتها في مرحلة الطفولة المبكرة.
لذلك، في الأساس، لديك مجرد طفل، وعليك أن تبقي التحدث إليها، وذلك
فقط يتعلم كيف يتكلم اللغة، أليس كذلك؟
لذلك، أنت تعطي أساسا المدخلات للطفل.
لذلك، ثم يمكنك القول بأن جهاز كمبيوتر يمكن أن تفعل الشيء نفسه، أليس كذلك؟
يمكنك فقط إعطاء اللغة كمدخل إلى الكمبيوتر.
>> وعلى سبيل المثال مجموعة من الملفات التي لديها الكتب باللغة الإنجليزية.
وربما هذا هو أحد السبل التي ربما يمكن تعليم
الكمبيوتر الإنجليزية، أليس كذلك؟
وفي الواقع، إذا كنت تفكر في ذلك، يأخذك ربما بضعة
أيام لقراءة الكتاب.
لجهاز كمبيوتر فإنه يأخذ ثانية ل ننظر في كل الكلمات في كتاب.
لذلك يمكن ان يخطر لك أن هذا قد يكون مجرد حجة مدخلات من حولك،
هذا لا يكفي أن نقول إن هذا هو شيء أن البشر فقط يمكن القيام به.
يمكنك أن تفكر أجهزة الكمبيوتر كما يمكن الحصول على المدخلات.
>> الشيء الثاني هو أن الناطقين بها كما أن لديه الدماغ التي
القدرة تعلم اللغة.
ولكن إذا كنت تفكر في ذلك، الدماغ هو شيء صلب.
عندما يولد لك، انها بالفعل تعيين -
هذا هو الدماغ.
وكما تكبر، كنت فقط الحصول على مزيد من إدخال اللغة وربما المغذيات
وغيرها من الاشياء.
ولكن الى حد كبير الخاصة بك الدماغ هو شيء صلب.
>> لذلك يمكنك أن تقول، حسنا، ربما يمكنك بناء جهاز كمبيوتر يحتوي على مجموعة من
وظائف والأساليب التي تحاكي فقط القدرة تعلم اللغة.
حتى في هذا المعنى، يمكن القول، حسنا، أنا يمكن أن يكون جهاز كمبيوتر يحتوي على جميع
الأشياء التي كنت بحاجة إلى أن نتعلم اللغة.
وآخر شيء هو أن الأم يتعلم المتكلم من التجربة والخطأ.
وذلك أساسا شيء آخر مهم في تعلم اللغة هو أنك النوع
من تعلم أشياء بجعل التعميمات ما تسمع.
>> حتى وأنت تنمو فأنت تعلم أن بعض الكلمات هي أشبه الأسماء،
بعض منها هي الصفات الأخرى.
وليس لديك لديك أي علم اللغويات
لفهم ذلك.
لكنك تعلم فقط هناك بعض الكلمات وتتمركز في جزء من
الجملة والبعض الآخر في أخرى أجزاء من الجملة.
>> وأنه عندما كنت تفعل شيئا وهذا هو مثل الجملة التي ليست صحيحة -
ربما بسبب وجود أكثر من التعميم على سبيل المثال.
ربما عندما كنت أشب عن الطوق، لاحظت أن الجمع عادة
التي شكلتها وضع S في في نهاية الكلمة.
ثم حاولت القيام صيغة الجمع من "الغزلان" كما "الغزلان" أو "الأسنان"، كما
"tooths". حتى ذلك الحين والديك أو شخص ما يصحح لك ويقول: لا،
الجمع "الغزلان" هو "الغزلان"، و الجمع "الأسنان" هو "الأسنان". ثم
تتعلم هذه الأشياء.
حتى تتعلم من التجربة والخطأ.
>> ولكن يمكنك أن تفعل أيضا أن مع جهاز الكمبيوتر.
هل يمكن أن يكون ما يسمى تعزيز التعلم.
التي هي في الأساس مثل إعطاء الكمبيوتر مكافأة كلما كان يفعل
شيء بشكل صحيح.
ويعطيها عكس مكافأة وعندما يفعل شيئا خاطئا.
يمكنك ان ترى في الواقع أن إذا ذهبت لترجمة غوغل ومحاولة
ترجمة الجملة، فإنه يسألك عن ردود الفعل.
حتى إذا كنت أقول، يا، وهناك أفضل ترجمة لهذه الجملة.
يمكنك كتابة عنه ثم إذا كان الكثير من يحتفظ الناس قائلا هذا هو أفضل
الترجمة، فإنه يتعلم مجرد أنه يجب أن تستخدم بدلا من أن الترجمة
واحد كان العطاء.
>> لذلك، انها مسألة فلسفية جدا لمعرفة ما إذا أجهزة الكمبيوتر ستكون
قادرا على التحدث أم لا في المستقبل.
ولكن لدي آمال كبيرة في أن ما في وسعهم تستند فقط على تلك الحجج.
لكنه أكثر من مجرد الفلسفية السؤال.
>> وذلك في حين لا تزال أجهزة الكمبيوتر لا يمكن الحديث، ما هي الأشياء التي يمكننا القيام به؟
بعض الأشياء باردة حقا هي تصنيف البيانات.
لذلك، على سبيل المثال، أنت تعرف الرجال أن خدمات البريد الإلكتروني القيام به، ل
سبيل المثال، فلترة البريد المزعج.
لذلك كلما كنت تلقي البريد المزعج، و يحاول تصفية لمربع آخر.
فكيف يفعل ذلك؟
انها ليست مثل الكمبيوتر يعرف فقط عناوين البريد الإلكتروني ما يتم إرسال البريد المزعج.
حتى انها أكثر استنادا إلى محتوى الرسالة، أو ربما العنوان، أو
ربما بعض النمط الذي لديك.
>> لذلك، في الأساس، ما يمكنك القيام به هو الحصول على الكثير من البيانات من رسائل البريد الإلكتروني التي هي البريد المزعج،
رسائل البريد الإلكتروني التي لا البريد المزعج، ومعرفة ما نوع من أنماط لديك في
تلك التي هي غير مرغوب فيها.
وهذا هو جزء من الحسابية اللغويات.
انه دعا تصنيف البيانات.
ونحن في طريقنا لرؤية الواقع مثال على ذلك في الشرائح القادمة.
>> الشيء الثاني هو اللغة الطبيعية تجهيز وهو الشيء الذي
الرسم البياني بحث يقوم به من السماح أن تكتب الجملة.
وأنه يثق أنك تفهم ما هو معنى ويعطي
لك نتيجة أفضل.
في الواقع، إذا ذهبت إلى غوغل أو بنج وكنت ابحث شيئا مثل سيدة
ارتفاع غاغا، وأنت تسير في الواقع للحصول على 5 '1 "بدلا من المعلومات
من وظيفتها لأنه يفهم الواقع ما نتحدث عنه.
لذلك هذا جزء من الطبيعية معالجة اللغة.
>> أو أيضا عندما كنت تستخدم سيري، الأولى لديك خوارزمية الذي يحاول
ترجمة ما تقوله في الكلمات، في النص.
وبعد ذلك يحاول ان يترجم ذلك في المعنى.
ذلك أن كل جزء من الطبيعية معالجة اللغة.
>> ثم لديك الترجمة الآلية -
الذي هو في الواقع واحد من المفضلة -
الذي هو مجرد ترجمة من لغة إلى أخرى.
لذلك يمكن ان يخطر لك أنه عندما تفعلونه الترجمة الآلية، لديك
الاحتمالات لا حصر له من الجمل.
لذلك ليس هناك طريقة لتخزين فقط كل الترجمة احد.
ولذلك عليك أن تأتي مع اهتمام خوارزميات لتكون قادرة على
ترجمة كل واحد الجملة بطريقة أو بأخرى.
>> يا رفاق لديك أي أسئلة حتى الآن؟
لا؟
موافق.
>> وذلك ما نحن ذاهبون لرؤية اليوم؟
أولا، انا ذاهب الى الحديث عن المشكلة التصنيف.
حتى تلك التي كنت يقولون عن البريد المزعج.
ما أنا بصدد القيام به هو، كلمات معين إلى أغنية، يمكنك محاولة لمعرفة
مع احتمال كبير من هو المغني؟
دعنا نقول أن لدي أغنيات من سيدة غاغا وكاتي بيري، وإذا أعطي لك و
أغنية جديدة، يمكنك معرفة ما اذا كان انها كاتي بيري أو سيدة غاغا؟
>> ثانية واحدة، وأنا ذاهب لمجرد الحديث حول المشكلة تجزئة.
لذلك أنا لا أعرف إذا كنت تعرف الرجال، ولكن الصينية واليابانية وغيرها من شرق آسيا
اللغات، وغيرها من اللغات بشكل عام، لم يكن لديك
المسافات بين الكلمات.
ثم إذا كنت تفكر في الطريقة التي الكريمة الكمبيوتر من يحاول
فهم معالجة اللغة الطبيعية، يبدو في الكلمات و
يحاول فهم العلاقات بينهما، أليس كذلك؟
ولكن بعد ذلك إذا كان لديك الصينية، وكنت لديها مساحات الصفر، انها حقا من الصعب
معرفة ما هي العلاقة بين الكلمات، لأنهم ليس لديهم أي
كلمات في البداية.
ولذلك عليك أن تفعل شيئا يسمى تجزئة مما يعني مجرد وضع
المسافات بين ما كنا ندعو الكلمات في هذه اللغات.
معنى؟
>> ثم نحن في طريقنا لل الحديث عن بناء الجملة.
حتى قليلا عن الطبيعي معالجة اللغة.
انها سوف تكون مجرد لمحة عامة.
حتى اليوم، وأساسا ما أريد القيام به وتعطيك الرجال قليلا ل
داخل ما هي الاحتمالات ما يمكنك القيام به مع حسابية
اللغويات.
ثم يمكنك ان ترى ما هو رأيك هو بارد بين تلك الأشياء.
وربما يمكنك التفكير في المشروع ويأتي الحديث معي.
وأستطيع أن أعطي لكم المشورة بشأن كيفية تنفيذ ذلك.
>> لذلك جملة سيكون قليلا حول الرسم البياني آلة البحث و
الترجمة.
أنا ذاهب لمجرد إعطاء مثال عن كيفية هل يمكن، على سبيل المثال، ترجمة
شيء من البرتغالية إلى الإنجليزية.
يبدو جيدا؟
>> لذلك أولا، مشكلة التصنيف.
أنا أقول أن هذا الجزء من الندوة ستكون أصعب
واحد فقط لأن هناك يحدث أن تكون بعض الترميز.
لكنها ستكون بيثون.
وأنا أعلم يا رفاق لا أعرف بيثون، لذلك أنا فقط ذاهب إلى شرح على ارتفاع
مستوى ما أفعله.
وليس لديك لرعاية حقا جدا الكثير حول بناء الجملة لأن هذا هو
شيء يمكنك معرفة الرجال.
موافق؟
يبدو جيدا.
>> فما هي المشكلة التصنيف؟
لذلك كنت أعطيت بعض كلمات ل أغنية، وتريد أن يخمن
الذي يغني عليه.
وهذا يمكن أن يكون في أي نوع من المشاكل الأخرى.
لذلك يمكن، على سبيل المثال، لديك حملة الانتخابات الرئاسية وكان لديك
الكلام، وأنت تريد أن تجد ما إذا كان، على سبيل المثال،
أوباما أو ميت رومني.
أو هل يمكن أن يكون حفنة من رسائل البريد الإلكتروني و تريد معرفة إذا كانت
الرسائل غير المرغوب فيها أو لا.
حتى انها مجرد تصنيف بعض البيانات استنادا إلى كلمات
أن يكون لديك هناك.
>> حتى أن تفعل ذلك، لديك ل جعل بعض الافتراضات.
لذلك الكثير حول اللغويات الحاسوبية هو جعل الافتراضات،
الافتراضات عادة الذكية، بحيث يمكنك الحصول على نتائج جيدة.
في محاولة لخلق نموذج لذلك.
ومن ثم محاولة الخروج منها ونرى ما اذا كان يعمل، إذا أنها تعطيك الدقة جيدة.
وإذا فعلت ذلك، فإنك محاولة تحسينه.
إذا لم يحدث ذلك، كنت مثل، حسنا، ربما أنا ينبغي أن افتراض مختلفة.
>> حتى على افتراض أننا ذاهبون الى جعل هو أن الفنان يغني عادة
حول موضوع عدة مرات، وربما يستخدم الكلمات عدة مرات فقط
لأنهم معتادون على ذلك.
يمكنك مجرد التفكير صديقك.
أنا متأكد يا رفاق جميعا أصدقاء تقول العبارة بالتوقيع عليها،
حرفيا لكل جملة واحدة -
مثل بعض كلمة معينة أو بعض محددة العبارة التي يقولون لل
كل جملة واحدة.
>> وماذا يمكن أن أقوله هو أنه إذا كنت ترى الجملة التي لديها توقيع
العبارة، يمكنك أن تحزر ذلك ربما صديقك هو
أحد يقول ذلك، أليس كذلك؟
لذلك يمكنك كسب هذا الافتراض ثم هذه هي الطريقة التي خلق نموذج.
>> المثال الذي أنا ذاهب لإعطاء على كيف ليدي غاغا، على سبيل المثال، والناس
تقول إنها تستخدم "طفل" ل جميع أغانيها رقم واحد.
وفعلا هذا هو الفيديو الذي يظهر لها قول كلمة "طفل" ل
أغنيات مختلفة.
>> [تشغيل الفيديو]
>> - (الغناء) طفل.
الطفل.
الطفل.
الطفل.
الطفل.
فاتنة.
الطفل.
الطفل.
الطفل.
الطفل.
>> [END تشغيل الفيديو-
>> LUCAS FREITAS: لذلك هناك، كما أعتقد، 40 أغنية هنا تقول فيها لل
كلمة "طفل". بحيث يمكنك تخمين أساسا إذا كنت ترى أن الأغنية التي لديها
كلمة "طفل" هناك بعض عالية احتمال أنه من سيدة غاغا.
ولكن دعونا نحاول تطوير هذا مزيد من أكثر رسميا.
>> لذلك فان هذه هي كلمات لأغنيات سيدة غاغا وكاتي بيري.
لذا تبدو في يدي غاغا، ترى أنها لديهم الكثير من الحوادث من "طفل"، وهو
الكثير من الحوادث من "الطريق". ثم كاتي بيري لديها الكثير من الحوادث من
"على" الكثير من الحوادث من "النار".
>> وذلك أساسا ما نريد القيام به هو، وتحصل على غنائي.
دعنا نقول أن تحصل على غنائي ل الأغنية التي هي "الطفل" عادل "طفل". إذا
كنت مجرد الحصول على كلمة "طفل"، وهذا هو كل البيانات التي لديك من
سيدة غاغا وكاتي بيري، والذين كنت أخمن هو الشخص
الذي يغني أغنية؟
سيدة غاغا كاتي بيري أو؟
سيدة غاغا، أليس كذلك؟
لأنها هي الشخص الوحيد الذي يقول "الطفل". هذا يبدو غبيا، أليس كذلك؟
حسنا، هذا هو السهل حقا.
أنا مجرد النظر في أغنيتين و بطبيعة الحال، انها الشخص الوحيد الذي لديه
"الطفل".
>> ولكن ماذا لو كان لديك حفنة من الكلمات؟
إذا كان لديك غنائي الفعلية، شيء مثل، "الطفل، وأنا فقط
ذهبت لرؤية [؟ وتمويل الإرهاب؟]
محاضرة "، أو شيء من هذا القبيل، و ثم لديك لمعرفة الواقع -
بناء على كل تلك الكلمات -
من هو الفنان الذي ربما غنت هذه الأغنية؟
لذلك دعونا نحاول تطوير هذا أبعد قليلا.
>> موافق، مستندا في ذلك فقط على البيانات التي نحن حصلت، يبدو أن غاغا هو على الارجح
المغني.
ولكن كيف يمكن أن نكتب هذا أكثر رسميا؟
وهناك سيكون قليلا قليلا من الإحصاءات.
لذلك إذا كنت تضيع، مجرد محاولة لفهم هذا المفهوم.
لا يهم إذا كنت فهم المعادلات جيدا.
هذا هو كل شيء سيكون على الانترنت.
>> وذلك أساسا ما أنا هو حساب احتمال أن هذه الأغنية هي
سيدة غاغا بالنظر إلى أن -
لذلك هذا يعني بالنظر إلى أن شريط -
رأيت كلمة "طفل". فهل هذا يعقل؟
لذلك أنا أحاول أن حساب هذا الاحتمال.
>> حتى لا يكون هناك نظرية تسمى هذه نظرية بايز التي تقول أن
احتمال A B معين، هو احتمال B يعطى، أضعاف
احتمال A، أكثر من احتمال من B. هذا هو معادلة طويلة.
ولكن ما يجب أن نفهم من ذلك أن هذا هو ما أريد أن
حساب، أليس كذلك؟
وبالتالي فإن احتمال أن تلك الأغنية هي سيدة غاغا بالنظر إلى أن رأيت كلمة
"الطفل".
>> والآن ماذا انني اتلقى هو احتمال كلمة "طفل" نظرا
أن لدي ليدي غاغا.
وما هو الأساس الذي؟
ما يعنيه ذلك هو، ما هو احتمال رؤية كلمة "طفل"
في كلمات غاغا؟
إذا أريد لحساب أنه في غاية طريقة بسيطة، انها مجرد عدد
مرة أرى "طفل" على العدد الكلي الكلمات في كلمات غاغا، أليس كذلك؟
ما هو التردد الذي أراه تلك الكلمة في العمل غاغا؟
معنى؟
>> المصطلح الثاني هو احتمال غاغا.
ماذا يعني ذلك؟
وهذا يعني في الأساس، ما هو احتمال تصنيف
بعض كلمات كما غاغا؟
وهذا هو نوع غريب، ولكن دعونا نفكر على سبيل المثال.
لذلك دعونا نقول أن احتمال وجود "طفل" في أغنية هو نفسه
لغاغا وبريتني سبيرز.
ولكن بريتني سبيرز لديها مرتين المزيد من الأغاني من سيدة غاغا.
لذلك إذا كان شخص ما يعطي فقط لك عشوائيا كلمات "بيبي"، وأول شيء يجب
ننظر هو، ما هو احتمال وجود "طفل" في أغنية غاغا، "طفل"
في أغنية بريتني؟
وانها نفس الشيء.
>> وبالتالي فإن الشيء الثاني أن عليك أن تراه هو، حسنا، ما هو احتمال
هذه غنائي في حد ذاته كونه غنائي غاغا، وما هو احتمال
كونه غنائي بريتني؟
منذ ذلك بريتني لديها الكثير من كلمات أكثر من غاغا، وربما تفعل
ويقول، أيضا، وربما هذا هو بريتني غنائي.
ولهذا السبب لدينا هذا مصطلح الحق هنا.
احتمال غاغا.
من المنطقي؟
أليس كذلك؟
موافق.
>> وآخر واحد هو مجرد احتمال من "طفل" التي لا
حقا يهم كثيرا.
ولكن هذا احتمال رؤية "طفل" في اللغة الإنجليزية.
ونحن عادة لا يهمني أن الكثير عن هذا المصطلح.
فهل هذا يعقل؟
وبالتالي فإن احتمال غاغا هو دعا احتمال مسبق
من غاغا الطبقة.
لأن ذلك يعني فقط أن، ما هو احتمال وجود تلك الفئة -
وهو غاغا -
فقط في العام، فقط بدون شروط.
>> ومن ثم عندما يكون لدي احتمال نظرا غاغا "الطفل"، ونحن نسميها زائد
الدموع تنهمر احتمال لأنه احتمال وجود
غاغا إعطاء بعض الأدلة.
لذلك أنا أقدم لك الأدلة رأيت أن الطفل كلمة و
الأغنية معنى؟
موافق.
>> حتى إذا كنت تحسب أن لكل من الأغاني ليدي غاغا،
ما من شأنه أن يكون -
على ما يبدو، وأنا لا يمكن أن تتحرك هذه.
فإن احتمال أن تكون غاغا شيء من هذا القبيل، 2 أكثر من 24 مرات 1/2،
أكثر من 2 على 53.
لا يهم إذا كنت تعرف ما هذه الأرقام تأتي من.
ولكن انها مجرد الرقم الذي يجري إلى أن يكون أكثر من 0، أليس كذلك؟
>> ثم عندما أفعل كاتي بيري، و احتمال "طفل" نظرا كاتي
0 بالفعل، أليس كذلك؟
لأنه ليس هناك "طفل" في كاتي بيري.
لذلك فإن هذا يصبح 0، وغاغا انتصارات، وهو ما يعني أن غاغا هو
ربما المغني.
فهل هذا يعقل؟
موافق.
>> حتى لو كنت تريد أن تجعل هذا الأمر أكثر رسمية، يمكنني القيام به في الواقع نموذجا
للكلمات متعددة.
لذلك دعونا نقول أن لدي شيئا مثل، "الطفل، وأنا
على النار "، أو شيء من هذا.
لذلك لديه كلمات متعددة.
وفي هذه الحالة، يمكنك أن ترى أن "الطفل" هو في غاغا،
ولكنها ليست في كاتي.
و "النار" في كاتي، ولكن انها ليست في غاغا، أليس كذلك؟
لذلك يزداد اصعب، أليس كذلك؟
لأنه يبدو أنك تقريبا وجود علاقات بين البلدين.
>> وذلك ما عليك القيام به هو افتراض الاستقلالية بين الكلمات.
وذلك أساسا ما يعنيه ذلك هو أن أنا فقط حساب ما هو
احتمال رؤية "طفل"، ما هو احتمال رؤية "أنا"، و
"أنا"، و "على"، و "النار"، كل على حدة.
ثم أنا ضرب كل منهم.
واراه ما هو احتمال لرؤية الجملة كلها.
معنى؟
>> ذلك أساسا، إذا كان لدي كلمة واحدة فقط، ما أريد أن تجد هي وسيطة كحد أقصى،
وهو ما يعني، ما هي الطبقة التي هي إعطائي أعلى احتمال؟
فما هي الطبقة التي تعطي لي أعلى احتمال لل
احتمال فئة معينة كلمة.
حتى في هذه الحالة، نظرا غاغا "طفل". أو كاتي نظرا "طفل". معنى؟
>> وفقط من بايز، التي المعادلة التي عرضتها،
نخلق هذا الكسر.
الشيء الوحيد هو أن ترى أن احتمال الكلمة نظرا ل
تغييرات الطبقة تبعا على الطبقة، أليس كذلك؟
عدد ليالي "طفل" أن لدي في غاغا يختلف من كاتي.
احتمال الطبقة أيضا التغييرات لأنه مجرد رقم
من الأغاني لكل منهما.
>> ولكن احتمال الكلمة نفسها سوف تكون هي نفسها بالنسبة لجميع
الفنانين، أليس كذلك؟
وبالتالي فإن احتمال للكلمة هو فقط، ما هو احتمال
رؤية تلك الكلمة في اللغة الإنجليزية؟
لذلك فمن نفس عن كل منهم.
ذلك لأن هذا هو ثابت، ويمكننا فقط وإسقاط هذا لا يهتمون بها.
ولذلك فإن هذا سيكون فعلا المعادلة نحن نبحث عن.
>> وإذا كان لدي عدة كلمات، وأنا لا تزال جارية لديهم قبل
الاحتمال هنا.
الشيء الوحيد هو أنني ضرب احتمال
كل الكلمات الأخرى.
لذلك أنا بضرب كل منهم.
معنى؟
انها تبدو غريبة ولكنها تعني في الأساس، حساب قبل الطبقة، و
ثم ضرب من قبل احتمال كل من الكلمات يجري في تلك الفئة.
>> وأنت تعرف أن احتمال حدوث كلمة معينة فئة وستكون
عدد المرات التي نرى أن الكلمة في تلك الفئة، مقسوما على عدد من
الكلمات لديك في هذا الطبقة بشكل عام.
معنى؟
انها مجرد كيف "الطفل" كان أكثر من 2 عدد الكلمات التي
كان لي في كلمات.
حتى مجرد التردد.
>> ولكن هناك شيء واحد.
أتذكر كيف كنت تبين أن احتمال "طفل" كونها كلمات
من كاتي بيري 0 كان لمجرد كاتي لم يكن لديك بيري "طفل" في كل شيء؟
ولكن يبدو قاسية قليلا لمجرد أقول ببساطة أن كلمات لا يمكن أن يكون من
فنان لمجرد أنهم لا يملكون هذه الكلمة على وجه الخصوص في أي وقت.
>> لذلك يمكن أن نقول فقط، حسنا، إذا كنت لم يكن لديك هذه الكلمة، وانا ذاهب ل
أعطيك احتمال أقل، ولكن أنا فقط لن
أعطيك 0 على الفور.
لأنه ربما كان شيء من هذا القبيل، "النار، النار، النار، النار،" والذي هو
تماما كاتي بيري.
ثم "طفل"، ويذهب فقط ل 0 على الفور لأنه لم يكن هناك واحد
"الطفل".
>> وذلك أساسا ما نقوم به هو شيء ودعا لابلاس تجانس.
وهذا يعني فقط أن أنا أقدم بعض الاحتمالات حتى إلى كلمات
التي لا وجود لها.
ذلك ما أقوم به هو أنه عندما أنا حساب هذا، وأنا دائما إضافة 1 ل
البسط.
لذلك حتى لو لم يكن موجودا، كلمة، في هذه الحالة، إذا كان هذا هو 0، وأنا ما زلت
حساب هذا ك 1 على العدد الكلي للكلمات.
خلاف ذلك، كيف يمكنني الحصول على العديد من الكلمات لدي وأود أن أضيف 1.
لذلك أنا أعول لكلتا الحالتين.
معنى؟
>> حتى الآن دعونا نفعل بعض الترميز.
انا ذاهب الى ان تفعل ذلك بسرعة جدا، ولكن انها مجرد المهم أن
الرجال فهم المفاهيم.
ذلك ما نحاول القيام به يتم تنفيذ هذا بالضبط
الشيء الذي قلت للتو -
أريدك أن تضع كلمات من سيدة غاغا وكاتي بيري.
والبرنامج هو ذاهب لتكون قادرة على ويقول إذا كانت هذه هي كلمات جديدة من غاغا
أو كاتي بيري.
معنى؟
موافق.
>> وذلك لدي هذا البرنامج سأقوم للاتصال classify.py.
لذلك هذا هو بيثون.
انها لغة برمجة جديدة.
وهو مشابه جدا في بعض طرق لC و PHP.
انها مماثلة لأنه إذا كنت تريد أن تعلم بايثون بعد معرفة C، انها
الحقيقة ليست أن الكثير من التحدي لمجرد بيثون هو أسهل بكثير
من C، أولا وقبل كل شيء.
والكثير من الأمور بالفعل نفذت بالنسبة لك.
حتى مجرد كيف مثل PHP ديه الوظائف التي فرز قائمة، أو إلحاق شيء
لصفيف، أو كذا وكذا وكذا.
الثعبان لديه كل تلك أيضا.
>> لذلك أنا مجرد الذهاب الى شرح بسرعة كيف يمكننا أن نفعل تصنيف
المشكلة لهنا.
لذلك دعونا نقول أنه ليس لدي في هذه الحالة كلمات من غاغا وكاتي بيري.
الطريقة التي لدي هي أن تلك الأغاني الكلمة الأولى من كلمات هو
اسم الفنان، و والباقي هو كلمات.
لذلك دعونا نقول أن لدي هذه القائمة في والتي تعد الأولى من نوعها هي كلمات غاغا.
حتى هنا وأنا على الطريق الصحيح.
والمرحلة التالية هي كاتي، و كما أن لديها كلمات.
>> لذلك هذا هو كيف تقوم بتعريف متغير في بيثون.
لم يكن لديك لإعطاء نوع البيانات.
تكتب مجرد "كلمات" نوع من مثل في PHP.
معنى؟
>> فما هي الأشياء التي لدي ل حساب لتكون قادرة على حساب
الاحتمالات؟
لدي لحساب "مقدمو الاديره" كل من مختلفة
الفئات التي لدي.
لدي لحساب "مؤخرات" أو الى حد كبير احتمالات
كل من الكلمات المختلفة التي أنا يمكن أن يكون لكل فنان.
حتى داخل غاغا، على سبيل المثال، انا ذاهب لديك قائمة من عدد المرات التي أرى
كل من الكلمات.
معنى؟
>> وأخيرا، أنا فقط ستكون لدينا قائمة تسمى "الكلمات" التي هو مجرد الذهاب
لدينا العديد من الكلمات كيف أنا يكون لكل فنان.
وذلك لغاغا، على سبيل المثال، عندما ننظر إلى كلمات، وكنت قد، كما أعتقد، 24
كلمات في المجموع.
حتى هذه القائمة فقط ستكون لدينا غاغا 24، وكاتي رقم آخر.
معنى؟
موافق.
>> وحتى الآن، في الواقع، دعونا انتقل إلى الترميز.
حتى في بيثون، يمكنك فعلا العودة حفنة من مختلف
الأشياء من وظيفة.
لذلك أنا ذاهب لإنشاء هذه الدالة ودعا "المشروطة"، والتي يجري
للعودة كل تلك الأشياء، و "مقدمو الاديره"، و "الاحتمالات"، و
"كلمات". حتى "المشروطة"، وانها ستكون الدعوة الى "كلمات".
>> وحتى الآن أريدك أن الواقع إرسال هذه الوظيفة.
وبالتالي فإن الطريقة التي أستطيع أن أكتب هذا وأنا تعريف الدالة فقط هذا
تعمل مع "صفر". هكذا فعلت "مواطنه المشروط "، وانه أخذ
"كلمات". وهذا ما يجري القيام به و، أولا وقبل كل شيء، لدي مقدمو الاديره بلدي
الذي أريد أن حساب.
>> وبالتالي فإن الطريقة التي يمكنني القيام به وهذا هو خلق قاموس في بيثون، الذي
هو الى حد كبير نفس الشيء كما تجزئة الطاولة، أو انها مثل تكرارية
مجموعة في PHP.
هذه هي الطريقة التي أعلن القاموس.
وأساسا ما يعنيه هذا هو أن مقدمو الاديره من غاغا هو 0.5، على سبيل المثال، إذا
50٪ من كلمات هي من غاغا، 50٪ منهم من كاتي.
معنى؟
لذلك لا بد لي من معرفة كيفية لحساب مقدمو الاديره.
>> تلك التالية التي يجب أن أقوم به، أيضا، هي احتمالات والكلمات.
وبالتالي فإن احتمالات غاغا لائحة جميع الاحتمالات بأنني
يكون لكل من الكلمات لغاغا.
حتى إذا ذهبت إلى احتمالات غاغا "الطفل"، على سبيل المثال، وأنها سوف تعطيني
شيء من هذا القبيل 2 أكثر من 24 في هذه الحالة.
معنى؟
لذلك أذهب إلى "احتمالات"، انتقل إلى "غاغا" دلو يحتوي على قائمة بجميع
الكلمات غاغا، ثم أذهب إلى "طفل" وأرى أن الاحتمال.
>> وأخيرا لدي هذا "كلمات" القاموس.
حتى هنا، "الاحتمالات". ثم "كلمات". حتى لو كنت تفعل "كلمات"، "غاغا"
ما سيحدث هو أنه سوف تعطيني 24، قائلا بأنني
لديك 24 كلمات داخل كلمات من غاغا.
من المنطقي؟
حتى هنا، "كلمات" يساوي الداه الداه--الداه.
حسنا
>> ذلك ما أنا بصدد القيام به هو أنا ذاهب ل تكرار عبر كل من كلمات، وذلك
كل من السلاسل التي لدي في القائمة.
وانا ذاهب لحساب تلك الأشياء لكل من المرشحين.
من المنطقي؟
لذلك يجب أن أقوم به لحلقة.
>> حتى في بيثون ما يمكنني القيام به هو "للخط في كلمات. "الشيء نفسه باعتباره
"لكل" بيان في PHP.
أتذكر كيف لو كان بوسعي PHP ويقول "لكل كلمات كما
الخط. "من المنطقي؟
لذلك أنا أخذ كل بند من بنود، في هذا الحالة، هذه السلسلة والقادمة
سلسلة ذلك لكل من خطوط ما أنا بصدد القيام به هو أولا، أنا ذاهب ل
تقسيم هذا الخط في قائمة الكلمات مفصولة بمسافات.
>> ذلك الشيء باردة حول بيثون هو أن هل يمكن أن مجرد جوجل مثل "كيف يمكنني
تقسيم السلسلة إلى الكلمات؟ "وانها ذاهب لاقول لكم كيف نفعل ذلك.
والسبيل لتحقيق ذلك، انها مجرد "الخط = line.split () "وانها في الاساس
ذاهب الى ان نعطيكم قائمة مع كل من الكلمات هنا.
من المنطقي؟
حتى الآن أن فعلت ذلك أريد أن أعرف من هو مغني هذه الأغنية.
وعلى ذلك لدي فقط للحصول على العنصر الأول من الصفيف، أليس كذلك؟
لذلك أستطيع أن أقول فقط أنني "المغني = سطر (0) "من المنطقي؟
>> ثم ما عليك القيام به هو، أولا وقبل كل شيء، انا ذاهب لتحديث وكم
الكلمات لدي تحت عنوان "غاغا". لذلك أنا فقط الذهاب لحساب عدد الكلمات أنا
يكون في هذه القائمة، أليس كذلك؟
لأن هذه هي الطريقة العديد من الكلمات لدي في كلمات وأنا ذاهب لمجرد
إضافته إلى "غاغا" مجموعة.
فهل هذا يعقل؟
لا تركز كثيرا على بناء الجملة.
نفكر أكثر المفاهيم.
هذا هو الجزء الأكثر أهمية.
موافق.
>> ذلك ما يمكنني القيام به هو إذا "غاغا" هو بالفعل في تلك القائمة، وذلك "إذا مغنية في
عبارة "مما يعني أنني بالفعل لديك الكلمات التي كتبها غاغا.
أريد فقط أن إضافة إضافية الكلمات لذلك.
فما أقوم به هو "كلمات (المغني) + = ليون (خط) - 1 ".
ومن ثم يمكن أن أفعله فقط طول الخط.
فكيف العديد من العناصر I يكون في الصفيف.
ويجب أن أقوم به لمجرد ناقص 1 العنصر الأول من المصفوفة هو مجرد
مغنية وهذه ليست كلمات.
من المنطقي؟
موافق.
>> "آخر،" فهذا يعني أنني أريد أن الواقع إدراج غاغا في القائمة.
لذلك أنا مجرد القيام "بعبارة (المغني) = ليون (خط) - 1، "آسف.
وبالتالي فإن الفرق الوحيد بين الاثنين خطوط هو أن هذا واحد، فإنه لا
موجودة حتى الآن، لذلك أنا فقط تهيئة ذلك.
هذا واحد أنا مضيفا الواقع.
موافق.
لذلك هذا كان يضيف إلى الكلمات.
>> الآن أريد أن أضيف إلى مقدمو الاديره.
فكيف يمكنني حساب مقدمو الاديره؟
يمكن حساب مقدمو الاديره من قبل كيف مرات عديدة.
فكيف مرات عديدة ترى أن المغني بين كل من المطربين التي
لديهم، أليس كذلك؟
وذلك لغاغا وكاتي بيري، في هذه الحالة، أرى غاغا
مرة واحدة، مرة واحدة كاتي بيري.
>> ذلك أساسا مقدمو الاديره لغاغا وكاتي بيري سوف
يكون مجرد واحدة، أليس كذلك؟
أنت فقط عدد المرات أرى أن الفنان.
لذلك هذا هو السهل جدا لحساب.
استطيع مجرد شيء مماثل كما مثل "إذا المغني في مقدمو الاديره، "أنا ذاهب فقط
إضافة 1 إلى مربع مقدمو الاديره بهم.
لذلك، "مقدمو الاديره (الغناء)" + = 1 "ثم" آخر " انا ذاهب الى القيام به "مقدمو الاديره (المغني)
= 1 ". من المنطقي؟
>> حتى إذا لم يكن موجودا أنا فقط وضعت ك 1، وإلا أنا فقط إضافة 1.
موافق، وحتى الآن كل ما تركت للقيام وأيضا إضافة كل من الكلمات ل
الاحتمالات.
وذلك لدي لحساب عدد المرات أرى كل من الكلمات.
لذلك أنا فقط يجب أن تفعل شيئا آخر لحلقة في السطر.
>> أولا حتى الشيء الذي أنا بصدد القيام به هو معرفة ما اذا كان المغني لديها بالفعل
مجموعة الاحتمالات.
لذلك أنا التحقق إذا كان المغني لا لديها مجموعة والاحتمالات، أنا فقط
الذهاب الى تهيئة احد بالنسبة لهم.
انها ليست حتى صفيف، آسف، انها القاموس.
وبالتالي فإن احتمالات المغني يجري أن يكون القاموس مفتوحة، لذلك أنا
مجرد تهيئة القاموس لذلك.
موافق؟
>> والآن يمكنني القيام به في الواقع لحلقة لحساب كل من الكلمات '
الاحتمالات.
موافق.
ذلك ما يمكنني القيام به هو للحلقة.
لذلك أنا ذاهب لمجرد تكرار أكثر من مجموعة.
وبالتالي فإن الطريقة التي أستطيع أن أفعل ذلك في بايثون هو "لأنني في النطاق." من 1
لأنني أريد أن تبدأ في الثانية لأن العنصر الأول هو
اسم المغني.
لذلك من واحدة حتى طول الخط.
وعندما لا يذهب في الواقع تتراوح من مثل هنا من 1 إلى ليون لل
خط ناقص 1.
لذلك لا بالفعل هذا الشيء من القيام ن ناقص 1 للصفائف الذي هو غاية
مريحة.
من المنطقي؟
>> لذلك لكل من هذه، ما أنا ذاهب ل القيام به هو، مثلما هو الحال في غيرها من واحد،
انا ذاهب للتحقق مما إذا كلمة في هذا موقف في الخط هو بالفعل في
الاحتمالات.
ثم كما قلت هنا، والاحتمالات الكلمات، كما هو الحال في أضع
"الاحتمالات (المغني)".
حتى اسم المغني.
حتى لو كان بالفعل في "probabilit (المغني)"، وهذا يعني أنني
تريد إضافة 1 إلى ذلك، لذلك أنا ذاهب ل تفعل "الاحتمالات (المغني)"، و
ويطلق كلمة "خط (ط)".
انا ذاهب لإضافة 1 و"آخر" أنا فقط الذهاب الى تهيئة إلى 1.
"الخط (ط)".
من المنطقي؟
>> لذلك، وأنا حسبت كل من المصفوفات.
لذلك، والآن كل ما يجب أن أقوم به ل هذا هو واحد فقط "العودة مقدمو الاديره،
الاحتمالات والكلمات. "دعونا معرفة ما إذا كان هناك أي، موافق.
يبدو كل شيء يعمل حتى الآن.
لذلك، أن من المنطقي؟
في بعض الطريق؟
موافق.
وحتى الآن لدي كل الاحتمالات.
وحتى الآن الشيء الوحيد الذي لم يقم هو فقط أن يكون هذا الشيء الذي
يحسب للمنتج من جميع الاحتمالات عندما أحصل على كلمات.
>> لذلك دعونا نقول أنني أريد أن الكلمة الآن هذه الوظيفة "تصنيف ()" و
شيء أن يأخذ وظيفة هو مجرد حجة.
دعونا نقول "بيبي، وأنا على النار" وانها الذهاب لمعرفة ما هو
احتمال أن هذا هو غاغا؟
ما هو احتمال أن هذا هو كاتي؟
يبدو جيدا؟
لذلك أنا فقط ستكون لدينا لخلق وظيفة جديدة تسمى "تصنيف ()" و
انها سوف يستغرق بعض كلمات أيضا.
وإلى جانب كلمات وأود أيضا يجب أن ترسل مقدمو الاديره، و
الاحتمالات والكلمات.
لذلك أنا ذاهب لإرسال كلمات، مقدمو الاديره، الاحتمالات، والكلمات.
>> لذلك هذا هو أخذ كلمات، مقدمو الاديره، الاحتمالات، والكلمات.
لذلك، ماذا يفعل؟
انها في الأساس هو الذهاب الى الذهاب من خلال جميع المرشحين المحتمل أنك
يكون كمغنية.
وأين هي تلك المرشحين؟
انهم في مقدمو الاديره، أليس كذلك؟
وذلك لدي كل تلك هناك.
لذلك أنا ذاهب لديها القاموس جميع المرشحين المحتملين.
ثم لكل مرشح في مقدمو الاديره، لذلك يعني أنه سيكون ل
تكون غاغا، وكاتي إذا كان لي أكثر سيكون أكثر من ذلك.
أنا ذاهب لبدء حساب هذا الاحتمال.
احتمال كما رأينا في باور بوينت هو مرات قبل و
المنتج من كل من الاحتمالات الأخرى.
>> حتى أستطيع أن تفعل الشيء نفسه هنا.
يمكنني القيام به فقط هو احتمال في البداية فقط قبل.
لذلك مقدمو الاديره للمرشح.
أليس كذلك؟
والآن لا بد لي من تكرار عبر جميع الكلمات التي لدي في أن تكون كلمات
قادرا على إضافة احتمال لكل منهم، موافق؟
لذلك، "لكلمة في كلمات" ما أنا ذاهب القيام به هو، إذا كانت الكلمة في
"الاحتمالات (مرشح)"، والتي يعني أنه كلمة واحدة أن
لديها مرشح في كلمات لهم -
على سبيل المثال، "طفل" لغاغا -
ما أنا بصدد القيام به هو أن الاحتمال هو ذاهب الى أن تتضاعف
بنسبة 1 بالإضافة إلى احتمالات المرشح لتلك الكلمة.
وهذا يدعى "كلمة".
هذا مقسوما على عدد الكلمات الذي أكنه لذلك المرشح.
إجمالي عدد الكلمات التي لدي للمغني أن أنا أبحث في.
>> "آخر." فهذا يعني انها كلمة جديدة ذلك انها تريد ان تكون مثل على سبيل المثال
"النار" ليدي غاغا.
لذلك أنا فقط تريد أن تفعل أكثر من 1 "كلمة (مرشح)".
لذلك أنا لا أريد أن أضع هذا المصطلح هنا.
>> لذلك سيكون أساسا نسخ ولصق هذا.
ولكن أنا ذاهب إلى حذف هذا الجزء.
حتى انها مجرد ستكون أكثر من 1 ذلك.
يبدو جيدا؟
والآن في نهاية، وأنا ذاهب لمجرد طباعة اسم المرشح و
احتمال أن يكون لديك ل وجود أحد في كلمات لهم.
من المنطقي؟
وأنا في الواقع لا حتى بحاجة إلى هذا القاموس.
من المنطقي؟
>> لذلك، دعونا نرى ما اذا كان هذا يعمل بالفعل.
حتى لو كنت تشغيل هذا، فإنه لم تنجح.
الانتظار ثانية واحدة.
"كلمات (مرشح)"، "كلمات (مرشح)"، هذا
اسم مجموعة.
موافق لذلك، فإنه يقول هناك بعض الشوائب لمرشح في مقدمو الاديره.
اسمحوا لي فقط هدئ قليلا.
موافق.
دعونا نحاول.
موافق.
>> لذلك يعطي كاتي بيري لديها هذه احتمال هذه الأوقات إلى 10
ناقص 7، وغاغا لديه هذا مرات 10 إلى ناقص 6.
لذلك ترى أنه يبين أن غاغا لديها أعلى احتمال.
حتى "بيبي، وأنا على النار" و ربما أغنية غاغا.
من المنطقي؟
لذلك هذا هو ما فعلناه.
>> هذا الرمز سوف يتم نشرها على الإنترنت، لذلك يا رفاق يمكن التحقق من ذلك.
ربما تستخدم بعض من ذلك لأنه إذا كنت تريد أن قيام المشروع أو شيئا من هذا القبيل.
موافق.
كان هذا فقط لاظهار ما الحسابية
كود اللسانيات يبدو.
ولكن الآن دعونا نذهب إلى أكثر الاشياء مستوى عال.
موافق.
>> وبالتالي فإن مشاكل أخرى أنا كان يتحدث عن -
مشكلة تجزئة هو أول واحد منهم.
لذلك عليك هنا اليابانية.
ومن ثم ترى أن لا توجد مسافات.
لذلك هذا هو يعني أساسا أنه من أعلى كرسي، أليس كذلك؟
تتكلم اليابانية؟
انها أعلى كرسي، أليس كذلك؟
>> الطالب: أنا لا أعرف ما كانجي أكثر من هناك.
>> LUCAS FREITAS: انها [يتكلم اليابانية]
موافق.
لذلك يعني أساسا كرسي من أعلى.
حتى إذا كان لديك لوضع مسافة سيكون هنا.
ثم لديك [؟ اويدا سان. ؟]
وهو ما يعني أساسا السيد اويدا.
وترى أن "اويدا" وكان لديك الفضاء ثم "سان". لذلك ترى أن
هنا أنت "رق" هو مثل في حد ذاته.
وهنا كان لديه شخصية لأنها المقبل.
>> حتى انها ليست مثل في تلك اللغات حرف بمعنى الكلمة ذلك حتى تتمكن
فقط وضعت الكثير من المساحات.
أحرف تتصل بعضها البعض.
وأنها يمكن أن نكون معا مثل اثنان، ثلاثة، واحد.
بحيث يكون لديك فعلا لخلق نوع من طريقة لوضع تلك الأماكن.
>> وهذا الشيء هو أنه كلما تحصل البيانات من تلك اللغات الآسيوية،
كل شيء يأتي unsegmented.
لأن لا أحد يكتب اليابانية أو الصينية يكتب بمسافات.
كلما كنت تكتب الصينية، كنت للتو اليابانية كتابة كل شيء
مع عدم وجود مسافات.
بل لا معنى له لوضع مسافات.
حتى ذلك الحين عندما تحصل على البيانات من بعض اللغات الشرق آسيوية، إذا كنت ترغب في
في الواقع تفعل شيئا مع أن عليك أن الجزء الأول.
>> التفكير في القيام مثال كلمات بدون مسافات.
وبالتالي فإن كلمات فقط أن لديك سوف تكون الجمل، أليس كذلك؟
مفصولة بنقاط.
ولكن بعد ذلك مجرد وجود الحكم سوف لا تساعد حقا على إعطاء المعلومات
من هم هؤلاء كلمات هي من قبل.
أليس كذلك؟
لذلك يجب عليك يضع مسافات الأول.
فكيف يمكنك أن تفعل ذلك؟
>> حتى ذلك الحين تأتي فكرة لغة النموذج الذي هو شيء حقا
المهم بالنسبة الحسابية اللغويات.
ذلك نموذج اللغة هو في الأساس جدول الاحتمالات أن يظهر
أولا وقبل كل ما هو احتمال وجود الكلمة في اللغة؟
بحيث تبين كيفية المتكرر كلمة هو.
ثم تظهر أيضا العلاقة بين الكلمات في الجملة.
>> وبالتالي فإن الفكرة الرئيسية هي، إذا جاء شخص غريب لك وقال الجملة ل
لك، ما هو احتمال أن، ل سبيل المثال، "وهذا هو أختي [؟ GTF"؟]
كانت الجملة أن الشخص المذكور؟
لذلك من الواضح بعض الجمل هي أكثر شيوعا من غيرها.
على سبيل المثال، "صباح الخير" أو "جيدة ليلة "، أو" يا هناك، "هو أكثر من ذلك بكثير
مشترك من معظم الأحكام ان لدينا الإنجليزية.
فلماذا هي تلك الجمل أكثر تواترا؟
>> في المقام الأول، انها لأنه لديك الكلمات التي هي أكثر تواترا.
لذلك، على سبيل المثال، إذا كنت أقول، والكلب هو كبيرة، والكلب هو العملاق، كنت
ربما نسمع عادة الكلب هو كبير في كثير من الأحيان بسبب "الكبير" هو أكثر
متكررة في اللغة الإنجليزية من "عملاقة". لذلك، واحدة من
الأشياء هو تكرار الكلمة.
>> الشيء الثاني الذي هو في الحقيقة المهم هو فقط
ترتيب الكلمات.
لذلك، فإنه من الشائع أن نقول "القط داخل منطقة الجزاء. "ولكنك لا عادة
نرى في "مربع داخل هو القط." هكذا ترى أن هناك بعض الأهمية
في ترتيب الكلمات.
لا يمكنك أن تقول فقط أن هذين جمل لها نفس الاحتمال
فقط لأن لديهم نفس الكلمات.
لديك فعلا لرعاية حول النظام كذلك.
معنى؟
>> فماذا نفعل؟
ذلك ما كنت قد تحاول الحصول على لك؟
أنا أحاول أن تحصل على ما نحن استدعاء نماذج ن غرام.
من النماذج ن غرام تفترض أساسا ان كل كلمة
لديك في الجملة.
انها احتمال وجود هذا كلمة هناك لا يتوقف فقط على
تردد هذه الكلمة في اللغة، ولكن أيضا على الكلمات التي
يتم المحيطة به.
>> ذلك على سبيل المثال، عادة عندما ترى شيء من هذا القبيل أو في كنت
ربما سنشهد إسم بعد ذلك، أليس كذلك؟
لأنه عندما يكون لديك حرف الجر وعادة ما يستغرق اسما بعد ذلك.
أو إذا كان لديك الفعل التي هي متعدية كنت عادة ما يتم الانتقال إلى
يكون عبارة اسما.
لذلك ستكون لدينا اسما في مكان ما حوله.
>> لذلك، أساسا، ما يفعله هو أنه يعتبر احتمال وجود
الكلمات بجانب بعضها البعض، عندما كنت حساب
احتمال عقوبة.
وهذا ما للغة النموذج هو الأساس.
فقط أقول ما هو احتمال وجود محددة
الجملة في اللغة؟
فلماذا هو أن من المفيد، في الأساس؟
وأولا وقبل كل ما هو نموذج ن غرام، ثم؟
>> ذلك نموذج ن غرام يعني أن كل كلمة يعتمد على
N المقبل ناقص 1 الكلمات.
لذلك، في الأساس، وهذا يعني أنه إذا أنا أنظر، على سبيل المثال، في حين TF CS50
أنا حساب احتمال الجملة، عليك أن تكون مثل "
احتمال وجود كلمة "على" مرات من احتمال وجود "ل
CS50 "أضعاف احتمال وجود "إن TF CS50." لذلك، في الأساس، وأنا أعول
جميع السبل الممكنة لتمتد عليه.
>> ثم عادة عندما كنت تفعل هذا، كما هو الحال في مشروع، كنت وضعت لتكون N
قيمة منخفضة.
لذلك، وعادة ما يكون bigrams أو باقوا.
بحيث يمكنك الاعتماد فقط كلمتين، و مجموعة من كلمتين أو ثلاث كلمات،
فقط لمشاكل الأداء.
وأيضا لأنه ربما إذا كان لديك شيء من هذا القبيل "وTF CS50." عند
ديك "TF"، فإنه من المهم جدا أن "CS50" بجانب ذلك، أليس كذلك؟
تلك أمرين وعادة ما تكون بجانب بعضها البعض.
>> إذا كنت تفكر في "TF" انها على الارجح ستكون لدينا ما
الطبقة انها TF'ing ل.
أيضا "" من المهم حقا لCS50 TF.
ولكن إذا كان لديك شيء من هذا القبيل "وCS50 ذهب TF لفئة، وقدم لهم
الطلاب بعض الحلوى "." كاندي "و" " لا علاقة حقا، أليس كذلك؟
انهم بعيدة جدا عن بعضها البعض التي فإنه لا يهم ما حقا
الكلمات التي لديك.
>> ذلك عن طريق القيام bigram أو trigram، فإنه يعني فقط ان كنت الحد
نفسك لبعض الكلمات التي حولها.
معنى؟
لذلك عندما تريد أن تفعل تجزئة، أساسا، ما تريد القيام به هو معرفة
ما هي كل السبل الممكنة التي يمكنك قطاع الجملة.
>> بحيث ترى ما هو احتمال كل من هذه الجمل
القائمة في اللغة؟
لذلك ما عليك فعله هو مثل، حسنا، دعونا لي في محاولة لوضع مسافة هنا.
لذلك يمكنك وضع مسافة هناك وترى ما هو
احتمال أن الجملة؟
ثم كنت مثل، حسنا، ربما لم يكن ذلك جيدا.
لذلك أنا وضعت الفضاء هناك مساحة و هناك، وعلى حساب
الاحتمال الآن، وترى أن انها احتمال أكبر.
>> لذلك هذا هو خوارزمية تسمى تانغو خوارزمية تجزئة، والتي هي
فعلا شيء من شأنه أن يكون حقا بارد لمشروع، والتي
يأخذ أساسا النص الذي unsegmented يمكن أن يكون اليابانية أو الصينية أو ربما
الانجليزية بدون مسافات، ويحاول أن يضع المسافات بين الكلمات وأنه لا
أنه باستخدام نموذج اللغة و في محاولة لمعرفة ما هو أعلى
احتمال يمكنك الحصول عليها.
موافق.
لذلك هذا هو تجزئة.
>> الآن في بناء الجملة.
لذلك، يتم استخدام بناء جملة الكثير من الأشياء في الوقت الحالي.
وذلك لبحث الرسم البياني، لسيري ل الى حد كبير أي نوع من الطبيعية
معالجة اللغة لديك.
فما هي أهمية أشياء حول بناء جملة؟
لذلك، الأحكام بصفة عامة لديها ما نسميه المكونات.
التي هي نوع من مثل مجموعات من الكلمات التي لديها وظيفة في الجملة.
وأنها لا يمكن أن يكون حقا وبصرف النظر عن بعضها البعض.
>> لذلك، إذا قلت، على سبيل المثال، "لورين يحب ميلو. "أنا أعرف أن" لورين "هو
التأسيسية ثم "يحب ميلو "هي أيضا واحدة أخرى.
لأنك لا يمكن أن يقول مثل "لورين ميلو يحب "أن يكون لها نفس المعنى.
انها ليست ستكون لدينا نفس المعنى.
أو لا أستطيع أن أقول مثل "ميلو لورين يحب. "ليس كل شيء له نفس
يعني ذلك.
>> وبالتالي فإن أمرين أكثر أهمية حول جملة هي أنواع المعجمية التي هي
أساسا الدالة التي قمت يكون للكلمات من تلقاء انفسهم.
ولذلك عليك أن تعرف أن "لورين" و "ميلو" هي الأسماء.
"الحب" هو الفعل.
والشيء الثاني المهم هو انهم أنواع الجمل الفعلية.
حتى تعرف أن "يحب ميلو" هو في الواقع عبارة لفظية.
لذلك عندما أقول "لورين،" أعرف أن لورين تفعل شيئا.
ما هو أنها تفعل؟
انها المحبة ميلو.
لذلك هو كل شيء.
ولكن مكوناته هي اسما والفعل.
ولكن معا، لأنها تجعل العبارة الفعل.
>> لذلك، ما يمكننا القيام به في الواقع مع اللغويات الحاسوبية؟
لذلك، إذا كان لدي شيء على سبيل المثال "أصدقاء أليسون". أرى إذا أنا فقط
لم شجرة النحوية وأود أن تعرف أن "أصدقاء" هي العبارة اسما هو
إسم ثم "لأليسون" هو عبارة الجر التي "من" هو
اقتراح و"أليسون" اسما.
ما يمكن أن تفعله هو تعليم الكمبيوتر أن عندما يكون لدي عبارة إسم واحد و
ثم عبارة الجر.
حتى في هذه الحالة، "أصدقاء" ثم "ل ميلو "أنا أعلم أن هذا يعني أن
NP2، ثانية واحدة، وتملك NP1.
>> حتى أتمكن من خلق نوع من العلاقة، نوعا من وظيفة لذلك.
لذلك كلما أرى هذا الهيكل، الذي يطابق تماما مع "أصدقاء
أليسون، "أعرف أن أليسون تمتلك الأصدقاء.
وبالتالي فإن الأصدقاء هم شيء أليسون التي لديها.
من المنطقي؟
لذلك هذا هو أساسا ما الرسم البياني البحث لا.
انها مجرد يخلق قواعد لكثير من الأشياء.
حتى "أصدقاء أليسون"، "أصدقائي الذين يعيشون في كامبريدج "،" أصدقائي
الذين يذهبون إلى جامعة هارفارد ". يخلق قواعد لجميع تلك الأشياء.
>> الآن ترجمة الآلة.
لذلك، والترجمة الآلية هو أيضا شيء الإحصائية.
وفعلا إذا كنت الانخراط في اللغويات الحاسوبية، والكثير من
الاشياء الخاصة بك ستكون الإحصاءات.
حتى كنت أفعله مع المثال الكثير من الاحتمالات التي كنت
حساب، ومن ثم تحصل على هذا عدد قليل جدا هذا هو النهائي
الاحتمالات، وهذا ما يعطيك الجواب.
يستخدم الترجمة الآلية أيضا نموذج إحصائي.
وإذا كنت ترغب في التفكير في آلة الترجمة في أبسط ممكن
الطريق، ما يمكن ان يخطر لك هو مجرد ترجمة كلمة كلمة، أليس كذلك؟
>> عندما كنت تعلم لغة ل المرة الأولى، وهذا عادة ما
كنت تفعل، أليس كذلك؟
إذا كنت تريد ترجمة الجملة في لغتك إلى اللغة
كنت تعلم، وعادة الأولى، ترجمة كل من الكلمات
بشكل فردي، ثم محاولة لوضع الكلمات في مكانها.
>> لذلك إذا أردت أن يترجم هذا، [الناطقة بالبرتغالية]
وهو ما يعني "القط الأبيض هربت." إذا أردت أن ترجمته من
البرتغالية إلى الإنجليزية، ما يمكن القيام به هو، أولا، أنا فقط
ترجمة كلمة بكلمة.
حتى "س" هو "،" "غاتو"، "القط" "برانكو"، "الأبيض"، ثم "fugio" هو
"هربت".
>> حتى ذلك الحين لدي كل الكلمات هنا، لكنها ليست في النظام.
انها مثل "القط الأبيض هربت" وهو غير قواعدي.
لذلك، ثم أنا يمكن أن يكون خطوة الثانية، التي سوف يتم العثور على مثالية
موقف لكل من الكلمات.
لذلك أنا أعلم أنني في الواقع تريد أن يكون "القط الأبيض" بدلا من "القط الأبيض". هكذا
ما يمكنني القيام به هو، والأسلوب الأكثر السذاجة سيكون لتهيئة جميع
التباديل الممكنة لل الكلمات، المواقف.
ومن ثم معرفة أي واحد لديه أعلى احتمال وفقا
إلى نموذج لغتي.
وبعد ذلك عندما أجد واحدة لديها أعلى احتمال، والذي هو
على الارجح "القط الأبيض ركض بعيدا،" هذا هو بلدي الترجمة.
>> وهذا هو وسيلة بسيطة لشرح كيف الكثير من الترجمة الآلية
العمل الخوارزميات.
فهل هذا يعقل؟
وهذا هو أيضا شيء مثير حقا أن يا رفاق يمكن استكشاف ربما ل
المشروع النهائي، نعم؟
>> الطالب: حسنا، قلت كان طريقة ساذجة، لذلك ما هو
الطريق غير ساذجة؟
>> LUCAS FREITAS: الطريقة غير ساذجة؟
موافق.
وبالتالي فإن أول شيء ما هو سيء عن هذا الأسلوب هو أن قمت بترجمة فقط
الكلمات، كلمة كلمة.
لكن في بعض الأحيان لديك الكلمات التي يمكن أن يكون لها ترجمات متعددة.
انا ذاهب الى محاولة للتفكير لشيء ما.
على سبيل المثال، "المانجا" في علبة البرتغالية إما أن يكون "فسد" أو "كم". هكذا
عندما كنت في محاولة لترجمة كلمة بكلمة، قد تكون مما يتيح لك
شيء لا معنى له.
>> لذلك كنت فعلا تريد ان نظرتم الى كل الترجمات المحتملة لل
الكلمات ونرى، أولا وقبل كل شيء، ما هو النظام.
كنا نتحدث عن permutating الأشياء؟
لمعرفة جميع الاوامر ممكن و اختيار واحد وفقا لأعلى
الاحتمال؟
يمكنك أيضا اختيار كل ما هو ممكن الترجمات لكل
كلمة ونرى بعد ذلك -
جنبا إلى جنب مع التباديل -
أي واحد لديها أعلى احتمال.
>> بالإضافة إلى ذلك، يمكنك ايضا ان ننظر في لا فقط الكلمات ولكن العبارات.
حتى تتمكن من تحليل العلاقات بين الكلمات ومن ثم الحصول على
ترجمة أفضل.
أيضا شيء آخر، لذلك هذا الفصل الدراسي أفعله في الواقع البحث في
الصينية الانجليزية الترجمة الآلية، لذلك من ترجمة
الصينية إلى الإنجليزية.
>> وشيء نقوم به هو، إلى جانب استخدام نموذج إحصائي، الذي هو مجرد
رؤية الاحتمالات في رؤية بعض الموقف في الجملة، وأنا
في الواقع أيضا إضافة بعض بناء الجملة لبلدي نموذج قائلا، أوه، إذا رأيت هذا النوع
البناء، وهذا هو ما أريد لتغييره إلى عندما أترجم.
بحيث يمكنك أيضا إضافة بعض نوع من عنصر في بناء الجملة لجعل
ترجمة أكثر كفاءة وأكثر دقة.
موافق.
>> فكيف يمكن أن تبدأ، إذا كنت تريد أن تفعل شيئا في الحسابية
اللسانيات؟
>> الأولى، اخترت مشروع التي تنطوي على لغات.
لذلك، هناك الكثير من هناك.
هناك الكثير من الأشياء التي يمكن القيام به.
ومن ثم يمكن التفكير في نموذج التي يمكنك استخدامها.
وهذا يعني عادة التفكير من الافتراضات، كما مثل، أوه، عندما كان عمري
مثل التفكير في كلمات.
كنت مثل، حسنا، إذا كنت تريد معرفة خارجا الذي كتب هذا، وأنا ربما تريد
أن ننظر إلى كلام شخص يستخدم و معرفة من الذي يستخدم هذه الكلمة في كثير من الأحيان.
وذلك في محاولة لجعل الافتراضات و في محاولة للتفكير من النماذج.
ثم يمكنك أيضا البحث على الانترنت ل هذا النوع من المشكلة التي لديك،
وانها سوف تشير إليكم النماذج التي ربما
على غرار هذا الشيء جيدا.
>> وأيضا يمكنك البريد الالكتروني لي دائما.
me@lfreitas.com.
وأستطيع الإجابة على الأسئلة الخاصة بك فقط.
يمكننا حتى يمكن تلبية تصل حتى يمكنني تقديم الاقتراحات بشأن سبل
تنفيذ المشروع.
وأعني إذا كنت التورط مع اللغويات الحاسوبية، انه سيكون
أن تكون كبيرة.
وأنت تسير أن نرى هناك هو محتمل كثيرا.
وصناعة يرغب في توظيف كنت سيئا للغاية بسبب ذلك.
لذلك آمل أن يتمتع هذا يا رفاق.
إذا يا رفاق لديك أي أسئلة، يمكنك أن تطلب مني بعد ذلك.
لكن شكرا لك.