עיבוד שפה ודיבור – הקדמה לעיבוד שפה טבעית, בלשנות חישובית וזיהוי קולי

7.2. Daniel Jurfanskyעיבוד שפה ודיבור – הקדמה לעיבוד שפה טבעית, בלשנות חישובית וזיהוי קולי

הרעיון של מאמר זה הוא להציג את הביצועים וההשלכות של התחום הבינתחומי הזה שכולל עיבוד דיבור ושפה, טכנולוגיית שפה אנושית, בלשנות ממוחשבת, זיהוי קולי וסינתזה (בבלשנות: העדפה של שפה להשתמש בצורות נטויות על פני סדר מילים על מנת לבטא סדר תחבירי). המטרה של התחום היא בין השארלאפשר תקשורת אדם-מכונה; לשפר תקשורת בין בני אדם  ולשמש לעיבוד טקסט או דיבור.

הדגמה ליישום שכזה הוא מערכת שיח conversational agent. באנלוגיה: ל-האל, המערכת המלאכותית מהסרט 2001: אודיסאה בחלל יש אפשרות לשוחח עם בני אדם בשפה טבעית והוא משתמש ביכולות שאנו מכנים מערכות דיאלוגיות או סוכני שיח. החלקים מהם מורכב סוכן כזה כוללים קלט של שפה: זיהוי קולי אוטומטי והבנת שפה טבעית. ופלט של שפה: דיאלוג, תכנון תגובה וסינתזת דיבור.

יישום נוסף של התחום הוא תרגום. המטרה של תרגום ממוכן היא לתרגם מסמך באופן אוטומטי משפה אחת לשניה. אנחנו מציגים את האלגוריתמים והכלים המתמטיים שדרושים להבין איך תרגום ממוכן מודרני עובד.

ישנם יישמוים רבים הקשורים לאינטרנט: הענקת תשובות לשאלות הנשאלות ברשת. שאלות המבקשות תשובה להגדרה, עובדה פשוטה (תאריכים, מיקום) כבר מוצאות מענה על ידי מנועי החיפוש. לעומת זאת תשובה לשאלות מורכבות: כאלה הדורשת שאיבת מידע מטקסט נוסף, העלאת מסקנה, מיזוג (סינתוז) וסיכום מידע ממספר מקורות ברשת דורשת מערכות מתוחכמות יותר.  הטקסט הזה מתמקד בהבנת מערכות אלו של שאיבת מידע (information extraction), הפגת דו משמעות של מילים וכו'.

1.1. ידע בעיבוד דיבור ושפה (ממוחשב)

המבדיל בין אפליקציות של עיבוד שפה למערכות עיבוד מידע אחרות הוא השימוש שלהן בידע הלשוני. לעומת תוכנה הסופרת ביטים של זכרון ממוחשב  לתוכנה הסופרת מילים יש צורך במידע אודות מה זה אומר להיות מילה. סוכני שיח מתוחכמים כמו האל, מערכות תרגום ממוכנות ומערכות חזקות להשבת על שאלות דורשות ידע מעמיק של השפה.

על מנת שרובוט כמו האל יוכל לזהות מילים מתוך רצף קולי עליו להיות בעל יישום לזיהוי קולי וסינתזת דיבור הדורשות בתורן ידע בפונולוגיה ופונטיקה. על מנת שיבצע הטיות דרוש לו ידע במורפולוגיה. מעבר למילים על הרובוט להתבסס על ידע מבני כדי לקשור יחד מילים שיוצרות תגובה דקדוקית, ידע זה מובא תחת הכותרת דקדוק. על מנת לענות על שאלה יש לו צורך בידע מתוך הסמנטיקה הלקסיקלית, וכדי שיבין צמדי סמיכות כמו אירופה המערבית יש לו צורך בידע על העמדה סמנטית. הידע הדרוש מהרובוט על מנת שיפרש אמירה כבקשה לפעולה (במקום הצהרה על העולם או שאלה), והידע הדרוש ממנו על מנת שידע איך ומתי להתבטא בנימוס הוא ידע פרגמטי. ידע פרגמטי נוסף נדרש כשיש הפנייה כגון  כמה מדינות היו בארה"ב בשנה זו?, על מנת לחזור לשאלה הקודמת (במקרה זה: מה השנה בה לינקולן נולד?), נדרש פיתרון לכינויים כלליים המשתמש בידע על איך כינויים סתמיים מסמנים חלקים קודמים בשיח.

1.2. דו משמעות

באופן מפתיע  המשימה העיקרית של עיבוד ממוחשב היא לפתור רב/דו משמעות בכל אחת מהרמות שהודגשו לעיל: במורפולוגיה; בחלק הדיבר התחבירי; ברמה הסמנטית; בין פועל עומד לפועל יוצא; וברמת הדיבור כשהרצף הפונטי זהה (כי=קיא).

לעתים קרובות המודלים והאלגוריתמים שלנו מוצגים כדרכים לפתור רב משמעות. החלטה בין פועל לש"ע תיפתר על ידי תיוג חלקי דיבר, החלטה על משמעויות תיפתר על ידי הבהרת משמעות, כששני אלה שייכים להסרת רב-משמעות לקסיקלית, תחום שמשייך תוכו מערכות לסינתזת טקסט–>דיבור יחליטו אם כופר נועד לשיחרור בן ערובה או לחוטא. מערכות אלו גם יחליטו אם ב  ""I made her duck her ו duck מתייחסים לאותה היישות. פרשנות כגון: בשילתי את ברווז השייך לה היא דוגמא לרב משמעות תחבירית הנפתרת בדרך של ניתוח דקדוקי הסתברותי. פירוש פעולת דיבור תפתור בעייה של רב משמעות של אמירה כלשהי, האם היא שאלה או הצהרה.

1.3. מודלים ואלגוריתמים

אחת התובנות המרכזיות של חקר עיבוד השפה ב 50 השנים האחרונות היא שסוגים שונים של ידע לשוני יכולים להתבטא דרך מספר מצומצם של מודלים או תיאוריות הלקוחות מהתחום של מדעי המחשב, מתמטיקה ובלשנות. החשובים ביותר הם אלגוריתם מכונות מצב state) machines-), לוגיקה, מודלים הסתברותיים, מערכות חוקים ומודלי וקטור-חלל. המודלים האלו בתורם מלווים את עצמם למספרמצומצם של אלגוריתמים, המשמעותיים ביותר הם אלגוריתימים ללימוד של מכונות ואלגוריתם לחיפוש מצב מרחבי.

1) מודלים של "מכונות מצב" בפישוט, מורכבים ממצבים מסויימים;  השינויים בין מצבים אלו; וייצוג של קלט. חלק מהווריאציות של המודל הבסיסי הזה הן דטרמיניסטיות וחלק לא, ונכנה אותן מצב סופי אוטומטי/ מצב סופי מוליך.

2) המודל בתוכו נמצאים החלקים הדקלרטיביים הוא מערכת חוקים פורמלית: זו כוללת תחביר קבוע, יחסים קבועים, תחביר נטול-הקשר, ותחביר תלוי-שימוש.

3) מודלים המושתתים על לוגיקה פורמלית הידועים גם כ"תחשיב הפרדיקט".

4) מודלים הסתברותיים הם הכרחיים על מנת ללכוד כל סוג של ידע לשוני. כל מודל כמו אלה שצויינו יכול להוסיף לעצמו אלמנטים הסתברותיים ואז הוא מכונה "מודל מקרוב". היתרון הגדול של הסתברות היא יכולתה לפתור בעיות של רב-משמעות.

עיבוד מידע בכל אחד מהמודלים האלו כולל חיפוש במרחב של מצבים שונים המייצגים הנחה שונה לגבי קלט כלשהו: בזיהוי קולי דרך רצף פונמי, בניתוח דקדוקי דרך עצים תחביריים שונים.

עזרי לימוד מכניים כמו: מגדירים ומודלים של רצף משחקים תפקיד מרכזי ביישומים רבים. בהתבסס על מאפיינים שמתוארים לגבי לאובייקט מסויים (מילה מסויימת), המגדירים מנסים לייחס לאובייקט המסוים סיווג מסויים, בעוד מודלים של רצף מנסים לשייך אותו לרצף מסויים של סיווגים מסויימים.

1.4.  שפה מחשבה והבנה (מבחן טיורינג)

יכולת גבוהה בשימוש בשפה קשורה ליכולות הקוגניטיביות שלנו. אלן טיורינג היה מהראשונים לשקול את ההשלכות של קשר זה על מיחשוב. במבחן טיורינג הוא הגיע למסקנה שהשאלה מה זה אומר שמכונה תחשוב? איננה ניתנת לפיתרון בגלל חוסר הדיוק המובנה של המושגים מכונה ולחשוב. במקום הוא הציע מבחן אמפירי, בו השימוש של מחשב בשפה יהווה את הבסיס לקבוע אם המחשב יכול לחשוב. אם המחשב ינצח במשחק הוא יישפט כאינטיליגנטי.

במשחק משתתפים 2 בני אדם ומחשב. אחד המשתתפים האנושיים משחק בתפקיד של חוקר שצריך לקבוע מי מהשניים האחרים הוא מכונה דרך שאלת שאלות (על ידי מקלדת). המשימה של המכונה היא להתל בחוקר שיאמין שהוא בן אדם. המטרה של האיש השני היא לשכנע את החוקר שהמשתתף שני (המכונה) אכן מכונה, ושהוא עצמו אנושי.

טיורינג ניבא שעד סוף המאה ה- 20 מכונה עם 10 גיגהבייט של זיכרון תוכל להתל 30% מבני האדם אחרי 5 דקות של שאילת שאלות. נושא זה נהיה רלוונטי מאד כבר בשנות ה 60 כשפותחה תוכנת אלייזה, מערכת מוקדמת לעיבוד שפה. גרסה שלה שתוכנתה להגיב כפסיכותרפיסט הצליחה להתל בלא מעט אנשים:

משתמש: אתה דומה לאבי בהרבה מובנים

אלייזה:במה אנחנו דומים?

משתמש: אתה לא מאד אגרסיבי אך אני חושב שאינך רוצה שאשים לב לכך

אלייזה: מה גורם לך לחשוב שאני לא אגרסיבי?

אלייזה היא תוכנה פשוטה להפליא שמשתמשת בתבניות מוגדרות על מנת לעבד קלט ולתרגם אותו לפלט על פי אותן תבניות. היא איננה צריכה לדעת דבר. אנשים רבים שתיקשרו עם אלייזה האמינו שהיא באמת הבינה אותם ואת בעיותיהם גם אחרי שפעולת המכונה הוסברה להם. מאז 1991 יש תחרות בינלאומית של מבחן טיורינג, באופן עקבי גם התוכנות הגולמיות ביותר מצליחות להתל בחלק מהשופטים חלק מהזמן.

ללא קשר מה אנשים חושבים על העבודה הפנימית של מחשבים, הם מדברים עליהם ויוצרים אינטראקציה איתם כמו ישויות חברתיות: בין השאר מצפים שמחשבים יוכלו להבין את צרכיהם ולתקשר איתם בצורה טבעית. העובדה הזו הובילה למיקוד ארוך טווח בפיתוח של סוכני שיח – ישויות מלאכותיות שמתקשרות דרך שיחה.

1.5. המצב כעת

הגידול העצום במשאבים ממוחשבים, עליית הרשת כמקור מידע והזמינות הגוברת של גישה אלחוטית לאינטרנט הציבו את חקר עיבוד השפה בחוד החזית הטכנולוגית.

חברות תעופה מדריכות נוסעים שצריכים מידע דרך סוכני שיח; יצרניות רכב מספקות מערכת זיהוי קולי ו טקסט–>דיבור על מנת לשלוט בסביבת הרכב; חברות חיפוש וידאו משתמשות בזיהוי קולי כדי ללכוד מילים מפס-קול; גוגל מאפשרת שליפת מידע ותרגום צולב בין שפות שונות; מערכות אוטומטיות נותנות ציונים והערכה לעבודות של תלמידים בצורה בלתי ניתנת לאבחנה עם בודקים אנושיים; דמויות וירטואליות איטראקטיביות משמשות כחונכות לילדים בגיל הרך; חברות ניתוח מספקות מידע שיווקי על בסיס ניתוח אוטומטי של דעות המובעות בפורומים, בלוגים וקבוצות משתמשים.

1.6. סקירה היסטורית

באופן היסטורי לעיבוד שפה ודיבור התייחסו באופן שונה מאד במדעי המחשב, בהנדסת חשמל, בבלשנות ובפסיכולוגיה/מדעים קוגניטיביים. כך התפתחו תחומים שלעיתים חופפים: בלשנות חישובית בבלשנות, עיבוד שפה טבעית במדעי המחשב, זיהוי קולי בהנדסת חשמל; פסיכולינגוויסטיקה חישובית בפסיכולוגיה. מובא סיכום של חוט השני ההיסטורי שהוביל לעליית התחום.

1940 ו 1950: התובנות המייסדות.

שנים אלו ראו עבודה אינטנסיבית על 2 פרדיגמות מייסדות: האוטומטי וההסתברותי.

1)האוטומטי עלה בשנות ה- 50 מתוך המודל של מיחשוב אלגוריתמי שנהגה ע"י טיורינג ב 1936 ונחשב לייסוד של מדעי המחשב המודרניים. הדרך נסללה לפיתוח התיאוריה הפורמלית של השפה שהשתמשה באלגברה ותורת הקבוצות להגדיר שפה פורמלית כסימבולים ורצפים.
2)התובנה השנייה היא פיתוח מודלים הסתברותיים לעיבוד שפה ודיבור. פותחה תאוריה להעברת שפה דרך ערוצי מדיה ואקוסטיקת דיבור שכונתה הערוץ הרועש (noisy channel). המושג של אנטרופיה (מדד לרמת האי-סדר במערכת) הושאל על מנת לבצע מדדים על אי-הסדר בשפה כדי ליצור טכניקות הסתברותיות.

3)בתקופה זו  פותח הספקטוגרף הקולי והונחה התשתית המחקרית לזיהוי קולי.

1957 – 1970: תקופת שתי המחנות

בתקופה זו עיבוד שפה התחלק ל 2 פרדיגמות: הסימבולית והסטוכסטית (אקראיות סטטיסטית).

הסימבולית 1) חקרה את עבודתו של חומסקי ואחרים על הטבע הפורמלי של השפה ודקדוק יצרני (גנרטיבי) ואלגוריתמים לניתוח משפטים ומילים. 2) חקרה אינטיליגנציה מלאכותית. ההתמקדות הייתה בלוגיקה והבנת טיעונים. בשלב זה נבנו מערכות ראשוניות להבנת שפה טבעית.

הפרדיגמה הסטוכסטית התפתחה במחלקות לסטטיסטיקה והנדסת חשמל. נעשתה בה עבודה בתחום ההכרה האופטית של תווים ונבנתה מערכת לזיהוי טקסט שהצליחה לחשב את הסבירות של כל רצף אותיות להופיע בכל מילה נתונה בתוך מילון שלם (ע"י הכפלת הסיכויים של כל אות להופיע ).

בשנות ה- 60 הופיעו גם מודלים פסיכולוגיים של שפה אנושית המבוססים על דקדוק משתנה וגם הקורפוס המקוון הראשון: מילון אנגלי.

1970 – 1983: ארבע הפרדיגמות.

זו הייתה תקופה של גאות בתחום המחקר.

1)הפרדיגמה הסטוכסטית שיחקה תפקיד מרכזי בפיתוח זיהוי קולי.

2)הפרדיגמה המבוססת על לוגיקה ביססה את החשיבות של איחוד מאפייני המבנים הלשוניים.

3)תחום הבנת השפה הטבעית צבר תאוצה, מה שהוביל לניסיון ראשון לבנות מודל תחבירי כולל של אנגלית, והבעייה של ניתוח דקדוקי הובנה במידה מספקת כדי ולהתחיל ולעבוד על סמנטיקה ושיח. מערכות של לוגיקה והבנת שפה טבעית אוחדו תחת מערכות שהשתמשו בתחשיב הפרדיקט כייצוג סמנטי.

4)פרדיגמת המודולציה של השיח התמקדה בחקר של המבני-היסוד של השיח, פוקוס (האזור בתיבת דו שיח שמקבל קלט), מערכות הפנייה אוטומטיות. כמו כן נבנתה מסגרת עבודה להבנת פעולות דיבור.

1983-1993: אמפיריות וחזרתם של מודלי מצב-סופי.

שני תחומי מחקר קמו מתרדמת בתקופה זו:

1)מודלי מצב-סופי שקיבלו תשומת לב אחרי עבודה בתחום בפונולוגיה, מורפולוגיה ודקדוק.

2)"שובה של האמפיריות": עלייתם של מודלים הסתברותיים שהתפשטו מדיבור לתיוג חלקי-דיבר, ניתוח של רב-משמעות וסמנטיקה.

1994-1999: איחוד תחומי המחקר

התחום עבר שינויים משמעותיים:

1)מודלים הסתברותיים ומונעי-מידע (data-driven) נהפכו לסטנדרט בכל הקשור לעיבוד שפה טבעית (תיודג חלקי-דיבר, עיבוד דיאלוג, פיתרון להתייחסויותreference) resolution)

2)העלייה במהירות ובזיכרון של מחשבים איפשרה ניצול מסחרי, בעיקר לזיהוי קולי ובדיקות איות ודקדוק.

3)עליית האינטרנט הדגישה את הצורך במערכות לאחזור ושליפת מידע.

2000-2008: עליית המכונה הלומדת.

המחקר האמפרי צבר תאוצה ונדחף על ידי שלושה תחומים משיקים:

1)כמות עצומה של חומר כתוב ומדובר ששילב טקסט סטנדרטי עם צורות שונות של ציינים: פרגמטיים, סמנטיים ותחביריים, נהיה זמין. קיומם של מקורות אלו קידמו את הנטייה להעביר בעיות מסורתיות של ניתוח ואנליזה סמנטית כבעיות של לימוד מכונות מבוקר (supervised machine learning).

2) התחום של לימוד מכונות ע"י סטטיסטיקה נהיה רציני מאד כשהוא עובד עם טכניקות כמו אנטרופיה מקסימלית.

3)התפוצה הרחבה של מחשבים רבי עוצמה הובילה להפעלת מערכות שלא יכלו לחלום עליהם עשור קודם לכן.

4) בסוף תקופה זו גישות סטטיסטיות חסרות-בקרה קיבלו תשומת לב. התקדמות בגישות סטטיסטיות ללימוד מכונות לצורך תרגום ממוכן ומודלציה של טופיק הדגימו שמידע לא מסומן יכול להיות אפקטיבי. בנוסף הקושי והעלות הגדולה להפיק קורפוס מסומן נהיה גורם מגביל בשימוש בגישות מבוקרות.

על תגליות מקבילות:

בהיסטוריה הקצרה שהוזכרה היו מספר מקרים של תגליות עצמאיות מקבילות של אותו הרעיון: האפליקציה לתיכנות דינמי של רצף השוואתי, מודל הערוץ הרועש, הפיתוח של תחביר נטול הקשר, ההוכחה שלגרמנית שוויצית יש תחביר תלוי הקשר; האפליקציה לאיחוד העיבודים של שפה.

ההיפותזה הרווחת טוענת שאלו לא יוצאים מהכלל אלא הכלל עצמו, כמו שהטלפון הומצא ע"י בל וגריי, חשבון דיפרנציאלי ע"י לייבניץ וניוטון ותורת הברירה הטבעית ע"י דרוויון ו-ואלאס.

הערה קצרה על פסיכולוגיה:

הבנת עיבוד השפה האנושית היא תחום מדעי חשוב הכלול במדעים הקוגניטיביים, הבנת עיבוד זה יכול לעזור לבנות מודלים מכניים טובים יותר של שפה, זאת בניגוד לדעה הרווחת שחיקוי ישיר מהאלגוריתמים של הטבע איננו עובד (מטוס איננו מנפנף בכנפיו). חיקוי מן הטבע הוא שימושי במיוחד בבעיות שממורכזות בבני אדם: המטרה של מערכות עיבוד לשוניות היא בדיוק לבצע את אותן פעולות שעושים בני האדם (בניגוד למטרות השונות של מטוס וציפור). אנחנו יכולים ללמוד הרבה מהפתרון שהטבע הציע לנו, בנוסף בגלל שמטרה חשובה היא לבסס תקשורת אדם-מחשב, זה הגיוני לחקות את ההתנהגות אליה אנו רגילים.

לשון, חברה, תרבות – סיכום

סיכומים אקדמיים

ללמוד טוב יותר:

לקבל השראה:

להפעיל את הראש:

להשתפר: