![]() | ![]() |
|


"בעתיד צפוי השוק להמשיך לצמוח". ד"ר דיוויד נחמו | צלם: יח"צ
שמבטיחים לנו שטכנולוגיות זיהוי קולי ישנו את חיינו. עד היום זה לא ממש קרה. ד"ר דיוויד נחמו, אסטרטג טכנולוגיות קול ביבמ, מעריך כי רק בעוד 15 שנה מערכות זיהוי קולי יחליפו את העכבר והמקלדת.
נחמו, שהגיע לישראל כדי להרצות בכנס AVIOS לטכנולוגיות זיהוי קולי שנערך בכפר המכביה, אומר כי טכנולוגיות זיהוי קולי נתפשות בעיני רבים כדור העתיד של ממשקי ההפעלה. לדבריו, אם כיום אנחנו משתמשים במקשים, כפתורים ועכבר כדי לתקשר עם מחשבים או מכשירים אלקטרוניים אחרים, בעתיד פשוט נדבר אל המחשב או אל המכשיר.
עם זאת, נחמו אינו סבור שהעתיד שהוא מתאר נמצא מעבר לפינה. לדבריו, עד שיגיע היום שבו גם המחשב יענה לנו בדיבור, צריכים לקרות עוד דברים רבים - גם מבחינה טכנולוגית ומבחינה עסקית גם יחד.
נחמו, יהודי ממוצא איראני, למד הנדסת חשמל בטהרן בשנות ה-70. את הדוקטורט שלו עשה באנגליה, ואז עבר לארה"ב. ב-82' החל לעבוד כעוזר מחקר ביבמ, ומאז מילא שורה ארוכה של תפקידי מחקר וניהול בתחום הקול.
השנה זכה נחמו במעמד IBM Fellow - התואר הטכנולוגי הבכיר ביותר המוענק על ידי יבמ, אותו מקבלים קומץ נבחר של חוקרים מובילים. התואר לא ניתן לנחמו ללא סיבה: הוא כבר הספיק לרשום 25 פטנטים בתחום פעילותו.
זיהוי קולי במחשב הנייד
כיום טכנולוגיות זיהוי קולי נפוצות רק בשני תחומים - טלפונים סלולריים ומרכזי שירות לקוחות. לדברי נחמו, הטכנולוגיה הצליחה לחדור דווקא לתחום המכשירים הסלולריים מכיוון שהפעלת טלפון ללא מגע יכולה להציל חיים. הסיבה לחדירת טכנולוגיות לזיהוי הקולי למרכזי שירות הלקוחות, לדבריו, היא הרצון לייעל את המערכת.
נחמו מסביר כי השאלה היא לא האם קיימת טכנולוגיה מתאימה להפעלה קולית, אלא מתי תהיה הטכנולוגיה זמינה לקהל הרחב וכיצד.
"האם זיהוי קולי יהיה זמין במערכת ההפעלה או כשירות המסופק באינטרנט - זו השאלה". ,אומר נחמו. "כמובן שההתפתחות של זיהוי קולי תלויה בטכנולוגיות משלימות של מערכות ההפעלה, כמו וירטואליזציה וטכנולוגיות אינטרנט".
לדברי נחמו, עדיין לא הוכח שניתן להשתמש בטכנולוגיות של זיהוי קולי ובדיבור כאמצעי קלט-פלט במחשבים ניידים ונייחים, אך זהו הכיוון שבו צועדת התעשייה. "מה שמעניין זה שאנחנו נהפכים לניידים", אומר נחמו. "מי היה מדמיין לעצמו לפני עשר שנים שמחשבים ניידים יהיו זמינים וזולים? בעוד כמה שנים המכשירים הקטנים והניידים ייהפכו לחזקים מבחינת יכולת העיבוד שלהם, ולא יהיה אפשר להימנע משימוש בממשק משתמש הכולל זיהוי קול".
לדברי נחמו, עוד לפני שהעתיד הזה יגיע, פתרונות של זיהוי קולי יכולים לסייע כבר עכשיו במרכזי שירות לקוחות.
"פתרונות שירות עצמי מבוססי דיבור צריכים לגשר על הפער בין המודל המנטלי לפיו פועל הלקוח ובין היישום העסקי שאליו הוא ניגש", אומר נחמו. "עסקים צריכים לצמצם ככל האפשר את המאמץ הנדרש מהלקוח ואת הזמן הנדרש לו עד להשלמת תהליך השירות. פתרונות אלה החלו דרכם ברמת אספקת המידע, עברו לרמת ניהול תנועות עסקיות, ועתה הם מגיעים גם לרמת פתרון בעיות מן היסוד. אני מעריך כי בעתיד יהיו מערכות שיידעו לזהות ולהבין שאלות המופנות לנציגי מכירות, וישלפו בהתאם ממאגר תשובות קודמות את המידע הדרוש לטיפול בבעיות".
בודקים את תקינות המבטא
בכנס AVIOS הציג נחמו מערכות אוטומטיות שפותחו ביבמ, ומאפשרות ניתוח תוכן לשיחות המתנהלות במרכזי שירות שמאפשר ניטור אוטומטי של איכות השירות.
המערכת של יבמ עוקבת אחר כל שיחה נכנסת על בסיס פרמטרים מוגדרים מראש, מעתיקה את השיחה לבסיס נתונים, מתרגמת את הדיבור לטקסט כתוב ומנתחת אותו. כך, למשל, המערכת יודעת לזהות אם נציג השירות מסר את הפרטים שהוא נדרש לספק ללקוח (כמו מספר כרטיס), הזדהה כראוי או נפרד מהלקוח בנוסח שנקבע על ידי החברה. כמו כן, המערכת מעבירה את השיחות החשודות כבלתי תקינות להאזנה נוספת - הפעם על ידי אוזן אנושית - המאפשרת לזהות חריגות מנוהלי השירות באופן מהיר ויעיל יותר: מפקחי השירות נדרשים להאזין לשיחות החשודות כבעייתיות בלבד, ולא לכלל השיחות.
לדברי נחמו, אתגר אחר עמו מתמודדת המערכת - שנבנתה במעבדת המחקר של יבמ בהודו - הוא זיהוי אוטומטי של איכות האנגלית של נציגים במרכז שירות. פעולה זו נועדה להבטיח את תקינות המבטא, הדקדוק ואיכות שירות הנשענת עליהם.
"המערכת מציגה תוצאות עקביות לחלוטין, ברמת דיוק של יותר מ-85%, ומשאירה רק 15% מהעבודה למעריכים אנושיים", אומר נחמו. "החיסכון בעלויות למרכזי שירות הלקוחות הוא גדול, וכך גם החזר ההשקעה, כי ניתוח דיבור מספק בסיס לאיזון בין שלושת היעדים העיקריים של מרכזי שירות לקוחות: שביעות רצון הלקוח מאיכות הפתרון המתקבל בפנייה הראשונה, התמודדות עם כמויות גדולות של שיחות, וייצור מכירות באמצעות המערכת הממוחשבת. אני מעריך שזיהוי קולי יחדור יותר ויותר למרכזי שירות לקוחות. הבעיה היא שכיום זיהוי דיבור אינו הכרח עבור החברות, אך כשהתחרות תגבר, המצב הזה ישתנה".
נחמו מספר כי לפני חמש שנים הוערך שוק הזיהוי הקולי ב-200 מיליון דולר, ואילו כיום הוא מוערך ב-2 מיליארד דולר.
"בעתיד צפוי השוק להמשיך לצמוח", אומר נחמו. "יש כאן אבולוציה של טכנולוגיה הצומחת לקראת אימוץ מאסיווי. בעבר רק חברות טכנולוגיה היו לקוחות בתחום, כיום רוב החברות כבר מוכרות פתרונות שלמים, ולא רק טכנולוגיה. אנחנו ביבמ עובדים על דרכים לצמצם את עלויות השימוש בזיהוי קולי, כך שהלקוח לא יצטרך להשקיע הרבה בתשתיות מורכבות".
סנונית ראשונה ברשת
למרות שטכנולוגיות זיהוי קול הן יקרות ונדירות, יש כיום מספר שירותים מבוססי קול הפועלים ברשת, אמר נחמו. בין השירותים המוכרים נמצא שירות מידע של גוגל בשם Goog411, הפעיל בארה"ב ובקנדה. Goog411 הוא שירות טלפוני המאפשר למתקשרים לחפש מספרי טלפון וכתובות של עסקים בעזרת מנגנון זיהוי קולי. לדברי נחמו, שירות זה עשוי להיות נקודת כניסה לתחום הזיהוי הקולי ברשת.
סטארט-אפים ישראליים בתחום: פתרונות אבטחה וזיהוי משפטים שלמים
• לזהות מתחזים במצעות חתימות קול
חברת פרסיי (PerSay) מפתחת פתרון אבטחה בעזרת אימות קולי. החברה פיתחה מוצר המסוגל להתחבר לתוך בסיסי מידע של מערכות IT ארגוניות, ולבנות מאגר חתימות קול ללקוחות. המערכת פועלת ברקע, בזמן שהלקוח מדבר עם נציג שירות הלקוחות, ובודקת אם אכן מדובר באותו האדם. אם המערכת מגלה שמדובר במתחזה, היא מתריעה על כך בפני נציג שירות הלקוחות.
"פרסיי מאפשרת לבצע בדיקת חתימת קול אקוסטית, בדומה לרעיון שמאחורי בדיקת טביעת אצבע", מסביר מנכ"ל פרסיי, אלמוג אלי-רז. "היתרון של שימוש בחתימה קולית אקוסטית הוא הידידותיות למשתמש, שכן אין צורך במכשור מיוחד כמו קורא טביעות אצבע או שמות משתמש וסיסמאות".
לדברי אלי-רז, החברה מסוגלת להגיע לרמת דיוק של יותר מ-99% בזיהוי הדובר. כמו כן, הטכנולוגיה אינה מוגבלת לשפה מסוימת או למבטא, אלא פועלת על מנגנון אקוסטי.
פרסיי נוסדה בתחילת 2000 על ידי עובדים שפרשו מחברת ורינט. החברה מעסיקה כיום כ-20 עובדים. לפי חברת המחקר IVC-Online, פרסיי כבר גייסה כ-9.75 מיליון דולר, כשאת הגיוס האחרון הובילה הקרן הישראלית G-SF.
• מענה ממוחשב לשאלות קוליות
חברת Advanced Speech Recognition Technology (ר"ת ASRT) לא מסתפקת בזיהוי מלים בודדות, אלא מתמקדת בזיהוי משפטים שלמים.
לדברי מנכ"ל ASRT, צבי חווה, הטכנולוגיה שהחברה מפתחת מציעה פתרון דומה לשירות של אגד - המאפשר לשלוח שאלה בהודעת טקסט ולקבל תשובה באותו אופן - אלא שהשירות של ASRT פועל באמצעות זיהוי קולי. במקום לכתוב בהודעת טקסט "איזה קו מגיע מתל אביב לראש העין?", יהיה ניתן פשוט לומר זאת, והמערכת תדע לענות על השאלה. ASRT פועלת במסגרת חממת קריית ארבע ומעסיקה רק ארבעה עובדים. חווה מוסיף כי בימים אלה נרקמת עסקה בין ASRT לחברת תעופה, אך אינו מוכן לחשוף באיזו חברה מדובר.
• הטלפון מתרגם את המשפט להודעת טקסט
חברת SpeechModules מפתחת טכנולוגיה המסוגלת לתרגם דיבור לטקסט. לדברי המנכ"ל, עובד ספניה, החברה מציעה מוצר המהווה שילוב של תוכנה וחומרה. "מכיוון שתהליך העיבוד מורכב מכדי שיהיה ניתן להטמיע אותו על מכשירים סלולריים, שירות שליחת הודעות הטקסט ניתן דרך האינטרנט", אומר צפניה.
המערכת של החברה מאפשרת למשתמש המחייג לשירות לתקשר עם מערכת ממשק משתמש קולי, שמתפקדת כמו מרכזייה. עוד אמר ספניה כי נכון לעכשיו השירות פועל ברמת דיוק של יותר מ-90%.
מלבד שירותי רשת וטלפונים סלולריים, קיימות תוכנות למחשבים אישיים המאפשרות ממש להכתיב למעבד התמלילים טקסט. אחת התוכנות האלה היא 9 Dragon NaturallySpeaking של חברת ניואנס (Nuance) האמריקאית.
בשונה משירותים וכלים אחרים כמו זיהוי הטקסט של חברת SpeechModules הישראלית (ראו מסגרת), Dragon של ניואנס היא תוכנה לומדת.
כדי שהתוכנה תצליח לזהות קול אנושי ולהתגבר על מכשולים כמו מבטא או שוני באקוסטיקה בין משתמשים, היא מתקנת את עצמה כמה פעמים.
התוכנה של ניואנס מבטיחה 99% הצלחה בזיהוי קולי עבור קצב דיבור של 160 מלים בדקה. עלות התוכנה היא 99 דולר לגרסה הסטנדרטית, המאפשרת הכתבה וגלישה ברשת באמצעות קול. התוכנה המתקדמת, שעולה 199 דולר, מאפשרת לשלוט לגמרי על המחשב, וליצור פקודות קוליות מיוחדות.
לפרטים נוספים ולרכישה לחצו כאן.
"השוק בישראל קטן, אבל יש לו לאן להתפתח"
לדברי ניסים פינטו, מנהל תחום מכירות ערך מוסף בנס טכנולוגיות, תחום הזיהוי הקולי מתחלק לשלוש תת-קבוצות: זיהוי דיבור, זיהוי הדובר וזיהוי רגשות הדובר, עמו לחץ וחרדה.
"שוק הזיהוי הקולי בישראל קטן, רבל יש לו עוד לאן להתפתח", אומר פינטו.
נס טכנולוגיות מספקת לחברות פתרונות מחשוב על ידי שימוש בטכנולוגיות של כמה ספקים. בין ספקי הטכנולוגיה של החברה ניתן למצוא גם חברות הפועלות בתחום הזיהוי הקולי, כמו ניואנס ופרסיי (ראו מסגרות).
לדברי פינטו, נס ביצעה פרויקטים של זיהוי קולי בעיקר עבור גופים פיננסיים וחברות טלקום, אך החברה מבצעת גם פרויקטים של זיהוי דובר וזיהוי רגשות משתמש עבור גופים ביטחוניים.
"למרות כמות הפרויקטים שביצענו, יש עוד מקום רב אליו טכנולוגיות של זיהוי קולי יכולות לחדור בשוק הישראלי", אומר פינטו. "בשנה שעברה הוערך השוק לטכנולוגיות אלה בישראל בכמיליון שקל בשנה, והוא ממשיך לצמוח בקצב מהיר מאוד".
עוד בנושא - לאן נעלמה הבינה המלאכותית?
רוצים לקבל עידכונים מ-TheMarker IT ישירות למייל? לחצו כאן להרשמה לניוזלטר שלנו
בכל שבוע TheMarker IT מגיש לכם את מדור מנה עסקIT הסוקר את העסקות, ההטמעות, החוזים, וההשקות שעשו את היום
עשרת הגדולים
| שימושים: דף הבית | RSS | אודות האתר | פרסום באתר | תקנון האתר | ||
| TheMarker: העמוד הראשון | הייטק | שוק ההון | וול סטריט | בעולם | קריירה | פרסום ומדיה | צרכנות | נדל"ן | משפט | רכב | המדריך למשקיע | ||
| Cafe: ראשי | העמוד שלי | אנשים | קהילות | בלוגים | תמונות | וידאו | קהילת תמיכה | ||
| עכבר העיר: עכבר העיר | סרטים | קולנוע | מסעדות | מתכונים | הופעות | פעילויות ילדים | הצגות | לילה | מסיבות | עכבר העיר: סרטים, לילה, מסעדות | ||
| לוח העיר: דרושים | דרושים הייטק | נדל"ן | פרוייקטים חדשים | רכב | בעלי מקצוע | קח תן | ||
האתר פותח ע"י![]() |