03:35
08.11.09

דברו, המחשב מקשיב

"אתה מקשיב לי, או מה?". לדבר עם המחשב | צלם: יח"צ

הגרסה החדשה של תוכנת הזיהוי הקולי מבית ניואנס מאפשרת להכתיב למחשב טקסטים, לומר לו את הפקודות בתפריט, ואפילו לגלוש באמצעות פקודות קוליות. כתב ה"ניו יורק טיימס" יצא להתנסות ראשונית וחזר עם כמה מסקנות

12.08.08 | 17:04  ניו יורק טיימס

מאת דיוויד פוג

"כמבחן מהיר הקראתי לתוכנת וורד את 1,000 המלים הראשונות של הספר "פריקונומיקס". באופן מרשים למדי, התוכנה הסתדרה ללא קושי עם ביטויים כמו "קו קלוקס קלאן" ו"המלחמות הפוניות""

מכל פנטזיות ההיי-טק שמסקרנות את הקהל האסקפיסטי של סרטי מדע בדיוני, האפשרות לפקוד בקול על המחשב הפרטי היא מהמושכות ביותר. מאז ימי "מסע בין כוכבים" חלמנו על האפשרות לומר, "מחשב, הצג את כל מקורות גבישי הדיליתיום בערפילית קראקסון!" כעת, בעזרת מיקרופון ותוכנת Dragon NaturallySpeaking, החלום קרוב יותר למימוש. התוכנה מומלצת עבור מי שלא יכול, או לא אוהב, להקליד. בנוסף, היא גם מאפשרת לומר בקול את הפקודות בתפריט ו"להקליק" על לינקים בדפי אינטרנט.

זה עדיין לא דומה לאפשרות לומר למחשב מה לעשות בשפת דיבור, אך גרסה 10 של התוכנה, המכונה בקיצור "נאטספיק", שיצאה השבוע לחנויות, עושה כמה צעדים בכיוון הנכון.

משימתה העיקרית של נאטספיק היא להזין למחשב כל דבר שתאמרו לכל תוכנת חלונות. בגרסתה העשירית, חברת ניואנס טוענת שהצליחה להגיע לדיוק משופר בכ-20%. התקנתי את התוכנה, חבשתי את אוזניות המיקרופון המצורפות, והקלקתי על "דלג על הדרכה ראשונית". בימים הראשונים של תוכנות המזהות דיבור, נאלצתי להקריא תסריט לדוגמה במשך 45 דקות כדי ללמד את התוכנה לזהות את קולי. כיום, התוכנה כה טובה עד שניתן לדלג על השלב הזה.

כמבחן מהיר הקראתי לתוכנת וורד את 1,000 המלים הראשונות של הספר "פריקונומיקס". באופן מרשים למדי, התוכנה הסתדרה ללא קושי עם ביטויים כמו "קו קלוקס קלאן" ו"המלחמות הפוניות". לעומת זאת היא פיספסה שבע מלים קלות יותר, שאותן הפכה למלים שצלילן דומה ("ירוקות" ל"ירקות" וכדומה). רמת הדיוק ללא כל אימון מקדים: .99.3%. לא רע.
אחר כך הקראתי תסריט אימון באורך חמש דקות המומלץ כדי להגיע מראש לדיוק מירבי, והקראתי שוב את אותן 1,000 מלה מתוך "פריקונומיקס". הפעם התוכנה פיספסה רק חמש מלים. רמת הדיוק: 99.5%. בשני המקרים, אף לא שגיאת כתיב אחת. בזמן ההכתבה ניתן לתקן שגיאות בנוחות באמצעות דיבור המאפשר לתוכנה ללמוד. גם אם מדלגים על אימון התחלתי, מידת הדיוק של התוכנה משתפרת.

יתרון נוסף של גרסה 10 הוא מהירותה. התוכנה עדיין מחכה להפסקה בדיבור לפני הקלדת המלים כדי לקבל את מלוא ההקשר ולבחור במלה הנכונה. זמן ההמתנה התקצר בחצי לעומת גרסאות קודמות, והטקסט מופיע כמעט מיידית בכל הפסקה.

יתרון נוסף, וזה כבר ממש מתחיל להזכיר את "מסע בין כוכבים", הוא שהתוכנה מבינה יותר ויותר פקודות בשפה יומיומית. בעבר, למשל, כדי להטות אותיות של טקסט שכבר הוקלד, למשל את המונח "מחירי הדלק", היו דרושות שלוש פקודות נפרדות. ראשית, "בחר את 'מחירי הדלק'". שנית, "הטה ביטוי". לבסוף, כדי לחזור לנקודה שבה עצרת, "לך לסוף המסמך". בגרסה 10 דרושה רק פקודה אחת: "הטה את 'מחירי הדלק'". התוכנה עושה את השינוי וחוזרת אוטומטית לנקודה שבה עצרת, בשנייה. כך גם בעבודה עם ציוויים כמו "הדגש", "גזור" ו"הדבק".

בהוספת פקודות חיפוש ניתן לומר למחשב, למשל, "חפש במפות אחר מסעדה סינית ליד הובוקן", או "חפש בוויקיפדיה את 'מפרץ החזירים'". זה פועל באופן מושלם וחוסך זמן והקלדה.

יתרון על ויסטה

כמה שאלות ותשובות בנוגע לתוכנה:

האם התוכנה עובדת על מקינטוש? כן, אבל רק כאשר הוא מריץ את תוכנת חלונות וכאשר משתמשים במתאם USB עבור האוזניות והמיקרופון. ייתכן שלבעלי מאק כדאי לרכוש את תוכנת מאקספיץ' דיקטייט, המיועדת למקינטוש ומשתמשת באותה טכנולוגיית זיהוי של דראגון. הגרסה הנוכחית מהירה ומדויקת, אך היא חלשה יותר ויש לה פחות פונקציות לעומת נאטספיק. היא לא מאפשרת לתקן טעויות באמצעות פקודה קולית, ולכן הדיוק לא משתפר. גרסת 1.2, הכוללת תיקון קולי ואיות קולי, נבדקת כעת.

האם ניתן לתעתק ראיונות באמצעות התוכנה? לא. התוכנה מזהה קול של אדם אחד בלבד, ועל הצליל להיות נקי.

האם ניתן להשתמש באוזניית Bluetooth? כן. למעשה, גרסה 10 מציעה מגוון רחב של אוזניות שניתנות לשימוש. עם זאת, הדיוק עשוי להיפגע.

האם ניתן להכתיב לרשמקול ולתעתק את הטקסט אחר כך? כן, אך רק חלק מהרשמקולים מתאימים לכך ויש צורך בהקלטת טקסט אימונים.

אבל ויסטה כוללת בתוכה זיהוי קולי, לא? כן, והוא אפילו ממש טוב - וגם מאוד דומה לזה של נאטספיק. אך לדברי ניואנס, לוויסטה כמעט שלא היתה השפעה על המכירות של נאטספיק. להערכתי, הסיבה לכך היא שרוב האנשים כלל לא מודעים לכך שוויסטה מציעה פונקציה כזו. כמו כן, ויסטה לא מציעה אותה רמת דיוק או פונקציות שנאטספיק מציעה, והיא גם אינה זמינה בשפות אחרות מלבד אנגלית.

לנאטספיק כמה גרסאות בשוק. המהדורה הרגילה (100 דולר) זהה ברמת הדיוק לגרסאות האחרות, אך מאפשרת הכתבה בלבד. הפונקציות המתקדמות יותר - פקודות בשפת יומיום, מיקרופון Bluetooth ורשמקולים - קיימות במהדורה המועדפת (200 דולר).

פרט לוויסטה, אין לנאטספיק תחרות משמעותית. ייתכן שזו הסיבה לכך שניואנס עורכת שינויים קטנים ובטוחים מגרסה לגרסה. ללא יריבות, אין לה צורך להוסיף רעש וצלצולים שעשויים לפגום בפונקציות הטובות של התוכנה. כך שמי שיש לו נאטספיק יכול להרשות לעצמו לדלג על דור. גרסה 10 מתקדמת משמעותית לעומת גרסה 8, אך בעלי גרסה 9 יכולים לחכות עם השדרוג.


מחשב, דבר עברית / מאת פז וייסמן

נס טכנולוגיות משמשת כאיטיגרטור הישראלי של Nuance, אשר לה קיימת גם נציגות בארץ. מספר חברות סטארט-אפ מקומיות עוסקות בטכנולוגיות זיהוי קולי - החל מטכנולוגיית זיהוי דובר (חברת PerSay), ועד לחברות העוסקות בזיהוי משפטים על בסיס שפה ואסוציאציה, כמו SpeechModules.

למרות אלה, אין עדיין תמיכה לעברית בתוכנות זיהוי דיבור כמו Dragon; אך יש דרכים "ללמד" את המחשב עברית. לדוגמה, להזין מלים עבריות שכתובות באנגלית, למשל "Shalom".

זוהר דביר, מרצה במכללת אפקה, פיתח תוכנה בשם Dialog, שפועלת על גבי מנוע זיהוי הדיבור של מיקרוסופט. הבעיה המרכזית בשיטה זו היא השוני המהותי בין הטיית המלים בעברית לזו בשפות לטיניות, במיוחד אנגלית. לכן, ייקח זמן עד שניתן יהיה להשתמש בעברית במנוע זיהוי דיבור המותאם לאנגלית.

"יתרון נוסף, וזה כבר ממש מתחיל להזכיר את "מסע בין כוכבים", הוא שהתוכנה מבינה יותר ויותר פקודות בשפה יומיומית"

עוד בנושא - "מערכות זיהוי קולי יחליפו את העכבר והמקלדת רק בעוד 15 שנה" | את מוכרת לי מפעם | לאן נעלמה הבינה המלאכותית?

לקבלת עידכונים מ-TheMarker IT, הרשמו לניוזלטר שלנו 

חזרה לדף הבית

עשרת הגדולים

שימושים:  דף הבית  |   RSS  |   אודות האתר  |   פרסום באתר  |   תקנון האתר
TheMarker:  העמוד הראשון  |   הייטק  |   שוק ההון  |   וול סטריט  |   בעולם  |   קריירה  |   פרסום ומדיה  |   צרכנות  |   נדל"ן  |   משפט  |   רכב  |   המדריך למשקיע  
Cafe:  ראשי  |   העמוד שלי  |   אנשים  |   קהילות  |   בלוגים  |   תמונות  |   וידאו  |   קהילת תמיכה  
עכבר העיר:  עכבר העיר  |   סרטים  |   קולנוע  |   מסעדות  |   מתכונים  |   הופעות  |   פעילויות ילדים  |   הצגות  |   לילה  |   מסיבות  |   עכבר העיר: סרטים, לילה, מסעדות  
לוח העיר:  דרושים  |   דרושים הייטק  |   נדל"ן  |   פרוייקטים חדשים  |   רכב  |   בעלי מקצוע  |   קח תן  
האתר פותח ע"יCoral.co.il