Sunday, August 25, 2013

यांत्रिक भाषांतराची (अ)शक्यता!

An article in Loksatta that acknowledges my contribution to the cause of ensuring that Google Translate has a Marathi option. But the author shows how Google has miles to walk before it perfects this service!


अरुण फडके
Published: Sunday, August 25, 2013
गुगलने इंग्रजीतून मराठीत भाषांतर करण्याची सुविधा अलीकडेच उपलब्ध करून दिली. मात्र यांत्रिक भाषांतरातून अनेक गमतीदार भाषांतरे होत असल्याचे अनेकांनी अनुभवले. संगणकीय भाषांतर प्रणालीचा विचार करताना संगणकाच्या मर्यादा लक्षात घ्याव्याच लागतील. या मर्यादा लक्षात घेऊनही संगणकीय भाषांतरासाठी काय करता येईल, याचा एका भाषातज्ज्ञाने केलेला ऊहापोह..


लोकसत्तामध्ये २० जुलै २०११ रोजी भरत गोठोस्कर यांनी लिहिलेलागुगलला मराठी भाषेचे वावडे का?’ हा लेख वाचला होता आणि त्यानुसार लगेचच petitiononline.com/gmarathi येथे स्वाक्षरी करून माझी नाराजी गुगलला कळवली होती. त्यानंतर, रविवार १३ मे २०१३ रोजीलोकसत्तामध्येगुगलच्या भाषांतर सुविधेमुळे मराठी झालीविश्वात्मके’!’ ही बातमी वाचली. गोठोस्करांचा लेख आणि अनेक मराठी जनांनी नोंदवलेली नाराजी यांचा परिणाम होऊन सारे २२ महिन्यांच्या कालावधीनंतर गुगलने मराठीसाठी काहीतरी केले असा आनंद ही बातमी वाचून झाला. गुगलच्या या सेवेची प्रचीती लगेचच घेतली. परंतु काय होते आहे हे प्रत्यक्ष पाहिल्यानंतर मात्र खूपच वाईट वाटले आणि त्याच्या उपायावर विचारही झाला.

सध्या या सेवेत एखाद्या मोठय़ा इंग्रजी परिच्छेदाचे तितके योग्य मराठी भाषांतर होत नसले, तरीही इंग्रजीतील How are you? चे तुम्ही कसे आहात?, I want to go चे मी जाऊ इच्छित. (इच्छितो/इच्छिते असे होत नाही.)’ ही बातमीत दिलेली सूचना मी वाचली होती. त्यामुळे मीही फार मोठय़ा अपेक्षेने चाचणी घ्यायला बसलो नाही. परंतु अगदी साध्यासाध्या वाक्यांच्या बाबतीतही काय घडते, ते कसेकसे घडत जाते आणि त्यातून काय निरीक्षणास येते हे आधी पाहू आणि मग त्यावरील उपायाचा विचार करू. मी गुगलला दिलेली इंग्लिश वाक्ये आणि त्यांचे मिळालेले मराठी भाषांतर असे - r) Dogs bark. कुत्रे झाडाची साल. (संगणकाकडे bark‘चा अर्थ फक्त नाम म्हणून आहे, क्रियापद म्हणून नाही.) r) Dogs bark. माझे वडील मला लक्ष दिले. (bark चाअर्थ फक्त क्रियापद म्हणून आहे, नाम म्हणून नाही.) ) You sit. आपण बसणे. (You चे भाषांतर फक्तआपणएवढेच होऊ शकते. बसणे या क्रियापदाची रूपे तो करू शकत नाही.) ) You sit न्यायाधीश न्यायालयात sits. (sit च्या वर्तमानकाळी तृतीय पुरुषी एकवचनी रूपाचा अर्थ त्याला कळत नाही. त्यामुळे भाषांतरात इंग्लिश शब्द तसाच येतो.) ) Cow has horns. गाय horns आहे. (horn चा अर्थ त्याच्याकडे नाही.) )  Gandhiji was a leader.  गांधीजी राष्ट्रीय नेते होते. (गांधीजी राष्ट्रीय नेते होते हे खरे आहे, परंतु भाषांतराचा विचार करता जोपर्यंत national leader असा उल्लेख येत नाही, तोपर्यंत राष्ट्रीय नेते असे भाषांतर होणे योग्य नाही. गांधीजी नेते होते. हे भाषांतर योग्य ठरले असते. leader म्हणजे राष्ट्रीय नेता असाच अर्थ त्याच्याकडे असावा.) ) I have been busy with extra work. मी जादा काम व्यस्त आहेत. (busy म्हणजे मराठीत व्यग्र असे हवे. मी या एकवचनी कर्त्यांसाठी आहेत हे रूप कसे चालेल?)

आता  swim  क्रियापदाचे काय होते ते पाहू. )Fish swims easily. मासे सहज swims.  )Fishes swim easily. मासे सहज पोहणे. )Fish swam easily. मासे सहज स्विम चे भू.का. रूप. १०) Fish have swum easily. मासे सहज स्विम चे भू.का. रूप. (संगणकाच्या शब्दार्थकोशात swam= पोहला/ली/ले आणि swam = पोहलेला/ली/ले; असे अर्थ नसून swam भू.का. रूप असा अर्थ दोन्हीकडे आहे. त्यामुळे भाषांतरातही तसेच आले. यांत्रिक भाषांतरासाठी यांत्रिक शब्दार्थकोशही वेगळ्या स्वरूपाचा असणे अत्यंत आवश्यक आहे.)

आता काही संवाद पाहू - ११) ‘I am pleased to meet you.’ ‘The pleasure is mine.’ ‘मी पूर्ण करण्यासाठी संतुष्ट आहे.’ ‘सुख खाण आहे.’ (पहिल्या वाक्याचा अर्थ आशयापासून फारच दूर गेला.   mine  म्हणजेखाणएवढाच अर्थ त्याच्याकडे आहे.) यातील खरी गंमत पुढे आहे. पहिल्या वाक्यातील अवतरणे काढून हे वाक्य नुसते I am pleased to meet you. असे दिले, तर त्याचा अर्थ - मी भेटणे खूश आहे, असा येतो. केवळ अवतरण घालणे आणि काढणे याचा अर्थाशी काय संबंध हे कळत नाही.

आता दुसरा संवाद पाहू - १२)  ‘I thought, you were in Europe.’  ‘ I was, but I got back yesterday.’ ‘मी विचार, आपण युरोपमध्ये होते.’ ‘मी होते, पण मी काल परत आला.’ (एखाद्या नवशिक्या अमराठी माणसाने मराठी बोलावे, तसे हे भाषांतर झाले. ‘मध्येजोडून आले पाहिजे हे त्याला कळत नाही.)

आता एक वेगळा प्रकार पाहू. आपण डावीकडील भागात इंग्लिश घातल्यावर उजवीकडील भागात त्याचे मराठी भाषांतर आपल्याला मिळते, अशी व्यवस्था Google Translate वर केली आहे. उजव्या भागात ज्याप्रमाणे एकेक शब्द पुढे जातो, त्याप्रमाणे डाव्या भागात भाषांतर पुढे जाते आणि पुढे जाताना
ते बदलतही जाते.

आता आपण काही वाक्यांचे ‘टप्पे भाषांतर’ (progressive translation) कसे होते ते पाहू -१३) He stood with his back to the door. असे पूर्ण वाक्य आहे. याचे अंतिम भाषांतर ‘त्याने दरवाजा त्याच्या परत आलो.’ असे अनाकलनीय मराठीत मिळते. परंतु हे भाषांतर टप्प्याटप्प्याने कसे पुढे जाते आणि पुढे जाताना कसेकसे बदलत जाते, हेही पाहण्यासारखे आहे. एकेका टप्प्यानंतर अर्धविराम घातला आहे.  He stood उभा राहिला; with  त्याने सह उभा राहिला;  his back त्याने परत आलो; to त्याने परत सह उभा राहिला; the त्याला त्याच्या परत आलो; door. त्याने दरवाजा त्याच्या परत आलो. या वाक्याच्या सहा टप्प्यांवर भाषांतर पुढे जाताना कसेकसे बदलत गेले पाहा. फक्त पहिला टप्पा सोडला, तर पुढील एकाही टप्प्यावरील भाषांतर वाक्याच्या योग्य अर्थाच्या जवळपासही पोचणारे नाही. १४) I thought you were on the train to New York.  असे पूर्ण वाक्य आहे. याचे अंतिम भाषांतर ‘मी न्यू यॉर्क ट्रेनवर होते.’ असे उलटेच होते. आता याचे टप्पे भाषांतर पाहू - I thought मी विचार;  you wereमी वर होते; on  the train  मी गाडीवर होते; to New York. मी न्यू यॉर्क ट्रेनवर होते. (अंतिम वाक्यात I thought चा उल्लेख नाही. एकाही टप्प्यावर you  या सर्वनामाचे भाषांतर दिसत नाही. train ची गाडी होऊन तिची पुन्हा ट्रेन झाली. इथे on म्हणजे वर नसून मध्ये किंवा आत पाहिजे हे त्याला कळत नाही.) आणखी एक गंमत दिसते. या वाक्यात I thought यानंतर स्वल्पविराम घातला, तर पूर्ण वाक्याचे भाषांतर असे होते - मी न्यू यॉर्क ट्रेनवर होते, विचार.

आणखी वेगवेगळी वाक्ये देत गेलो, तर अशीच धमाल भाषांतरे मिळत राहतील. अशी मराठी आपल्याला ‘विश्वात्मके’ करायची आहे का? हे भाषांतर नसून ‘भाषा-अंतर’ आहे, दोन्ही भाषांची क्रूर चेष्टा आहे, त्या भाषांचा घोर अपमान आहे. ‘लोकसत्ता’, स्वत: गोठोस्कर आणि त्या संकेतस्थळावर आपली नाराजी नोंदवणारे आणि न नोंदवणारे मराठी जन यांच्यापकी कोणालाच गुगलकडून असे ‘घ्या एकदाचे’ भाषांतर अभिप्रेत नसावे.

गोठोस्करांच्या लेखाचा आणि त्या संकेतस्थळावर नोंदवल्या गेलेल्या नाराजीचा विचार करून गुगलने त्यावर लगेच कार्यवाही करण्याचा निर्णय घेतला ही गोष्ट कौतुकास्पद असली, तरी त्या स्तुत्य प्रयत्नांना योग ते रूप येण्याआधी किंवा देण्याआधी तो प्रयत्न इतक्या हास्यास्पद स्वरूपात मराठी माणसासमोर टाकणे नक्कीच योग्य नाही. इथेच आपल्याला विचार करायचा आहे की, यांत्रिक भाषांतर खरंच शक्य आहे का, आणि त्यासाठी काय करता येईल?

आता पहिला प्रश्न असा की, याविषयी काही विचार मांडण्याचा माझा अनुभव काय? फार तपशिलात न शिरता अगदी थोडक्यात सांगतो आणि मग उपायाकडे वळतो.

‘मराठी लेखन-कोश’ हे माझे काम पाहून २००१ साली एका ‘मंत्रवस्तू संस्थेने’ (software company ने) (अर्थातच, hardware  म्हणजे तंत्रवस्तू) त्यांच्या एका संगणकीय भाषिक प्रकल्पावर भाषा सल्लागार म्हणून दोन वर्षांसाठी माझी नेमणूक केली. संगणकाला भाषेची ‘जाण’ किंवा ‘समज’ (sense) कशी मिळते, ती मिळते म्हणजे काय होते, त्याचा वापर संगणक कसा करतो आणि मग त्याचा वापर आपण कसा करून घेऊ शकतो या मूलभूत गोष्टींचे मूलभूत ज्ञान मला या भाषिक प्रकल्पावर काम करताना मिळाले. मग त्या संस्थेच्या अनेक भाषिक अडचणी सोडवून मी तो प्रकल्प यशस्वीरीत्या पूर्ण केला. आता तोच प्रकल्प पुन्हा विस्तारित आणि सुधारित स्वरूपात करण्याकरिता त्याच संस्थेने पुन्हा दोन वर्षांसाठी माझीच नेमणूक केलेली असून या वेळी तो भाषिक प्रकल्प अंकीय (digital) पद्धतीने करण्याची योजना मी त्या संस्थेला दिली आणि आता काही महिन्यांतच तो यशस्वीरीत्या पूर्ण होईल. या अंकीय पद्धतीमुळे मराठी शब्दांधील काही वैशिष्टय़पूर्ण बाबी शोधून काढण्याचा प्रयत्नही पुढे यशस्वीरीत्या करता येईल. याव्यतिरिक्त, मधल्या १०-१२ वर्षांच्या काळात अशाच आणखी काही भाषिक प्रकल्पांवर माझी नेमणूक झाली आणि संगणकाला भाषेची जाण कशी होते याबद्दलची माझी जाणीव अधिक समृद्ध होत गेली. रोज जवळपास पूर्ण दिवस भाषेवरच काम करावे लागत असल्यामुळे ‘मराठी समानार्थी कोश’ (Marathi Thesaurus), ‘यमक शब्दावली’ (Rhyming Dictionary), ‘स्वयंचलित अकारविल्हे’ (Automatic Alphabetical Order), मराठी दृश्य अक्षरओळख (Marathi Optical Character Recognition - OCR), ‘मराठी संयोगचिन्ह कोश’ (Marathi Hyphenation Dictionary) या गोष्टी संगणकावर कशा बसवता येतील यावर बरेच चिंतन झाले. दरम्यानच्या काळात गुगलची भाषांतरची बातमी ‘लोकसत्ता’त आली आणि साहजिकच यांत्रिक भाषांतराच्या शक्यतेवर मीही बराच विचार केला. या विचारात मला जे वाटले ते असे :
कोणत्याही दोन भाषांचे आपापसात यांत्रिक भाषांतर कधीही होऊ शकणार नाही. अनेकजातीय शब्दाची योग्य जात निवडणे, एखाद्या शब्दाच्या अनेकार्थातील योग्य अर्थ निवडणे, सामान्यरूप होणे किंवा न होणे, वैशिष्टय़पूर्ण सामान्यरूप असणे, विभक्ती आणि शब्दयोगी जोडून किंवा अलग असणे, िलगव्यवस्था आणि वचनव्यवस्था यांमधील भिन्नता, क्रियापदांच्या रूपांचे वैविध्य, वाक्यरचनेची वैशिष्टय़े अशा अनेक व्याकरणिक बाबींच्या अडचणी तर आहेतच; पण यांशिवाय संस्कृती, परंपरा, रूढी, कालसंदर्भ, घटनासंदर्भ, आलंकारिक उपयोग, वाक्प्रचार यांनुसार प्रत्येक भाषेत शब्दांना प्राप्त होणारे विशिष्ट अर्थ संगणकाला कधीही समजू शकणार नाहीत. कारण त्याला स्वत:ची विचारशक्ती नाही आणि मुख्य म्हणजे त्याला भावना नाहीत. इंग्लिश-हिंदी, हिंदी-इंग्लिश, इंग्लिश-जर्मन, जर्मन-इंग्लिश या भाषांध्येही   Google Translate Dictionaryआपापसात अशीच हास्यास्पद भाषांतरे येण्याची कारणेही हीच आहेत. त्यामुळे, संगणकीय भाषांतर प्रणालीचा विचार करताना संगणकाच्या या मर्यादा लक्षात घ्याव्याच लागतील. या मर्यादा लक्षात घेऊन आपल्याला काय करता येईल?

आपल्याला एक आदर्श ‘भाषांतर साहाय्यक’ (Translation Assistant) तयार करता येईल. हा साहाय्यक असल्यामुळे, तो कोणत्याही वाक्याचे थेट भाषांतर करणार नाही, परंतु वर नमूद केलेल्या सर्व अडचणींवर मार्ग काढून हा साहाय्यक योग्य भाषांतर करण्यासाठी बहुमूल्य मदत करू शकेल. डावीकडच्या भागात इंग्लिश वाक्य घातल्यावर त्या वाक्याच्या योग्य भाषांतरासाठी लागणारे सर्व भाषासाहाय्य उजवीकडच्या भागात क्षणात उपलब्ध होईल. अशा भाषांतर साहाय्यकाची माझ्यापुरती छोटी चाचणी मी घेतली आहे आणि ती यशस्वीही झाली आहे. अशा साहाय्यकासाठी संगणकाकडे जो शब्दार्थकोश दिला जाईल तो अतिशय वेगळ्या पद्धतीने आणि अतिशय कल्पकतेने तयार करावा लागेल एवढे निश्चित. या साहाय्यकाचे स्वरूप कसे असेल वगरे तपशील इथे देता येणार नाही. परंतु त्यासाठी लागणारा कालावधी आणि मनुष्यबळ यांचा काही तपशील इथे देता येईल.  गोठोस्कर यांच्या लेखानंतर सुमारे २२ महिन्यांनी गुगलने ही भाषांतर प्रणाली दिली असे दिसते. या २२ महिन्यांधील १२ ते १८ महिने प्रत्यक्ष काम झाले असेल, असे गृहीत धरू. भाषांतर साहाय्यक करण्याकरिता किमान दोन भाषा-अभ्यासक आणि दोन आज्ञावलीलेखक (programmers) यांची आवश्यकता आहे. एवढेच बळ वापरले, तर हे काम व्हायला ५-६ वष्रे लागू शकतात. परंतु कालावधीच्या प्रमाणात मनुष्यबळ वाढवले, विशेषत: भाषा- अभ्यासकांचे बळ वाढवले, तर हे काम अडीच-तीन वर्षांत होऊ शकते. थोडक्यात, या दिशेने गुगलने सुरुवातीपासूनच प्रयत्न केले असते, तर आत्ताच्या या विचित्र भाषांतर प्रणालीऐवजी आणखी एक-दीड वर्षांनी आपल्याला एक आदर्श भाषांतर साहाय्यक मिळाला असता. इंग्लिश-मराठी भाषांतरासाठी तयार केला जाणारा हा भाषांतर साहाय्यक इतर सर्वच भाषांसाठी एक आदर्श प्रकल्प म्हणून काम करेल आणि गुगलसारखी जी संस्था असे यशस्वी भाषांतर साहाय्यक तयार करेल ती संस्था भविष्यात संगणकीय भाषांतर क्षेत्राची सम्राट ठरेल एवढे नक्की.


aphadake@yahoo.com

LinkWithin

Blog Widget by LinkWithin