मशीनी अनुवाद के द्वारा कॉर्पोरा आधारित हिंदी-अंग्रेजी अनुदित वाक्यों का

त्रुटि विश्लेषण

सुमेध खुशालराव हाडके

भारतीय भाषा केन्द्र

जवाहरलाल नेहरू विश्वविद्यालय,

नई दिल्ली

सारांश

इस शोध आलेख में विश्व के मशीनी अनुवाद तंत्र (World Machine Translation System) गूगल और माइक्रोसॉफ्ट ट्रांन्सलेटर द्वारा प्राप्त अनुवाद के त्रुटियों का विश्लेषण किया है। इन तंत्रो से अनुवाद प्राप्त करने के लिए भारतीय भाषा कॉर्पोरा उपक्रम [1] (Indian Language Corpora Initiative) के कॉर्पोरा का प्रयोग किया है। जिसका स्वरूप स्वास्थ्य (Health) और पर्यटन (Tourism) क्षेत्र के 2000 वाक्यों का है। इस वाक्यों का हिन्दी से अंग्रेजी में अनुवाद कर दो भाषाओं का समानान्तर कार्पोरा (Parallel Corpora) तैयार किया है। जिसका गूगल और माइक्रोसॉफ्ट ट्रांन्सलेटर द्वारा अनुवाद के लिए निवेश (Input) हिंदी के वाक्यों को देकर निर्गत अनुवाद (Output Translation) अंग्रेजी में प्राप्त किया और उस अनुवाद में प्राप्त होनेवाली त्रुटियों का विश्लेषण किया है।

1. प्रस्तावना

मशीनी अनुवाद प्रमुखत: अभिकलनात्मक भाषाविज्ञान (Computational Linguistics) का क्षेत्र माना जाता है। इस क्षेत्र ने विश्व में होनेवाले अनुवाद कार्य में महत्वपूर्ण योगदान दिया है। आज इस क्षेत्र के विकास और प्रगति के लिए देश-विदेश में कई परियोजनाएं चल रही है। मशीनी अनुवाद के इस विकास के साथ इसका मूल्याकंन करना और अनुवाद में होनेवाली त्रुटियों का विश्लेषण करना महत्वपूर्ण है, लेकिन यह प्रक्रिया असहज है।

सामान्यत: स्रोत भाषा (SL) की पाठ्यसामग्री को लक्ष्य भाषा (TL) में प्रस्तुत करने की प्रक्रिया को अनुवाद कहा जाता है। इसी तरह अनुवाद की प्रक्रिया में मशीन (कंप्यूटर) का उपयोग करना मशीनी अनुवाद है, जिसमें स्रोत भाषा (SL) के वाक्य का कंप्यूटर में निवेश (Input) दिया जाता है और उसका लक्ष्य भाषा में निर्गत (Output) अनुवाद प्राप्त किया जाता है। लेकिन यह मशीन द्वारा अनुवाद प्राप्त करने के लिए मशीन (Computer) में विविध सामग्री को संचालित (Install) करना होता है। जिसमें स्रोत और लक्ष्य भाषा के कॉर्पस[2] (Corpus), व्याकरणिक संरचना (Grammatical Structure), द्विभाषिक कोश (Bilingual Dictionary), शब्द संसाधक (Word Processor), विच्छेदक (Parser), रूपवैज्ञानिक विश्‍लेषक (Morphological Analyzer), प्रजनक (Generator), वर्तनी जाँचक (Spell Checker), वाक्य विश्‍लेषक (Syntactic analysis), वाक प्रौद्योगिकी (Speech Technology) आदि उपकरणों (Tools) का होना आवश्यक है। जिसके माध्यम से मशीन द्वारा सही अनुवाद प्राप्त किया जा सकता है।

जब अनुवादक किसी एक भाषा का दूसरी भाषा में अनुवाद करता है, तो वह दोनों भाषाओं के साहित्य, भाव, उनकी संस्कृति और संवेदना को मूल भाषा की तरह बनाएँ रखने का प्रयास करता है लेकिन मशीन के द्वारा यह अनुवाद त्रुटिग्रस्त प्राप्‍त होता है, क्योंकि, मानव अपने मस्तिष्क, बुद्धि, और उससे जुड़े हुए संदर्भ जानकारी के आधार पर भाषा की अभिव्यक्तियों (Expressions) का सही निर्वचन (Interpretation) कर उनके सही अर्थ का ग्रहण करता है। उसके पास भाषा की समझ और सांसारिक ज्ञान (World Knowledge) पहले से होता है, लेकिन कंप्यूटर केवल शब्द का वही अर्थ ग्रहण करता है जो उसकी स्मृति (Memory) में संचित रहता हैऔर उसे प्रोग्रामिंग के द्वारा संचालित किया जाता है।

2. मशीनी अनुवाद की प्रक्रिया (कार्य का विवरण)

यह शोध आलेख सैध्दांतिक और प्रायोगिक पध्दति पर आधारित है, जिसमें विश्व स्तर के मशीनी अनुवाद तंत्र गूगल और माइक्रोसॉफ्ट ट्रांन्सलेटर के अनुवाद की प्रक्रिया दिखाई गई है। यह तंत्र अधिक मात्रा में सही अनुवाद प्रदान करते है, लेकिन इस प्रक्रिया से प्राप्त अनुवाद में त्रुटियॉ निश्चित तौर पर मिलती है जिसका विश्लेषण आगे किया है।

2.1 गूगल अनुवाद (Google Translation)

गूगल विश्‍व की 65 भाषाओं में अनुवाद प्रदान करता है। उसमें भारत की प्रमुख 7 भाषाएं (हिंदी, बंगाली, गुजराती, कन्नड़, तमिल, तेलुगु, उर्दू) का अनुवाद युग्म अनुवाद (Paired Translation) के रूप में करता है। यह तंत्र सांख्यिकीय मशीनी अनुवाद (Statistical Machine Translation Based) पर आधारित अनुवादक साफ्टवेयर (Software) है। जिसे गूगल इन्कार्पोरेशन (Google Incorporation) ने विकसित एवं संचालित किया है। यह तंत्र एक भाषा के पाठ (Text) का या वेबपेज (webpage) का दूसरी भाषा में अनुवाद करता है। इस तंत्र से जिस भाषा से अनुवाद करना है उस भाषा का चयन करना होता है और जिस भाषा में अनुवाद प्राप्‍त करना है उस भाषा का भी चयन करना होता है। निम्न फलक-चित्र (screen-shot) में गूगल की अनुवाद प्रक्रिया को दिया है।

Figure 1: Screenshot of Google Translate[3]

उपरोक्त फलक-चित्र में गूगल अनुवाद की प्रक्रिया में हिंदी के वाक्य का अंग्रेजी में निर्गत अनुवाद दिया है। इस प्रक्रिया के अंतर्गत इस तंत्र में त्रुटि विश्लेषण के लिए दो हजार हिंदी से अंग्रेजी वाक्य अनुवाद के लिए दिए और उससे प्राप्त अनुवाद में होनेवाली त्रुटियों को रेखांकित किया है। इस तंत्र के अनुवाद कि प्रक्रिया में वह किसी भी एक भाषा से दूसरी भाषा (L1-L2) में सीधा अनुवाद नहीं करता, तो वह स्रोत भाषा (SL) से प्रथम अंग्रेजी में अनुवाद करता है, फिर उसे लक्ष्य भाषा में अनूदित करता है [ L1- Eng- L2 ]।

2.2 माइक्रोसॉफ्ट ट्रान्सलेटर (Microsoft Translator)

स्वचालित अनुवाद (Automatic Translation) के लिए माइक्रोसॉफ्ट का बिंग (Bing) अनुवादक तंत्र विश्‍व स्तर के गूगल अनुवाद तंत्र की तरह है। यह तंत्र भारत की हिंदी भाषा के साथ विश्‍व की 38 भाषाओं में अनुवाद प्रदान करता है। गूगल तंत्र की तरह इस तंत्र के द्वारा भी एक भाषा के पाठ (Text) का या वेबपेज (Webpage) का दूसरी भाषा में युग्म अनुवाद (Paired Translation) करता है। इसे माइक्रोसॉफ्ट रिसर्च ने विकसित किया है। यह तंत्र मशीन से संबंधित पाठ का अनुवाद वाक्य-विन्यास आधारित सांख्यिकीय मशीनी अनुवाद (Syntax-Based Statistical Machine Translation) प्रणाली से करता है। इस तंत्र की अन्य विशेषताएँ यह है कि, इसमें दिए गए पाठ (Text) से वाक प्रणाली (Speech) के अंतर्गत निवेशित (Input) पाठ का निर्गत (Output) अनुवाद वाक (Speech) के रूप में सुन सकते है। निम्न फलक-चित्र में इस तंत्र के अनुवाद की प्रक्रिया को दिखाया है। इस तंत्र के माध्यम से त्रुटि विश्लेषण के लिए कॉर्पोरा के वाक्य का हिंदी से अंग्रेजी में अनुवाद किया है।

Figure 2: Screenshot of Microsoft Bing Translator[4]

माइक्रोसॉफ्ट बिंग अनुवादक तंत्र में गूगल से भाषा की संख्या कम है लेकिन वह सिर्फ भारत के हिंदी भाषा का ही अनुवाद प्रदान करता है। इसे अधिक विकसित एवं परिचालित करने के लिए माइकोसॉफ्ट तंत्र में विविध भाषाई सामग्री, द्विभाषिक शब्दकोश, स्थानांतरण व्याकरणिक नियम (Transfer Grammar Rules) आदि का समावेश किया जा रहा है।

3. त्रुटि विश्लेषण

यह त्रुटि विश्लेषण मशीन के द्वारा कॉर्पोरा के 2000 वाक्यों का हिंदी से अंग्रेजी अनुवाद पर आधारित है। इन तंत्रो में हिंदी के वाक्य स्वास्थ्य और पर्यटन के विषय के दिए गए और उसका अनुवाद अंग्रेजी में किया गया, जिसके आधार पर इस त्रुटि विश्लेषण में कुछ वाक्यों को रेखांकित कर त्रुटियों को स्पष्ट किया है। स्वास्थ कॉर्पोरा के वाक्य का अनुवाद :

I. हिंदी वाक्य : नियमित व्यायाम से आप हृदय रोग, कोलन कैंसर, ब्लड प्रेशर और डायबिटीज जैसी बीमारियों से बचाव कर सकते हैं ।

गूगल अनुवाद: Regular exercise you heart disease, colon cancer, blood pressure and can prevent diseases like diabetes.

माइक्रोसॉफ्ट अनुवादक: Regular exercise, blood pressure heart disease, colon cancer, you and from diseases like diabetes.

सही अनुवाद: You can prevent heart diseases, colon cancer, blood pressure and diabetes like diseases by regular exercise.

मूल वाक्य के गूगल अनुवाद में शब्द प्रति शब्द अनुवाद किया गया है और माइक्रोसॉफ्ट में संदिग्ध अनुवाद किया है, जिसका मूल वाक्य से अर्थपूर्ण अनुवाद नहीं है। सही अनुवाद से तुलना करने पर ज्ञात होता है कि अनुवाद में वाक्य कि क्रमबध्द संरचना होना महत्वपूर्ण है।

II. हिंदी वाक्य : बच्चों को फास्ट फूड, कुरकुरे, आइसक्रीम नहीं खिलायें।

गूगल अनुवाद: Kids fast food, crackers, ice cream Kilayen not.

माइक्रोसॉफ्ट अनुवादक: Kids fast food, crunchy, not ice cream khilayen.

सही अनुवाद: Do not feed children fast food, kurkure, ice-cream.

मूल वाक्य से गूगल अनुवाद में ‘खिलायें’ शब्द को अंग्रेजी में लिप्यंतरित किया है, लेकिन उससे अनुवाद अर्थपूर्ण प्रतीत नहीं होता, लेकिन कुछ मात्रा तक अनुवाद सही है। माइक्रोसॉफ्ट में भी लिप्यंतरण किया है। इस तंत्रो से कुछ शब्दों के अनुवाद मूल वाक्य के शब्दों के तरह रख दिए जाते है।

III. हिंदी वाक्य: आँखों को स्वस्थ बनाए रखने के लिए आहार में फल सब्जियाँ शामिल करना काफी है।

गूगल अनुवाद : To keep eyes healthy diets include fruits, vegetables, enough.

माइक्रोसॉफ्ट अनुवाद : To maintain the healthy diet eyes fruit vegetables you want.

सही अनुवाद : Including fruit, vegetable in meal is enough to maintain the eyes healthy.

मूल वाक्य से गूगल द्वारा अनुवाद सही निर्गत हुआ है, लेकिन पूर्णत उन्नत अनुवाद नहीं है, तो माइक्रोसॉफ्ट द्वारा शाब्दिक अनुवाद हुआ है, लेकिन अर्थ के रूप से गलत अनुवाद है। यह अनुवाद वाक्य संरचना के रूप से भी अलग है।

IV. हिंदी वाक्य: सिगरेट पीने से मस्तिष्क तक आक्सीजन पहुँचाने वाली धमनियाँ सिकुड़ने लगती है जिससे दिमाग कमजोर होने लगता है।

गूगल अनुवाद: Cigarette smoking could cause oxygen to the brain causing brain arteries contracts seems to be weak.

माइक्रोसॉफ्ट अनुवाद : Pick up cigarette smoking seems to be shrinking brain is brain dhamniyan oxygen-poor.

सही अनुवाद : By smoking cigarette the arteries bringing oxygen to the brain starts shrinking with which the brain starts weakening .

उपरोक्त मूल वाक्य से गूगल अनुवाद में अर्थ के स्तर पर अनुवाद आंशिक सही है लेकिन वाक्य संरचना क्रमबध्द नहीं है। दूसरे वाक्य का अनुवाद कुछ अंश तक सही है लेकिन वाक्य का दूसरा भाग जिसमें ‘धमनियाँ’ शब्द का लिप्यंतरण हुआ है और ‘oxygen-poor’ शब्द से गलत अनुवाद प्रतीत होता है।

V. हिंदी वाक्य: अगर कैंसर सीमित क्षेत्र में और प्रारम्भिक चरण में है तो प्रभावित क्षेत्र के साथ-साथ कुछ सामान्य क्षेत्र में भी हटाये जाते हैं।

गूगल अनुवाद: If the cancer is confined to the affected area in the early stage - with some common areas are also removed.

माइक्रोसॉफ्ट अनुवाद: If the cancer is in the initial phase limited area and the affected area, as well as in some general area are also deleted.

सही अनुवाद : If cancer is in a limited area and in initial stage then along with the affected area some normal areas are also extracted.

मूल वाक्य के दोनों अनुवाद में लगभग सही अनुवाद हुआ है, लेकिन वाक्य संरचना में भिन्नता है।

VI. हिंदी वाक्य: रोग-वाहक मच्छर मुख्य रूप से घरों से बाहर धान के खेतों, पोखरों एवं पानी से भरे गड्ढों में रहते हैं।

गूगल अनुवाद: Disease - carrier mosquitoes out of homes, mainly paddy fields, ponds and pits are filled with water.

माइक्रोसॉफ्ट अनुवाद: Disease-carrier mosquitoes mainly paddy fields, the wild and out of households water-filled pits.

सही अनुवाद: Disease carrying mosquitoes mainly reside outside home in paddy fields, ponds and ditches filled with water.

उपरोक्त मूल वाक्य से गूगल का अनुवाद सही है। माइक्रोसॉफ्ट के अनुवाद में त्रुटियॉ हुई है, जिसमें शब्दक्रम की कोई क्रमबध्द्ता नहीं है।

VII. हिंदी वाक्य: चबाएँ शुगर रहित चुइंग गम।

गूगल अनुवाद : Chew sugar-free chewing gum.

माइक्रोसॉफ्ट अनुवादक: Chabaen sugar free gum chuing.

सही अनुवाद: Chew the sugar-free chewing gum.

हिंदी वाक्य से गूगल में सही अनुवाद प्रदान किया है, तो दूसरी ओर माइक्रोसॉफ्ट ने ‘चबाएँ’ और ‘चुइंग’ शब्द का अंग्रेजी में लिप्यंतरण किया है। वाक्य का अनुवाद केवल क्रमबध्द होने के अलावा वाक्य का अनुवाद अर्थपूर्ण होना चाहिए।

पर्यटन कॉर्पोरा के आधार पर गूगल और माइक्रोसॉफ्ट बिंग अनुवादक तंत्र से प्राप्‍त अनुवाद का त्रुटि विश्लेषण टेबल 1 में दिखाया हैं।

निवेशित हिंदी वाक्य (Input Hindi Sentences)	निर्गत गूगल अनुवाद (Google Output)	निर्गत बिंग अनुवाद (Bing Translator Output)	सही अनुवाद (Actual Translation)
गढ़ मुक्तेश्वर का नाम शिव बल्लभपुर पड़ा ।	Garh Mukteshwar Shiva's name was Bllbpur.	Citadel Mukteshwar name Shiva ballabhpur.	Garh Mukteshwar was named as Shiv Ballabhpur.
ट्रेन में प्रकृति का पूरा आनंद लेते हुए गोवा जाने का अलग ही मजा है।	Taking the train to Goa to enjoy nature's own fun.	Enjoy the nature train, Goa is the different fun.	Going to Goa having full joy of the nature in train has a different fun.
दमन का नजदीकी रेलवे स्टेशन गुजरात का 'वापी' है।	Suppression of the nearest railway station in ‘Gujarat's Valsad is.	Proximity to the railway station of repression. ' Gujarat ' vapi	The nearby railway station of Daman is Vapi of Gujarat.
महेश मूर्ति की विशालता एवं विस्पर्यात्पादकता अपूर्व है।	Mahesh Murthy is the vastness and विस्पर्यात्पादकता unique.	Mahesh Murthy is a unique emerging and visparyatpadkata.	The largeness and wonderfulness of the Mahesha statue is unique.
आक्कुलम झील नौकारोहण की दृष्टि से महत्त्वपूर्ण है ।	Akkulm lake is important in terms of haul.	Akkulam is important from the point of view of the Lake naukarohan.	Akkulam lake is important in view of boating.

टेबल 1 : गूगल और माइक्रोसॉफ्ट बिंग मशीनी अनुवाद तंत्र का निर्गत अनुवाद

टेबल 1. में गूगल और माइक्रोसॉफ्ट बिंग अनुवादक द्वारा मूल वाक्य से अनूदित वाक्य के त्रुटि विश्लेषण में रेखांकित किए हुए शब्द अनुवाद की त्रुटियों को दर्शाते है।

प्रथम गूगल वाक्य में अनुवाद की वाक्य संरचना को बदल दिया है, ऐसा इसलिए हुआ है कि जब अनुवाद के लिए गूगल में किसी वस्तु या स्थान का प्रयोग किया जाता है तो अनुवाद में मशीन, सभी नामों (Name) को समान समझकर आउटपुट प्रदान करती है। इससे अनुवाद में मूल वाक्य के नाम और स्थान बदलने की संभावना बनी रहती है। यहाँ बिंग तंत्र का अनुवाद सही पाया गया है। संदर्भ के अनुसार वाक्य के कुछ शब्दों का अनुवाद और लिप्यंतरण मानव अपनी बुद्धि और पूर्व सांस्कृतिक ज्ञान के आधार पर करता है, लेकिन यह मशीन को समझ पाना मुश्किल है। बिंग अनुवाद के प्रथम वाक्य के शब्द ‘Citadel’ से यह ज्ञात होता है।

द्वितीय वाक्य में दोनों तंत्रों गूगल और बिंग अनुवाद के द्वारा प्राप्‍त अनुवाद त्रुटिग्रस्त हैं। तृतीय वाक्य में ‘दमन’ और ‘वापी’ यह स्थान के नाम है, जिनका क्रमश: अनुवाद ‘suppression’ और ‘Valsad’ किया गया है और बिंग में भी यह अनुवाद त्रुटिग्रस्त पाया है, जिसमें ‘दमन; नाम के लिए `repression’ शब्द का प्रयोग किया है।

चतुर्थ और पंचम वाक्य में गूगल द्वारा अनूदित रूप में शब्द को वैसे ही (As it is) रख दिया गया है तो बिंग अनुवाद में भी कुछ शब्दों का वैसे ही अनुवाद किया गया है।

उपर्युक्त अनूदित वाक्य और टेबल में गूगल और माइक्रोसॉफ्ट बिंग द्वारा अनूदित वाक्यों (शब्द) को रेखांकित करने से त्रुटियों का विवरण मिलता है, जिसमें यह ज्ञात होता है कि दोनों मशीनी अनुवाद तंत्र द्वारा अनुवाद कितना प्रतिशत सही प्राप्‍त हुआ है।

4. परिणाम व उपयोगिताएं

इस आलेख में, 2000 वाक्य में से कुछ प्रमुख वाक्य के त्रुटि विश्‍लेषण से यह स्पष्‍ट होता है कि मशीनी अनुवाद के तंत्र में अधिक सुधार और विकास करने की आवश्यकता है।

· गूगल का अनुवाद अधिक मात्रा में (60 प्रतिशत) सही पाया गया है, तो 20 प्रतिशत संदिग्ध अनुवाद और 15 प्रतिशत गलत अनुवाद पाया गया है। अनुवाद में अर्थ को बनाए रखने के लिए कुछ अननूदित वाक्यों को यह तंत्र देवनागरी में (5 प्रतिशत) लिप्यंतरित करता है।

· बिंग माइक्रोसॉफ्ट का अनुवाद 50 प्रतिशत ही बोधगम्य (comprehensible) हुआ है। संदिग्ध अनुवाद 15 प्रतिशत है तो गलत अनुवाद का प्रतिशत 35 है।

· विशेषत: विषय, वस्तु या स्थान के नाम का भी अनुवाद अंग्रेजी में किया है, जिससे अनुवाद गलत होता है। लघु वाक्य का अनुवाद दोनो तंत्र अधिकांश रूप से सही करते है।

· इन तंत्रों से प्राप्त हिंदी से अंग्रेजी वाक्य में अधिकतर हिंदी के शब्दों को देवनागरी में लिप्यंतरित किया है तो कुछ शब्दों का अनुवाद रोमन में प्रदान करता है, इसलिए इसमें हिंदी और अंग्रेजी की शब्दावली में सुधार करने के साथ अर्थ में स्पष्‍टता होनी चाहिए।

इस त्रुटि विश्लेषण के मूल्याकंन और परिणाम से यह स्पष्ट होता है की मशीन द्वारा अनुवाद अधिक सफल दिशा में प्रयास है। विश्व में विभिन्न मशीन अनुवाद के तंत्र सही अनुवाद कर रहे है, इसी तरह गूगल और माइक्रोसॉफ्ट ट्रान्सलेटर का योगदान अनुवाद के क्षेत्र में बहुत महत्वपूर्ण है।

5. मशीनी अनुवाद तंत्र को उन्नत बनाने के लिए सुझाव

म.अनु. तंत्र में की सफलता के लिए दोनों भाषाओं की भाषाई सामग्री (Corpus) का विकास करना आवश्यक है, जिसमें भाषा के शब्दकोश (Lexicon) को अधिक विस्तृत बनाया जाना चाहिए।
यदि नियम आधारित पद्धति से मशीनी अनुवाद प्रणाली का निर्माण किया गया है तो इसमें इसके व्याकरण संबंधी नियमों को और अधिक स्पष्ट बनाना चाहिए और भाषा में हो रहे प्रयोगों को अधिक से अधिक नियम के रूप में बनाकर व्याकरण में देना चाहिए।
यदि सांख्यिकी आधारित अनुवाद प्रणाली हो तो अनुवाद के लिए अधिक से अधिक सभी क्षेत्रों का प्रतिनिधित्व करने वाला कॉर्पोरा का समावेश करना चाहिए।
बहुअर्थकता की समस्या के लिए संदर्भ को समझने योग्य प्रणाली विकसित करने का प्रयास करना चाहिए।
भाषाओं की व्याकरण संबंधी सभी विशेषताओं को ध्यान में रखते हुए दृढ और सुस्पष्ट नियम तैयार किए जाएंगे, तो अनुवाद सही रूप से निर्गत हो पाएगा।

6. निष्कर्ष

मशीन द्वारा अनुवाद की दिशा में ये तंत्र अनुवाद करने में सक्षम हैं, लेकिन अनुवाद में त्रुटियॉ हो जाती हैं। इन त्रुटियों के विवरण और विश्‍लेषण से देखा जा सकता है कि प्रत्येक भाषा की संरचना, साहित्य, संस्कृति एक भाषा से दूसरी भाषा से भिन्न है, इसलिए अनुवाद में शब्द, वाक्य, और अर्थ के स्तर पर भिन्नता पायी जाती है, लेकिन मशीन में अनुवाद के लिए विशिष्ट एक क्षेत्र के भाषा सामग्री को संचालित कर किसी एक क्षेत्र में, मशीन द्वारा सही अनुवाद प्राप्त किया जा सकता है, जिसमें मशीन के अनुवाद करने की गुणवत्ता और शुध्दता को अधिक विकसित किया जा सकता है।

संदर्भ ग्रंथ-सूची

[1] भारतीय भाषा कार्पोरा उपक्रम, यह परियोजना विशिष्ट संस्कृत अध्ययन केंद्र, जवाहरलाल नेहरू विश्‍वविद्यालय,नई दिल्ली में डाँ. गिरीश नाथ झा के निर्देशन में चलायी जा रही है। यह परियोजना भारत सरकार के सूचना प्रौद्योगिकी विभाग द्वारा वित्तपोषित है।

* मशीन का प्रयोग कंप्यूटर के संदर्भ में है। जिसका प्रयोग हिंदी में भाषा प्रौद्योगिकी के विषय में किया जाता है।

[2] ‘कॉर्पस’ कॉर्पोरा का बहुवचन रूप है। कॉर्पोरा मूलत: किसी भी भाषा के सामग्री का लिखित या मौखिक रूप होता है, जिसमें किसी भाषा के शब्द तथा वाक्यों को संग्रहित रूप में रखा जाता है। यह भाषा की सामग्री, संबंधित व्यवहार क्षेत्रो में प्रयुक्त भाषा के रूपों का प्रतिनिधित्व करती है। इस व्यवहार क्षेत्र में शब्दावली, अभिव्यक्ति, वाक्य रूप, शैली रूप, मुहावरे, प्रयुक्तियाँ और भाषिक विशिष्टताएं आदि का समावेश होता है।

[3] http://translate.google.com/ (02.11.12)

[4] http://www.bing.com/translator (02.11.12)

गुरु, गुरु, कामता प्रसाद (1920) : हिंदी व्याकरण, काशी नागरी प्रचारिणी सभा, काशी ।

2 पाण्डेय, राम कमल (1985) : त्रुटि विश्‍लेषण: सिध्दांत और व्यवहार, केन्द्रीय हिन्दी संस्थान, आगरा।

3. सिंह, सूरजभान (2003) : अंग्रेजी-हिंदी अनुवाद व्याकरण, प्रभात प्रकाशन, नई दिल्ली ।

. सिंह, सूरजभान (2000) : हिंदी का वाक्यात्मक व्याकरण, साहित्य सहकार, नई दिल्ली ।

Bharti Akshar, Chaitanya Vineet, Sangal Rajeev. (2000) : Natural Language Processing : a Paninian Perspective, Prentice –Hall of India, New Delhi.

Chomsky, N. (1957): Syntatactic Structure, The Hagun Mounton.

Dorr, Bonnie (1993): Machine Translation a view from the lexicon, The MIT Press, USA.

8. Kachru, Yamuna (1966): An Introduction to Hindi Syntax, The University of Illinois, Urbana.

9. Kachru, Yamuna (1980) : Aspects of Hindi Grammar, Manohar Publications, New Delhi

Sinha, K.Binod (1986): Contrastive Analysis of English and Hindi Nominal Phrase, Bahari Publications, New Delhi.

Slocum, Jonathan (ed.), (1988): Machine Translation Systems, Cambridge University Press, New York.

12.

Sara Stymne. 2011. Blast: A Tool for Error Analysis of Machine Translation Output. In Proceedings of ACL, pages 56-61, Portland, Oregon, USA.

13.

Verma, M.K. (1971): The Structure of Noun Phrase in English and Hindi, Motilal Banarsidass, Delhi.

14.

ILCI Corpora, Indian Language Corpora Initiative, Special Centre for Sanskrit Studies, Jawaharlal Nehru University, New Delhi

[Published in ‘Samkalin Vaigyanik Anusandhan’ (edit. board), DRDO publication, (Min. of Defence) Delhi, 2013, ISBN:9788186514382]

Corpus Based Machine Translation

Friday, November 7, 2014