मशीनी अनुवाद के द्वारा कॉर्पोरा आधारित हिंदी-अंग्रेजी अनुदित वाक्यों का
त्रुटि विश्लेषण
सुमेध खुशालराव हाडके
भारतीय भाषा केन्द्र
जवाहरलाल नेहरू विश्वविद्यालय,
नई दिल्ली
सारांश
इस शोध आलेख में विश्व के मशीनी अनुवाद तंत्र (World Machine Translation System) गूगल और माइक्रोसॉफ्ट ट्रांन्सलेटर द्वारा प्राप्त अनुवाद के त्रुटियों का
विश्लेषण किया है। इन तंत्रो से अनुवाद प्राप्त करने के लिए भारतीय भाषा कॉर्पोरा
उपक्रम[1] (Indian Language Corpora Initiative) के कॉर्पोरा का प्रयोग किया है। जिसका स्वरूप स्वास्थ्य (Health) और पर्यटन (Tourism) क्षेत्र के 2000 वाक्यों का है। इस वाक्यों का हिन्दी से अंग्रेजी में अनुवाद कर दो
भाषाओं का समानान्तर कार्पोरा (Parallel Corpora) तैयार किया
है। जिसका गूगल और माइक्रोसॉफ्ट ट्रांन्सलेटर द्वारा
अनुवाद के लिए निवेश (Input) हिंदी के वाक्यों को देकर निर्गत अनुवाद (Output Translation) अंग्रेजी में प्राप्त किया और उस
अनुवाद में प्राप्त होनेवाली त्रुटियों का विश्लेषण किया है।
1.
प्रस्तावना
मशीनी अनुवाद प्रमुखत: अभिकलनात्मक भाषाविज्ञान (Computational Linguistics) का
क्षेत्र माना जाता है। इस क्षेत्र ने विश्व में होनेवाले अनुवाद कार्य में
महत्वपूर्ण योगदान दिया है। आज इस क्षेत्र के विकास और प्रगति के लिए देश-विदेश
में कई परियोजनाएं चल रही है। मशीनी अनुवाद के इस विकास के साथ इसका मूल्याकंन
करना और अनुवाद में होनेवाली त्रुटियों का विश्लेषण करना महत्वपूर्ण है, लेकिन यह प्रक्रिया असहज है।
सामान्यत: स्रोत भाषा (SL) की पाठ्यसामग्री को लक्ष्य
भाषा (TL) में प्रस्तुत करने की प्रक्रिया को अनुवाद कहा जाता है। इसी
तरह अनुवाद की प्रक्रिया में मशीन (कंप्यूटर) का उपयोग करना मशीनी अनुवाद है, जिसमें स्रोत भाषा (SL) के वाक्य का कंप्यूटर
में निवेश (Input) दिया जाता है और उसका लक्ष्य भाषा में निर्गत (Output) अनुवाद प्राप्त किया जाता
है। लेकिन यह मशीन द्वारा अनुवाद प्राप्त करने के लिए मशीन (Computer) में विविध सामग्री को संचालित (Install) करना होता है। जिसमें स्रोत और लक्ष्य भाषा के कॉर्पस[2] (Corpus), व्याकरणिक संरचना (Grammatical Structure), द्विभाषिक कोश (Bilingual Dictionary), शब्द संसाधक (Word Processor), विच्छेदक (Parser), रूपवैज्ञानिक विश्लेषक (Morphological Analyzer), प्रजनक (Generator), वर्तनी जाँचक (Spell Checker), वाक्य विश्लेषक (Syntactic analysis), वाक प्रौद्योगिकी (Speech Technology) आदि उपकरणों (Tools) का होना आवश्यक है। जिसके माध्यम
से मशीन द्वारा सही अनुवाद प्राप्त किया जा सकता है।
जब अनुवादक किसी एक भाषा
का दूसरी भाषा में अनुवाद करता है, तो वह दोनों भाषाओं के साहित्य, भाव, उनकी संस्कृति और संवेदना को
मूल भाषा की तरह बनाएँ रखने का प्रयास करता है लेकिन मशीन के द्वारा यह अनुवाद
त्रुटिग्रस्त
प्राप्त होता है, क्योंकि, मानव अपने मस्तिष्क, बुद्धि, और उससे जुड़े हुए संदर्भ जानकारी
के आधार पर भाषा की अभिव्यक्तियों (Expressions) का सही निर्वचन (Interpretation) कर उनके सही अर्थ का
ग्रहण करता है। उसके पास भाषा की समझ और सांसारिक ज्ञान (World Knowledge) पहले से होता है,
लेकिन कंप्यूटर केवल शब्द का वही अर्थ ग्रहण करता है जो उसकी स्मृति (Memory) में संचित रहता है और उसे प्रोग्रामिंग
के द्वारा संचालित किया जाता है।
2.
मशीनी अनुवाद की प्रक्रिया (कार्य का विवरण)
यह शोध आलेख
सैध्दांतिक और प्रायोगिक पध्दति पर आधारित है, जिसमें विश्व स्तर के मशीनी अनुवाद
तंत्र गूगल और माइक्रोसॉफ्ट ट्रांन्सलेटर के अनुवाद की प्रक्रिया दिखाई गई है। यह
तंत्र अधिक मात्रा में सही अनुवाद प्रदान करते है, लेकिन इस प्रक्रिया से प्राप्त
अनुवाद में त्रुटियॉ निश्चित तौर पर मिलती है जिसका विश्लेषण आगे किया है।
2.1 गूगल अनुवाद (Google Translation)
गूगल विश्व की
65 भाषाओं में अनुवाद प्रदान करता है। उसमें भारत की प्रमुख 7 भाषाएं (हिंदी, बंगाली,
गुजराती, कन्नड़, तमिल, तेलुगु, उर्दू) का अनुवाद युग्म अनुवाद (Paired Translation) के रूप में करता है। यह तंत्र सांख्यिकीय मशीनी अनुवाद (Statistical Machine
Translation Based) पर आधारित अनुवादक साफ्टवेयर (Software) है। जिसे गूगल
इन्कार्पोरेशन (Google
Incorporation) ने विकसित एवं संचालित किया है। यह
तंत्र एक भाषा के पाठ (Text) का या वेबपेज (webpage) का दूसरी भाषा में अनुवाद करता है। इस तंत्र से जिस भाषा से अनुवाद करना है उस भाषा का चयन करना होता है
और जिस भाषा में अनुवाद प्राप्त करना है उस भाषा का भी चयन करना होता है। निम्न
फलक-चित्र (screen-shot) में गूगल की अनुवाद प्रक्रिया को दिया है।
उपरोक्त फलक-चित्र में गूगल अनुवाद की प्रक्रिया
में हिंदी के वाक्य का अंग्रेजी में निर्गत अनुवाद दिया है। इस प्रक्रिया के अंतर्गत इस तंत्र में त्रुटि विश्लेषण के लिए दो हजार हिंदी
से अंग्रेजी वाक्य अनुवाद के लिए दिए और उससे प्राप्त अनुवाद में होनेवाली
त्रुटियों को रेखांकित किया है। इस तंत्र के अनुवाद कि प्रक्रिया में वह किसी भी एक भाषा से दूसरी भाषा (L1-L2) में सीधा अनुवाद नहीं करता, तो वह स्रोत भाषा (SL) से प्रथम अंग्रेजी में अनुवाद करता है, फिर उसे
लक्ष्य भाषा में अनूदित करता है [ L1- Eng- L2 ]।
2.2 माइक्रोसॉफ्ट ट्रान्सलेटर (Microsoft Translator)
स्वचालित अनुवाद (Automatic
Translation) के लिए माइक्रोसॉफ्ट का बिंग (Bing) अनुवादक तंत्र विश्व स्तर
के गूगल अनुवाद
तंत्र की तरह है। यह तंत्र भारत की हिंदी भाषा के
साथ विश्व की 38 भाषाओं में अनुवाद प्रदान करता है। गूगल तंत्र की तरह इस
तंत्र के द्वारा भी एक भाषा के पाठ (Text) का या वेबपेज (Webpage) का दूसरी भाषा में युग्म अनुवाद (Paired Translation) करता है। इसे माइक्रोसॉफ्ट रिसर्च ने विकसित किया है। यह
तंत्र मशीन से संबंधित
पाठ का अनुवाद वाक्य-विन्यास आधारित सांख्यिकीय मशीनी अनुवाद (Syntax-Based Statistical Machine
Translation) प्रणाली से करता है। इस तंत्र की अन्य विशेषताएँ यह है कि, इसमें दिए गए
पाठ (Text) से वाक प्रणाली (Speech) के अंतर्गत निवेशित (Input) पाठ का निर्गत (Output) अनुवाद वाक (Speech) के रूप में सुन सकते है। निम्न फलक-चित्र में इस
तंत्र के अनुवाद की प्रक्रिया को दिखाया है। इस तंत्र के माध्यम से त्रुटि विश्लेषण
के लिए कॉर्पोरा के वाक्य का हिंदी से अंग्रेजी में अनुवाद किया है।
माइक्रोसॉफ्ट बिंग अनुवादक तंत्र में गूगल से भाषा
की संख्या कम है लेकिन वह सिर्फ भारत के हिंदी भाषा का ही अनुवाद प्रदान करता है।
इसे अधिक विकसित एवं परिचालित करने के लिए माइकोसॉफ्ट तंत्र में विविध भाषाई
सामग्री, द्विभाषिक शब्दकोश, स्थानांतरण व्याकरणिक नियम (Transfer Grammar Rules) आदि का समावेश किया जा रहा
है।
3.
त्रुटि विश्लेषण
यह त्रुटि विश्लेषण मशीन के द्वारा
कॉर्पोरा के 2000 वाक्यों का हिंदी से
अंग्रेजी अनुवाद पर आधारित है। इन तंत्रो में हिंदी के वाक्य स्वास्थ्य और पर्यटन
के विषय के दिए गए और उसका अनुवाद अंग्रेजी में किया गया, जिसके आधार पर इस त्रुटि
विश्लेषण में कुछ वाक्यों को रेखांकित कर त्रुटियों को स्पष्ट किया है। स्वास्थ
कॉर्पोरा के वाक्य का अनुवाद :
I.
हिंदी वाक्य : नियमित व्यायाम से आप हृदय रोग, कोलन कैंसर, ब्लड प्रेशर और डायबिटीज जैसी बीमारियों से बचाव कर सकते हैं ।
गूगल अनुवाद: Regular exercise you heart disease, colon cancer,
blood pressure and can prevent diseases like diabetes.
माइक्रोसॉफ्ट अनुवादक: Regular exercise, blood pressure heart disease, colon cancer, you and
from diseases like diabetes.
सही अनुवाद: You can prevent heart
diseases, colon cancer, blood pressure and diabetes like diseases by regular
exercise.
मूल वाक्य के गूगल
अनुवाद में शब्द प्रति शब्द अनुवाद किया गया है और माइक्रोसॉफ्ट में संदिग्ध अनुवाद
किया है, जिसका मूल वाक्य से अर्थपूर्ण अनुवाद नहीं है। सही अनुवाद से तुलना करने पर
ज्ञात होता है कि अनुवाद में वाक्य कि क्रमबध्द संरचना होना महत्वपूर्ण है।
II.
हिंदी वाक्य : बच्चों को फास्ट फूड, कुरकुरे,
आइसक्रीम नहीं खिलायें।
गूगल अनुवाद: Kids fast food, crackers, ice cream Kilayen not.
माइक्रोसॉफ्ट अनुवादक: Kids fast food, crunchy, not ice cream khilayen.
सही अनुवाद: Do not feed children fast food, kurkure, ice-cream.
मूल वाक्य से गूगल अनुवाद में
‘खिलायें’ शब्द को अंग्रेजी में
लिप्यंतरित किया है, लेकिन उससे अनुवाद अर्थपूर्ण प्रतीत नहीं होता, लेकिन कुछ
मात्रा तक अनुवाद सही है। माइक्रोसॉफ्ट में भी लिप्यंतरण किया है। इस तंत्रो से
कुछ शब्दों के अनुवाद मूल वाक्य के
शब्दों के तरह रख दिए जाते है।
III. हिंदी वाक्य: आँखों को स्वस्थ बनाए रखने के लिए आहार में फल
सब्जियाँ शामिल करना काफी है।
गूगल अनुवाद : To keep eyes healthy diets
include fruits, vegetables, enough.
माइक्रोसॉफ्ट अनुवाद : To maintain the healthy diet eyes fruit vegetables you want.
सही अनुवाद : Including fruit, vegetable in meal is enough to maintain
the eyes healthy.
मूल वाक्य से गूगल द्वारा अनुवाद
सही निर्गत हुआ है, लेकिन पूर्णत उन्नत अनुवाद नहीं है, तो माइक्रोसॉफ्ट द्वारा
शाब्दिक अनुवाद हुआ है, लेकिन अर्थ के रूप से गलत अनुवाद है। यह अनुवाद वाक्य
संरचना के रूप से भी अलग है।
IV.
हिंदी वाक्य: सिगरेट पीने से मस्तिष्क
तक आक्सीजन पहुँचाने वाली धमनियाँ सिकुड़ने लगती है जिससे दिमाग कमजोर होने लगता
है।
गूगल अनुवाद:
Cigarette smoking could cause
oxygen to the brain causing brain arteries contracts seems to be weak.
माइक्रोसॉफ्ट अनुवाद : Pick up cigarette smoking seems to be shrinking brain is brain dhamniyan
oxygen-poor.
सही अनुवाद : By smoking cigarette the arteries
bringing oxygen to the brain starts shrinking with which the brain starts
weakening .
उपरोक्त मूल वाक्य
से गूगल अनुवाद में अर्थ के स्तर पर अनुवाद आंशिक सही है लेकिन वाक्य संरचना
क्रमबध्द नहीं है। दूसरे वाक्य का अनुवाद कुछ अंश तक सही है लेकिन वाक्य का दूसरा
भाग जिसमें ‘धमनियाँ’ शब्द का लिप्यंतरण हुआ है और ‘oxygen-poor’ शब्द से गलत अनुवाद प्रतीत होता है।
V.
हिंदी वाक्य: अगर कैंसर सीमित क्षेत्र
में और प्रारम्भिक चरण में है तो प्रभावित क्षेत्र के साथ-साथ कुछ सामान्य क्षेत्र
में भी हटाये जाते हैं।
गूगल अनुवाद: If the cancer is confined to
the affected area in the early stage - with some common areas are also removed.
माइक्रोसॉफ्ट अनुवाद: If the cancer is in the
initial phase limited area and the affected area, as well as in some general
area are also deleted.
सही अनुवाद : If cancer is in a limited area and in
initial stage then along with the affected area some normal areas are also
extracted.
मूल वाक्य के दोनों अनुवाद में लगभग सही अनुवाद हुआ
है, लेकिन वाक्य संरचना में भिन्नता है।
VI. हिंदी वाक्य: रोग-वाहक मच्छर मुख्य रूप से घरों से बाहर धान
के खेतों, पोखरों एवं पानी से भरे गड्ढों में रहते हैं।
गूगल अनुवाद: Disease - carrier mosquitoes out of homes, mainly paddy
fields, ponds and pits are filled with water.
माइक्रोसॉफ्ट अनुवाद: Disease-carrier mosquitoes mainly paddy fields, the wild and out of households water-filled
pits.
सही अनुवाद: Disease carrying mosquitoes
mainly reside outside home in paddy fields, ponds and ditches filled with
water.
उपरोक्त मूल
वाक्य से गूगल का अनुवाद सही है। माइक्रोसॉफ्ट के अनुवाद में त्रुटियॉ हुई है,
जिसमें शब्दक्रम की कोई क्रमबध्द्ता नहीं है।
VII. हिंदी वाक्य: चबाएँ शुगर रहित चुइंग गम।
गूगल अनुवाद : Chew sugar-free chewing gum.
माइक्रोसॉफ्ट अनुवादक: Chabaen sugar free gum chuing.
सही अनुवाद: Chew the sugar-free chewing gum.
हिंदी वाक्य से गूगल में सही अनुवाद प्रदान किया है, तो दूसरी ओर माइक्रोसॉफ्ट
ने ‘चबाएँ’ और ‘चुइंग’ शब्द का अंग्रेजी में लिप्यंतरण किया है। वाक्य का अनुवाद
केवल क्रमबध्द होने के अलावा वाक्य का अनुवाद अर्थपूर्ण होना चाहिए।
पर्यटन कॉर्पोरा के आधार पर
गूगल और माइक्रोसॉफ्ट बिंग अनुवादक तंत्र से प्राप्त अनुवाद का त्रुटि विश्लेषण टेबल 1 में दिखाया हैं।
निवेशित हिंदी वाक्य
(Input Hindi Sentences)
|
निर्गत गूगल अनुवाद
(Google Output)
|
निर्गत बिंग अनुवाद
(Bing Translator Output)
|
सही अनुवाद
(Actual Translation)
|
गढ़ मुक्तेश्वर का नाम शिव बल्लभपुर पड़ा ।
|
Garh Mukteshwar Shiva's
name was Bllbpur.
|
Citadel Mukteshwar name Shiva ballabhpur.
|
Garh Mukteshwar was named as
Shiv Ballabhpur.
|
ट्रेन में
प्रकृति का पूरा आनंद लेते हुए गोवा जाने का अलग ही मजा है।
|
Taking the
train to Goa to enjoy nature's own fun.
|
Enjoy the
nature train, Goa is the different fun.
|
Going to
Goa having full joy of the nature in train has a different fun.
|
दमन का नजदीकी
रेलवे स्टेशन गुजरात
का 'वापी' है।
|
Suppression
of the nearest
railway station in ‘Gujarat's Valsad is.
|
Proximity
to the railway station of repression. ' Gujarat ' vapi
|
The nearby
railway station of Daman is Vapi of Gujarat.
|
महेश मूर्ति की
विशालता एवं विस्पर्यात्पादकता अपूर्व है।
|
Mahesh
Murthy is the vastness and विस्पर्यात्पादकता unique.
|
Mahesh Murthy
is a unique emerging and visparyatpadkata.
|
The
largeness and wonderfulness of the Mahesha statue is unique.
|
आक्कुलम झील
नौकारोहण की दृष्टि से महत्त्वपूर्ण है ।
|
Akkulm lake is important in terms
of haul.
|
Akkulam is important from the point of view
of the Lake naukarohan.
|
Akkulam
lake is important in view of boating.
|
टेबल 1 : गूगल और माइक्रोसॉफ्ट बिंग मशीनी अनुवाद तंत्र का
निर्गत अनुवाद
टेबल 1. में गूगल और माइक्रोसॉफ्ट बिंग अनुवादक द्वारा मूल
वाक्य से अनूदित वाक्य के त्रुटि
विश्लेषण में रेखांकित किए हुए शब्द अनुवाद की त्रुटियों को दर्शाते है।
प्रथम गूगल वाक्य में अनुवाद की वाक्य
संरचना को बदल दिया है, ऐसा इसलिए हुआ है कि जब अनुवाद के लिए गूगल में किसी वस्तु
या स्थान का प्रयोग किया जाता है तो अनुवाद में मशीन, सभी नामों (Name) को समान समझकर आउटपुट प्रदान
करती है। इससे अनुवाद में मूल वाक्य के नाम और स्थान बदलने की संभावना बनी रहती
है। यहाँ बिंग तंत्र का अनुवाद सही पाया गया है। संदर्भ के अनुसार वाक्य के कुछ
शब्दों का अनुवाद और लिप्यंतरण मानव अपनी बुद्धि और पूर्व सांस्कृतिक ज्ञान के
आधार पर करता है, लेकिन यह मशीन को समझ पाना मुश्किल है। बिंग अनुवाद के प्रथम
वाक्य के शब्द ‘Citadel’ से यह ज्ञात होता है।
द्वितीय वाक्य में दोनों तंत्रों गूगल और
बिंग अनुवाद के द्वारा प्राप्त अनुवाद त्रुटिग्रस्त हैं। तृतीय वाक्य में ‘दमन’ और ‘वापी’
यह स्थान के नाम है, जिनका क्रमश: अनुवाद ‘suppression’ और ‘Valsad’ किया गया है और बिंग में भी यह अनुवाद त्रुटिग्रस्त
पाया है, जिसमें ‘दमन; नाम के लिए `repression’ शब्द
का प्रयोग किया है।
चतुर्थ और पंचम वाक्य में गूगल द्वारा अनूदित
रूप में शब्द को वैसे ही (As it
is) रख दिया गया है तो बिंग अनुवाद में भी कुछ शब्दों का
वैसे ही अनुवाद किया गया है।
उपर्युक्त अनूदित वाक्य और टेबल में गूगल और माइक्रोसॉफ्ट बिंग द्वारा अनूदित वाक्यों
(शब्द) को रेखांकित करने से त्रुटियों का विवरण मिलता है, जिसमें यह ज्ञात होता है कि दोनों मशीनी अनुवाद
तंत्र द्वारा अनुवाद कितना प्रतिशत सही प्राप्त हुआ है।
4.
परिणाम व उपयोगिताएं
इस आलेख
में, 2000 वाक्य
में से कुछ प्रमुख वाक्य के त्रुटि विश्लेषण से यह स्पष्ट होता है कि मशीनी अनुवाद के तंत्र में अधिक सुधार
और विकास
करने की आवश्यकता है।
·
गूगल का अनुवाद अधिक मात्रा में (60 प्रतिशत) सही पाया गया है, तो 20 प्रतिशत संदिग्ध अनुवाद और 15 प्रतिशत गलत अनुवाद पाया गया है। अनुवाद में अर्थ को बनाए रखने के लिए कुछ अननूदित वाक्यों
को यह तंत्र देवनागरी में (5 प्रतिशत) लिप्यंतरित करता है।
·
बिंग माइक्रोसॉफ्ट का अनुवाद 50 प्रतिशत ही बोधगम्य (comprehensible) हुआ
है। संदिग्ध अनुवाद 15 प्रतिशत है तो गलत अनुवाद का प्रतिशत 35 है।
·
विशेषत: विषय, वस्तु या स्थान के नाम का भी अनुवाद
अंग्रेजी में किया है, जिससे अनुवाद गलत होता है। लघु वाक्य का अनुवाद दोनो तंत्र अधिकांश
रूप से सही करते है।
·
इन तंत्रों से प्राप्त हिंदी से अंग्रेजी वाक्य में अधिकतर
हिंदी के शब्दों को देवनागरी में लिप्यंतरित किया है तो कुछ शब्दों का अनुवाद रोमन
में प्रदान करता है, इसलिए इसमें हिंदी और अंग्रेजी की शब्दावली में सुधार करने के
साथ अर्थ में स्पष्टता होनी चाहिए।
इस त्रुटि विश्लेषण के मूल्याकंन और परिणाम से यह
स्पष्ट होता है की मशीन द्वारा अनुवाद अधिक सफल दिशा में प्रयास है। विश्व में
विभिन्न मशीन अनुवाद के तंत्र सही अनुवाद कर रहे है, इसी तरह गूगल और माइक्रोसॉफ्ट
ट्रान्सलेटर का योगदान अनुवाद के क्षेत्र में बहुत महत्वपूर्ण है।
5.
मशीनी अनुवाद तंत्र को उन्नत बनाने के लिए सुझाव
- म.अनु. तंत्र में की सफलता के लिए दोनों भाषाओं की भाषाई सामग्री (Corpus) का विकास करना आवश्यक है, जिसमें भाषा के शब्दकोश (Lexicon) को अधिक विस्तृत बनाया
जाना चाहिए।
- यदि नियम आधारित पद्धति से
मशीनी अनुवाद प्रणाली का निर्माण किया गया है तो इसमें इसके व्याकरण संबंधी
नियमों को और अधिक स्पष्ट बनाना चाहिए और भाषा में हो रहे प्रयोगों को अधिक
से अधिक नियम के रूप में बनाकर व्याकरण में देना चाहिए।
- यदि सांख्यिकी आधारित अनुवाद प्रणाली हो तो
अनुवाद के लिए अधिक से अधिक सभी क्षेत्रों का प्रतिनिधित्व करने वाला कॉर्पोरा
का समावेश करना चाहिए।
- बहुअर्थकता की समस्या के
लिए संदर्भ को समझने योग्य प्रणाली विकसित करने का प्रयास करना चाहिए।
- भाषाओं की व्याकरण संबंधी सभी विशेषताओं को ध्यान में रखते हुए दृढ और सुस्पष्ट नियम तैयार किए जाएंगे, तो अनुवाद सही रूप से निर्गत हो पाएगा।
6.
निष्कर्ष
मशीन द्वारा अनुवाद की दिशा में ये तंत्र अनुवाद करने में
सक्षम हैं, लेकिन अनुवाद में त्रुटियॉ हो जाती हैं। इन त्रुटियों के विवरण और विश्लेषण से देखा जा सकता है कि प्रत्येक भाषा की
संरचना, साहित्य, संस्कृति एक भाषा से दूसरी भाषा से भिन्न है, इसलिए अनुवाद में
शब्द, वाक्य, और अर्थ के स्तर पर भिन्नता पायी जाती है, लेकिन मशीन में अनुवाद के लिए विशिष्ट
एक क्षेत्र के भाषा सामग्री को संचालित कर किसी एक क्षेत्र में, मशीन द्वारा सही
अनुवाद प्राप्त किया जा सकता है, जिसमें मशीन के अनुवाद करने की गुणवत्ता और
शुध्दता को अधिक विकसित किया जा सकता है।
संदर्भ ग्रंथ-सूची
1.
[1] भारतीय भाषा कार्पोरा उपक्रम, यह परियोजना विशिष्ट संस्कृत अध्ययन केंद्र, जवाहरलाल नेहरू विश्वविद्यालय,नई दिल्ली में डाँ. गिरीश नाथ झा के निर्देशन में चलायी जा रही है। यह परियोजना भारत सरकार के सूचना प्रौद्योगिकी विभाग द्वारा वित्तपोषित है।
* मशीन का प्रयोग कंप्यूटर के संदर्भ में है। जिसका प्रयोग हिंदी में भाषा प्रौद्योगिकी के विषय में किया जाता है।
[2] ‘कॉर्पस’ कॉर्पोरा का बहुवचन रूप है। कॉर्पोरा मूलत: किसी भी भाषा के सामग्री का लिखित या मौखिक रूप होता है, जिसमें किसी भाषा के शब्द तथा वाक्यों को संग्रहित रूप में रखा जाता है। यह भाषा की सामग्री, संबंधित व्यवहार क्षेत्रो में प्रयुक्त भाषा के रूपों का प्रतिनिधित्व करती है। इस व्यवहार क्षेत्र में शब्दावली, अभिव्यक्ति, वाक्य रूप, शैली रूप, मुहावरे, प्रयुक्तियाँ और भाषिक विशिष्टताएं आदि का समावेश होता है।
[4] http://www.bing.com/translator (02.11.12)
गुरु, गुरु, कामता प्रसाद (1920) : हिंदी व्याकरण, काशी नागरी प्रचारिणी सभा, काशी ।
2 पाण्डेय, राम कमल (1985) : त्रुटि विश्लेषण: सिध्दांत और व्यवहार, केन्द्रीय हिन्दी संस्थान, आगरा।
3. सिंह, सूरजभान (2003) : अंग्रेजी-हिंदी अनुवाद व्याकरण,
प्रभात प्रकाशन, नई दिल्ली ।
.
सिंह, सूरजभान (2000) : हिंदी का वाक्यात्मक व्याकरण,
साहित्य सहकार, नई दिल्ली ।
Bharti Akshar, Chaitanya Vineet, Sangal Rajeev. (2000) : Natural Language Processing : a Paninian Perspective, Prentice –Hall of India, New Delhi.
Chomsky, N. (1957): Syntatactic Structure,
The Hagun Mounton.
Dorr, Bonnie (1993): Machine Translation a view
from the lexicon, The MIT Press, USA.
8. Kachru,
Yamuna (1966): An Introduction to
Hindi Syntax, The University of Illinois, Urbana.
9. Kachru, Yamuna (1980) : Aspects
of Hindi Grammar, Manohar
Publications, New Delhi
Sinha, K.Binod (1986): Contrastive
Analysis of English and Hindi Nominal Phrase, Bahari Publications, New
Delhi.
Slocum,
Jonathan (ed.), (1988): Machine Translation Systems, Cambridge
University Press, New York.
Sara Stymne. 2011. Blast: A Tool
for Error Analysis of Machine Translation Output. In Proceedings
of ACL, pages 56-61,
Portland, Oregon, USA.
13.
Verma,
M.K. (1971): The Structure of Noun Phrase in English and Hindi, Motilal
Banarsidass, Delhi.
14.
ILCI Corpora, Indian
Language Corpora Initiative, Special Centre for Sanskrit Studies, Jawaharlal Nehru University, New Delhi
[Published in ‘Samkalin Vaigyanik Anusandhan’ (edit. board), DRDO publication, (Min. of Defence) Delhi, 2013, ISBN:9788186514382]
No comments:
Post a Comment