यूनिकोड अपनाइये, क्यों और कैसे

अनुराग शर्मा

पिछले अंक में "कृपया सही लिखें" आलेख में हमने हिंदी लिखते समय ध्यान देने योग्य सावधानियों तथा सामान्य भूलों की ओर आपका ध्यान आकृष्ट किया था। उसी शृंखला में आज हम यूनिकोड (Unicode) की चर्चा कर रहे हैं। आपकी प्रिय पत्रिका सेतु को आप तक पहुँचाने का श्रेय यूनिकोड को ही जाता है। सेतु में हम यूनिकोड वर्णों का प्रयोग करते हैं और अपने लेखकों से भी यही अनुरोध करते हैं कि वे अपनी रचनाएँ हमें यूनिकोड में ही भेजें। हमारे कुछ लेखकों और पाठकों की जिज्ञासा को ध्यान में रखते हुए इस आलेख में हम देखेंगे कि यूनिकोड में काम करना क्यों श्रेयस्कर है और यह पुराने तरीकों से किस प्रकार भिन्न है। आइये पढ़ें इस विषय से सम्बंधित महत्वपूर्ण जानकारी।
अनुराग शर्मा

ग्लिफ़ (Glyph, चिह्न)

किसी भी अक्षर का कागज़, मॉनिटर या किसी भी माध्यम पर उकेरा हुआ वह चिह्न या चित्र, जो आपको उस अक्षर की पहचान कराता है, ग्लिफ़ कहलाता है। उदाहरण के लिये A से आपको अंग्रेज़ी के एक अक्षर का भान होता है और श्री से हिंदी के एक शब्द का। ये दोनों ही स्वरूप ग्लिफ़ के उदाहरण हैं। हाथ की लिखाई के दिनों में भी क़ातिब लोग अक्षरों के अलग-अलग स्वरूप प्रयोग में लाते थे जो ग्लिफ़ के ही उदाहरण हैं। कम्प्यूटर में लिखे गये किसी अक्षर, संयुक्ताक्षर, या व्याकरण चिह्न आदि के लिये ग्लिफ़ उसका वह स्वरूप है जिसमें वह अक्षर आपसे साक्षात होता है। उदाहरण के लिय क्ष अक्षर को आप उसके ग्लिफ़ से पहचानते हैं, परंतु कम्प्यूटर के लिये वह एक नहीं तीन चिह्नों का सम्मिलित रूप है। कम्प्यूटर उसे एक ग्लिफ़ क्ष में दर्शाने के बावजूद, यूनिकोड 04425 (वर्ण क), यूनिकोड 04515 (चिह्न ्) तथा यूनिकोड 04467 (वर्ण ष) की श्रंखला के रूप में पढ़ता और लिखता है। कई बार दो अक्षर एक दूसरे से भिन्न होते हुए भी देखने में एक से लग सकते हैं, जैसे नागरी का विरामचिह्न और अंग्रेज़ी का बड़ा आई, या विसर्ग और अपूर्ण विराम (Colon :) के चिह्न। ग्लिफ़ में समरूपता होते हुए भी कम्प्यूटर के लिये ये अक्षर ऐसे भिन्न हैं जैसे दो अलग-अलग व्यक्तियों ने एक जैसा मुखौटा लगाया हो। निम्न चित्र में हिंदी के तीन अक्षरों (अ, ण तथा झ) के कम्प्यूटरपूर्व काल के दो प्रकार के ग्लिफ़ के हस्तलिखित उदाहरण हैं:

फ़ॉण्ट (Font, छाप या मुद्रा)

फ़्रांसीसी मूल के शब्द फ़ॉण्ट का शाब्दिक अर्थ ढलाई है। योहान गटॅनबर्ग के छपाई यंत्र के साथ ही फ़ॉण्ट का जन्म हुआ। छापेखाने के दिनों में प्रत्येक फ़ॉण्ट परिवार का एक विशिष्ट आकार-प्रकार होता था। फ़ॉण्ट अक्षरों को किसी विशिष्ट शैली में बांधते हैं। एक फ़ॉण्ट परिवार में हर ग्लिफ़ के लिये एक निश्चित आकार-प्रकार-भार का टुकड़ा निर्धारित होता है।

जहाँ अंग्रेज़ी भाषा के प्रकाशकों व मुद्रकों ने मानक ग्लिफ़ का प्रयोग करके विभिन्न मानक फ़ॉण्ट बनाये, नागरी की जटिलता, संसाधनों की कमी और हिंदी के मुद्रकों की कामचलाऊ/जुगाड़ू प्रवृत्ति के संयोग ने गफ़लत की हास्यास्पद स्थितियाँ भी पैदा कीं। उदाहरण के लिये हिंदी छपाई में ह्न, ह्व और स्र ढालने के बजाय क्रमशः न्ह, व्ह और स्त्र का इतना प्रयोग किया कि शब्दों के उच्चारण तक बिगड़ गये। लोग चिह्न को चिन्ह, सहस्र को सहस्त्र, और आह्वान को आवाहन कहने लगे। इसी प्रकार कितनी ही पुस्तकों में विसर्ग और अनुस्वार ही गायब दिखते हैं।

कम्प्यूटर के आने से फ़ॉण्ट और ग्लिफ़ का अंतर कम हो गया है और सामान्यजन इन्हें लगभग एक ही समझने लगे हैं, लेकिन ये एक हैं नहीं।

यूनिकोड-पूर्व काल

यूनिकोड के आगमन से पहले कम्प्यूटर प्रयोगकर्ताओं के लिये केवल अंग्रेज़ी के अक्षर (रोमन/लैटिन) ही उपलब्ध थे जिनमें आस्की (ASCII = American Standard Code for Information Interchange) निर्धारित चिह्नों का प्रयोग होता था। आस्की कुंजीपटल में सीमित संख्या के चिह्न (अधिकतम 256) मौजूद थे। इन चिह्नों में सामान्य कुंजीपटल पर दिखने वाले सभी दशमलव अंक, लैटिन/रोमन के छोटे-बड़े अक्षर, व्याकरण चिह्न, गणितीय चिह्न, मुद्रा चिह्न ($, £ आदि), टैब, खालीस्थान, कोष्ठक, बैकस्पेस, एंटर, प्रिंट, लाइनफ़ीड आदि जैसे संकेतों के साथ कई ऐसे चिह्न भी थे जो कुंजीपटल पर न होते हुए भी आवश्यकता पड़ने पर प्रयुक्त किये जा सकते थे। उदाहरण के लिये τ, δ जैसे ग्रीक अक्षर या ⌠, ≈, °, ± जैसे गणितीय चिह्न। इन चिह्नों की व्यवस्था को अमेरिकी राष्ट्रीय मानक संस्थान ऐन्सी (ANSI = American National Standards Institute) द्वारा मानकीकृत किया गया।

उस समय कम्प्यूटर में रोमन या ग्रीक से इतर लिपि को सीधे-सीधे लिखना सम्भव नहीं था। अत: हिंदी जैसी भाषा लिखने के लिये अक्सर एक युक्ति का प्रयोग किया जाता था। इस युक्ति में सामान्यतः प्रत्येक हिंदी स्वरूप को कम्प्यूटर में मौजूद 256 चिह्नों में से किसी न किसी चिह्न से सम्बंधित कर दिया गया और ऐसे फ़ॉण्ट विकसित किये गये जो ऐन्सी चिह्नों को नागरी चिह्नों के जैसे दिखा सकें। दूसरे शब्दों में कहें तो आस्की अक्षरों को नागरी के ग्लिफ़ उधार दे दिये गये। ध्यान रहे कि कम्प्यूटर में वह अक्षर अभी भी हिंदी का न होकर कोई ऐन्सी अक्षर ही था लेकिन देखने वाले को उसका स्वरूप नागरी की वर्णमाला के अक्षर जैसा दिखता था। लिखकर छाप देने जैसे कार्यों के लिये यह युक्ति उतनी बुरी नहीं थी लेकिन यह तभी काम करती जब पढ़ते समय भी ऐन्सी को नागरी जैसा दिखाने वाला वही प्रोग्राम या फ़ॉण्ट लागू हो जो लिखते समय प्रयुक्त किया गया था। अलग-अलग प्रोग्राम एक दूसरे से स्वतंत्र थे। इनके बीच के कुछ अंतर तो सैद्धांतिक थे, यथा अंकों का कौन सा स्वरूप प्रयुक्त हो, अ, झ या ण का कौन सा स्वरूप मान्य हो, विरामचिह्न परम्परागत हो या बिंदु का प्रयोग भी चल जायेगा, आदि। लेकिन बड़ी समस्या इन फ़ॉन्टों के निर्माताओं के आपसी सामंजस्य के अभाव की थी। यदि इन युक्तियों के लेखन को कॉपी पेस्ट किया जाता तो वह अपने वास्तविक (लैटिन/ग्रीक/ऐन्सी) स्वरूप में आ जाता। यह युक्ति जटिल थी, कठिन थी, साथ ही सुवाह्य भी नहीं थी।

यूनिकोड

यूनिकोड ने कुंजी-चिह्नों के आधार को बड़ा कर दिया। पहले के 256 खानों की अपेक्षा यूनिकोड में 10 लाख अनूठे चिह्न रखने की सुविधा है। यूनिकोड में प्रत्येक चिह्न को एक विशेष संख्या से सम्बंधित किया गया है। दस लाख सम्भावनाओं के कारण यूनिकोड में संसार भर की मानक लिपियों को एक साथ चलाया जा सकता है। इसमें लिखे गये चिह्न कम्प्यूटर के विभिन्न कार्यक्रमों, युक्तियों और भाषाओं में एक से ही रहेंगे और उन्हें पढ़ने के लिये किसी विशिष्ट कार्यक्रम को चलाने की आवश्यकता नहीं है। हाँ कुंजीपटल अभी भी सीमित ही है, सो उसे कीबोर्ड लेआउट की सहायता से बदला जा सकता है। अभी भी विभिन्न फ़ॉन्ट का प्रयोग सम्भव है और यूनिकोड फ़ॉन्ट एक साथ सभी लिपियों में लिख सकते हैं। विभिन्न भाषाएँ पढने के लिये आपको कुछ करने की आवश्यकता नहीं है, क्योंकि जो जैसा लिखा गया है, वैसा ही पढ़ा जाना है। आपको अपने कम्प्यूटर या फ़ोन आदि यंत्र में अपनी पसंद की भाषा चुनकर उसे लिखने के लिए केवल उपयुक्त लेखन-सुविधा आईएमई (IME = इनपुट मेथड एडिटर) सक्षम करनी पड़ती है।

इस आलेख में आपने ग्लिफ़, फ़ॉण्ट, आईएमई, तथा यूनिकोड के बारे में जाना। यदि आपने अब तक यूनिकोड का प्रयोग नहीं किया है तो अब उसका प्रयोग आरम्भ कीजिये। दो प्रचलित आईएमई के लिंक निम्न हैं:
गूगल
माइक्रोसॉफ़्ट

यूनिकोड की खूबी यही है कि कोई अक्षर आपने चाहे गूगल के आईएमई का प्रयोग करके लिखा हो, चाहे माइक्रोसॉफ़्ट के आईएमई का या चाहे वह आपके यंत्र में लगे हुए हिंदी कीबोर्ड से लिखा गया हो, वह रोमन आदि का अक्षर न होकर सचमुच का नागरी अक्षर ही रहेगा जिसे कहीं भी कॉपी या पेस्ट करने पर भी वह किसी अन्य लिपि के अक्षर या चिह्न में रूपांतरित नहीं होगा।

गूगल इंडिक इनपुट

गूगल इंडिक डाउनलोड पृष्ठ

इंडिक आईएमई

विंडोज़ कम्प्यूटरों के लिये गूगल व माइक्रोसॉफ़्ट जैसी बड़ी कम्पनियों ने अलग-अलग आईएमई विकसित किय हैं। जिनमें माइक्रोसॉफ़्ट का इंडिक आईएमई नये लोगों के प्रयोग के लिये अत्यंत सरल है। इसे भाषाइंडिया की वैबसाइट से डाउनलोड किया जा सकता है। यह ध्वन्यात्मक है अर्थात, ट्रांसलिटरेशन के सिद्धांत पर कार्य करता है। इसके द्वारा नागरी लिखने की युक्ति नीचे की तालिकाओं में दी गई है। इस तालिका की सहायता से आप हिंदी, नेपाली, मराठी आदि भाषाएँ आराम से लिख सकते हैं और संस्कृत भी सामान्यतः लिखी जा सकती है।

इंडिक आईएमई द्वारा देवनागरी ध्वन्यात्मक (फ़ोनेटिक) ट्रांसलिटरेशन टंकण के लिये निम्न सारणियों में ऊपर आपके कुंजीपटल पर छपे हुए अक्षर दिये गए हैं और उन्हें दबाने पर बनने वाले नागरी के अक्षर नीचे दिये गये हैं। उदाहरण के लिये यदि आप एक ही बार में OM लिखेंगे तो वह ॐ बन जायेगा। इसी shree प्रकार लिखने पर श्री लिखा जायेगा।

यह आलेख भी मैंने माइक्रोसॉफ़्ट के इंडिक आईएमई को प्रयोग करके लिखा है। इसमें भारतीय अंकों के अंतर्राष्ट्रीय स्वरूप का प्रयोग किया गया है तथा पाइप कुंजी से विराम चिह्न बन जाता है। इसके प्रयोग से ध्वन्यात्मक रूप से हिंदी लिखने के लिये आप निम्न सारणियों की सहायता ले सकते हैं।

स्वर
व्यञ्जन
मात्राएँ व चिह्न

उर्दू के अधोबिंदु