‘डीपफेक’ नावाच्या नव्या प्रकारामुळे सगळीकडे खळबळ माजलेली असल्यामुळे हा प्रकार नेमका आहे तरी काय, याविषयी अनेकजणांच्या मनात खूप कुतूहल आहे. काहीतरी गोलमाल करून प्रत्यक्षात नसलेल्या गोष्टी, त्या तशा आहेत असा भासवण्याचा हा प्रकार आहे; इतपत बऱ्याच लोकांना माहीत असतं.
अतुल कहाते
‘डीपफेक’ हा प्रकार अत्यंत धोकादायक आहे. यामुळे एखाद्या व्हिडिओमध्ये मूळ व्यक्तीखेरीज अन्य कुणीही असल्याचं भासवणं शक्य होतं. एआय तंत्रज्ञानाच्या वापराविषयी नियमावली असावी अशा चर्चा सुरू आहेत.
आंतरराष्ट्रीय पातळीवरही त्याबद्दल बोललं जातं. यातून काय निष्पन्न होईल याची अजून कुणालाच कल्पना नाही. तसंच या सगळ्याला वेसण घालणं जवळपास अशक्य आहे असं आत्तातरी स्पष्टपणे दिसतंही. म्हणूनच स्वसंयम, अतिशेअरिंग टाळणं आणि समोर येईल त्यावर डोळे झाकून विश्वास न ठेवता त्याची चिकित्सा करणं ही त्रिसूत्री वापरण्याखेरीज सध्या तरी दुसरा पर्याय दिसत नाही!
‘डीपफेक’ नावाच्या नव्या प्रकारामुळे सगळीकडे खळबळ माजलेली असल्यामुळे हा प्रकार नेमका आहे तरी काय, याविषयी अनेकजणांच्या मनात खूप कुतूहल आहे. काहीतरी गोलमाल करून प्रत्यक्षात नसलेल्या गोष्टी, त्या तशा आहेत असा भासवण्याचा हा प्रकार आहे; इतपत बऱ्याच लोकांना माहीत असतं.
प्रत्यक्षात हे कसं शक्य आहे? हा कळीचा मुद्दा मात्र थोडासा बाजूला पडतो. आधुनिक तंत्रज्ञानाविषयी सखोल माहिती मिळवली तरच हे समजू शकेल, अशी काही जणांची समजूत आहे. प्रत्यक्षात मात्र तसं नाही. या तंत्रज्ञानाची पार्श्वभूमी अगदी कुणालाही सहजपणे समजू शकेल अशी आहे.
‘डीपफेक’ यात दोन शब्द आहेत - ‘डीप’ आणि ‘फेक’. यातलं ‘डीप’ आलं आहे ‘डीप लर्निंग’ नावाच्या संकल्पनेतून. ‘फेक’ म्हणजे अर्थातच बनावट. म्हणजेच ‘डीप लर्निंग’च्या तंत्रज्ञानाचा गैरवापर करून काहीतरी बनावट तयार करणं आणि ते खरंच आहे असं भासवणं म्हणजे ‘डीपफेक’.
काहीतरी बनावट तयार करणं आणि ते खरं आहे असं भासवणं, हा प्रकार काही नवा नाही. कित्येक शतकांपासून असंख्य लफंग्यांनी हे उद्योग केलेलेच आहेत.
उदाहरणार्थ, जमिनीच्या व्यवहारांची बनावट कागदपत्रं, आपण सरकारी अधिकारी किंवा पोलिस अधिकारी आहोत असं भासवणारी ओळखपत्रं, लग्न केल्याचे बनावट पुरावे, बनावट जन्मदाखले, जातींचे बनावट पुरावे अशी असंख्य कागदपत्रं तयार करून फसवणूक करण्याचे प्रयत्न केव्हापासून होताहेत.
यात भर म्हणून आपलं अमुक एकाशी तरी लग्न झालेलं आहे, असं भासवण्यासाठी दोन फोटो जोडून बनावट फोटो तयार करणं, एखाद्या फोटोमध्ये आपण प्रत्यक्षात नसलो तरी त्या फोटोमध्ये काहीतरी फेरफार करून आपला फोटो त्यात बेमालूमपणे मिसळणं असेही प्रकार काहीजण करतात. याचंच आधुनिक आणि अत्यंत धोकादायक रूप म्हणजे ‘डीपफेक’.
‘डीपफेक’ तंत्रज्ञानात बनावट मजकूर आणि बनावट फोटो यांच्या पुढची पायरी असते; ती म्हणजे बनावट व्हिडिओची. उदाहरणार्थ, एखाद्या राजकीय नेत्यानं एखादं भाषण केलेलंच नसतं. ते भाषण दुसऱ्याच कुणीतरी केलेलं असतं.
त्या मूळ भाषणाचा व्हिडिओ बदलून त्याठिकाणी वेगळ्याच राजकारण्याची छबी, त्याचा आवाज वापरणं म्हणजे ‘डीपफेक’ होऊ शकतं. अर्थातच मूळ व्हिडिओमध्ये असे बदल करायचे म्हटलं, तरी हे बदल किंवा ही भेळमिसळ अत्यंत चपखल वाटायला हवी. म्हणजेच या व्हिडिओमध्ये काहीतरी गडबड आहे, आवाज जुळत नाही, हालचाली जुळत नाहीत, चेहरा जुळत नाही असं काहीही बघणाऱ्याला जाणवायला नको.
म्हणजेच ‘डीपफेक’ तयार करणं तसं येऱ्यागबाळ्याचं काम नाही. असं असेल तर ते तंत्रज्ञानाला कसं जमू शकतं? हे समजून घेण्यासाठी एक उदाहरण घेऊ.
समजा आपल्याकडे माणसांचे चेहरे असलेली लाखो छायाचित्रं आहेत आणि त्याच माणसांचं चेहऱ्याखालचं शरीर, म्हणजे धड असलेलीही लाखो छायाचित्रं आहेत.
यातला कुठलाही चेहरा घ्यायचा आणि त्याखाली कुठलंही धड ठेवून बघायचं असला विचित्र प्रकार आपण करत आहोत; असं समजू. हे करत असताना साहजिकच आपल्याला यामधले चेहरा-धड असे कित्येक जोड अत्यंत विजोड असल्याचं जाणवेल.
म्हणजेच संबंधित चेहरा आणि धड यांची अजिबातच जुळणी होऊ शकत नाही; किंवा ते दोन एकमेकांपेक्षा कमालीचे वेगळे दिसत असल्याचं अगदी स्पष्टपणे दिसून येईल. असं असलं तरी याच्याच जोडीला इतर काही चेहरे आणि त्याखालची धडं ही मात्र बऱ्यापैकी जुळणारी वाटतील. म्हणजेच माणसाचा चेहरा आणि त्याचं धड हे एकाच मूळ माणसाचं असेल असं नाही.
दुसऱ्याच माणसाचं धड तिसऱ्याच माणसाच्या चेहऱ्याखाली एकदम तंतोतंत जुळल्यासारखं वाटेल. साहजिकच एखाद्या माणसानं आयुष्यात कधीही न घातलेले कपडे त्यानं घातले आहेत असं आपण आता भासवू शकू.
कारण त्या माणसाचा चेहरा भलत्याच माणसाच्या धडाशी अगदी बरोबर जुळल्यासारखा भासत असल्यामुळे असा बेमालूमपणे जुळवलेला फोटो बघणाऱ्या माणसाला खरोखरच हा त्या माणसाचा फोटो असल्याची खात्री पटेल.
अर्थातच हे झालं काही फोटोंचं. तेसुद्धा खूप खटाटोप केल्यानंतर एखाद्यावेळी जमू शकेल. व्हिडिओचं काय? एखाद्या व्हिडिओमध्ये मूळ माणसाचा चेहरा गायब करून त्याठिकाणी भलत्याच माणसाचा चेहरा कसा ‘बसवायचा’? यासाठी मूळ व्हिडिओमध्ये मूळ माणसानं केलेल्या सगळ्या हालचाली, त्याची देहबोली हे सगळं तंतोतंत जुळणाऱ्या प्रतिमा आपल्याला इतर कुठल्या माणसाच्या असंख्य व्हिडिओंमधून शोध घेऊन मिळवाव्या लागतील.
हे अत्यंत कठीण आणि जवळपास अशक्यच आहे. काहीतरी खटाटोप करून हे सगळं मिळवलं, तर आपल्याला मूळ व्हिडिओ ‘एडिट’ करून त्यात मूळ माणसाच्या चेहऱ्याच्या ठिकाणी दुसऱ्या माणसाचा चेहरा प्रत्येक तुकड्यात म्हणजेच ‘फ्रेम’मध्ये ‘बदली करावा’ लागेल.
जगातल्या भल्याभल्या तज्ज्ञांनाही यासाठी अपार कष्ट घ्यावे लागतील आणि एवढं करूनही यातून तयार होणारा व्हिडिओ कितपत अस्सल वाटेल याविषयी शंकाच असेल. यात नक्कीच काहीतरी गडबड आहे, असं तो व्हिडिओ बघणाऱ्यांना जाणवेल. मग अशा वेळी एआयची मदत घेतली जाते.
अलीकडे जिथं साचेबद्ध प्रकारचं किंवा थकवणारं किंवा आपले श्रम वाचवणारं अशा प्रकारचं काम असेल, त्याठिकाणी आपल्याऐवजी हे काम संगणकावर सोपवण्याची अत्यंत उपयुक्त सोय निघालेली आहे.
तिचं नाव अर्थातच ‘आर्टिफिशयल इंटेलिजन्स (एआय)’. अल्लाउद्दीनच्या जादूच्या दिव्यासारख्या या तंत्रज्ञानामुळे माणसानं स्वतः प्रयत्न करून चेहऱ्यांची अदलाबदल करणाऱ्या ‘डीपफेक’ व्हिडिओंची निर्मिती करण्याऐवजी या तंत्रज्ञानावर ते काम सोपवणं शक्य झालं आहे. पण हे नेमकं घडतं कसं?
मशिन लर्निंग
संगणकाला कसं शिकवायचं, या प्रश्नावर अनेक महान लोकांनी काथ्याकूट केलेला आहे. यासाठी सुरुवातीला खूप क्लिष्ट प्रकारचे नियम केले जात. हे नियम संगणकाला सांगितले जात. त्या नियमांच्या आधारे संगणक ‘शिकण्याचा’ प्रयत्न करत असे. यात मोठा बदल झाला तो ‘मशिन लर्निंग’च्या आगमनामुळे.
माणसानं नियम तयार करून ते नियम संगणकांना घालून देण्याच्या कटकटीतून यामुळे सुटका झाली. त्याऐवजी संगणकाला भरपूर माहिती पुरवायची आणि त्यालाच त्या माहितीच्या आधारे शिकायला सांगायचं; असं याचं स्वरूप झालं. हे समजून घेण्यासाठी एक सोपं उदाहरण घेऊ. अनेक लोक क्रेडिट कार्ड वापरतात.
क्रेडिट कार्डचा वापर होत असताना त्यामधला नेमका कोणत्या प्रकारचा व्यवहार खरा क्रेडिट कार्डधारक करतो आहे आणि कोणता व्यवहार क्रेडिट कार्ड चोरून भलताच कोणीतरी करतो आहे, हे एआयद्वारे कसं ओळखायचं? यासाठी आधी कुठला व्यवहार खरा आणि कुठला खोटा हे ठरवण्यासाठी प्रचंड विचार करून, अनेक शक्यता पडताळून खूप क्लिष्ट नियम तयार करावे लागत.
हे नियम संगणकांना समजतील अशा प्रकारे संगणकांमध्ये ‘भरावे’ लागत. ‘मशिन लर्निंग’मध्ये मात्र हे काम खूप सोपं होऊन जातं. आता आपण संगणकामध्ये आत्तापर्यंत झालेल्या क्रेडिट कार्डांच्या व्यवहारांचे तपशील भरून टाकायचे. त्यात योग्य आणि चोरांनी केलेले अशा दोन्ही प्रकारचे व्यवहार असणार.
त्यानंतर आपण संगणकाला सांगायचं; ‘बाबा रे, ही माहिती वाच आणि नेमके कुठले व्यवहार योग्य असतात आणि कुठले व्यवहार चोरांनी केलेले असतात हे तुझं तूच शोध... तूच यासाठीचे नियम तयार कर आणि त्यानंतर तूच मला पुढच्या क्रेडिट कार्डाच्या व्यवहाराच्यावेळी सांग – तो योग्य वाटतो की चोरट्याचा वाटतो...’
याचप्रमाणे एखाद्या चित्रात कुत्रा हा प्राणी आहे हे संगणकाला शिकवण्यासाठी कुत्रा कसा दिसतो याविषयीचे हजारो नियम संगणकाला शिकवणं आता गरजेचं राहिलं नाही. त्याऐवजी कुत्र्याची हजारो चित्रं संगणकाला पुरवायची.
त्यातून कुत्रा नेमका कसा दिसतो आणि त्याच्या शरीराचे अवयव, त्यांची रचना, त्यांच्यामधले बारकावे हे सगळं संगणक स्वतःच शिकून घेतो. त्यानंतर आपण त्याला एखादं चित्र दाखवल्यावर तो कुत्रा आहे का नाही, हे तो आपल्याला अचूकपणे सांगतो. याला म्हणतात ‘मशिन लर्निंग’.
डीप लर्निंग
या ‘मशिन लर्निंग’ची एक उपशाखा जन्मली. तिचं नाव ‘डीप लर्निंग’. माणसाच्या मेंदूमध्ये न्यूरॉन हा घटक महत्त्वाची भूमिका बजावतो. असे असंख्य न्यूरॉन एकमेकांशी संवाद साधत माणसाला शिकायला, विचार करायला, निर्णय घ्यायला मदत करतात.
उदाहरणार्थ, समोरच्या चित्रामधला प्राणी कुत्रा आहे हे ओळखण्यासाठी त्याचा आकार, त्याच्या शरीराची एकंदर रचना, त्याची उंची, कान, डोळे, शेपटी, बांधा अशा असंख्य गोष्टी तपासून न्यूरॉन एकमेकांना भराभर संदेश देऊन हा कुत्राच असल्याचं ठरवतात. अर्थातच यासाठी आपण आधी बघितलेल्या कुत्र्यांविषयीची माहिती आपल्या मेंदूत साठवलेली असते.
ही माहिती हे न्यूरॉन तपासतात. नेमकं अशाच प्रकारचं काम संगणकाकडून करून घेण्यासाठी ‘डीप लर्निंग’ तंत्रज्ञानाची मदत घेतली जाते. इथेही मानवी मेंदूमधल्या न्यूरॉनसारखे छोटेछोटे सॉफ्टवेअर प्रोग्रॅम असतात.
ते एकमेकांना मदत करत करत कुठल्याही कूट प्रश्नाची उकल करतात. म्हणून अशा प्रकारच्या सॉफ्टवेअरला ‘न्यूरल नेटवर्क’ असं म्हणतात. या ‘न्यूरल नेटवर्क’च्या आधारे ‘डीप लर्निंग’च्या तंत्रज्ञानाचा वापर माहितीचे अफाट साठे उचकटून त्यातून हवं ते सार काढून अत्यंत क्लिष्ट प्रश्नांची उत्तरं देण्यासाठी केला जातो.
चित्रं ओळखणं, आवाज कुणाचा हे ओळखणं, अत्यंत लवचिक अशा मानवी भाषांमधल्या क्लिष्ट वाक्यरचना उलगडून वाक्यांचा नेमका अर्थ लावणं अशी अतिशय कठीण कामगिरी ‘डीप लर्निंग’चं तंत्रज्ञान करू शकतं.
साहजिकच या ‘डीप लर्निंग’ या तंत्रज्ञानाचा गैरवापरही होऊ शकतो. हा गैरवापर करणारा या तंत्रज्ञानाला एखाद्या विखारी भाषणाची जेमतेम मिनिटभराची व्हिडिओ क्लिप देतो. त्याला सांगतो, ‘बाबा रे, हे भाषण नीट बघ. त्यानंतर या भाषणामधल्या व्हिडिओच्या फ्रेम बदल.
प्रत्येक फ्रेममध्ये मूळ भाषणामधला चेहरा बदलून त्याठिकाणी एखाद्या राष्ट्रप्रमुखांचा चेहरा लाव.’ या तंत्रज्ञानाकडे राष्ट्रप्रमुखांच्या हजारो भाषणांचे आणि व्हिडिओंचे साठे असल्यामुळे मूळ भाषणाच्या कुठल्या फ्रेमच्या ठिकाणी राष्ट्रप्रमुखांच्या कुठल्या भाषणामधली किंवा व्हिडिओमधली फ्रेम चपखल बसेल याचा ते शोध घेऊ शकतं.
यासाठी एकेका मूळ फ्रेमच्या जागी राष्ट्रप्रमुखांच्या भाषणामधल्या किंवा व्हिडिओमधल्या लाखो फ्रेमचा वापर करून बघू शकतं आणि त्यामधली नेमकी कुठली फ्रेम योग्य आहे, हे ठरवू शकतं. असं एकेका फ्रेमच्या बाबतीत करत गेल्यानंतर जवळपास सगळ्या मूळ फ्रेमऐवजी राष्ट्रप्रमुखांची फ्रेम बसवली जाईल. त्यानंतर व्हिडिओ ‘एडिट’ केला जाईल.
उदाहरणार्थ, काही फ्रेममध्ये राष्ट्रप्रमुखांनी लाल रंगाचा टाय घातल्याचं दिसत असेल, तर काही ठिकाणी तो निळ्या रंगाचा असू शकेल. याचं कारण म्हणजे त्यांच्या निरनिराळ्या भाषणांमध्ये किंवा व्हिडिओमध्ये त्यांनी काही कायमच एकाच रंगाचे टाय घातलेले असतील असं नाही.
ही सगळी प्रक्रिया दर वेळी एकदम चपखलपणे होईलच असं नाही. मात्र जर ती झाली, तर हा व्हिडिओ प्रसारित करून राष्ट्रप्रमुखांनी अत्यंत विखारी भाषण केल्याचं लोकांच्या मनावर बिंबवणं शक्य होईल.
धोकादायक डीपफेक
साहजिकच हा प्रकार अत्यंत धोकादायक आहे. यामुळे व्हिडिओमध्ये मूळ व्यक्तीखेरीज अन्य कुणीही असल्याचं भासवणं शक्य होतं. खास करून स्त्रियांसाठी हे अतिशय भीतीदायक आहे. मूळ अश्लील व्हिडिओमधले चेहरे बदलून त्याठिकाणी कुणाचेही चेहरे लावणं हा यामधला सगळ्यात मोठा धोका आहे. एका अभिनेत्रीच्या बाबतीत हा प्रकार अलीकडे घडल्यामुळे हा विषय पुन्हा चर्चेला आला.
यावर सहजपणे काही उपाय करणंही शक्य नसल्यामुळे आपण आपले फोटो, व्हिडिओ शक्य तितके कमी शेअर करणं हा प्रतिबंधात्मक उपाय आपण आपल्या परीनं करू शकतो. याखेरीज याविषयी जनजागृती करणं, आपल्या मोबाईलमध्ये येत असलेल्या सगळ्या मजकुरावर पटकन विश्वास न टाकता त्याविषयी सतत साशंकता आणि सजगता बाळगणं गरजेचं आहे.
तसंच यामुळे संबंधित व्यक्तीवर किती गंभीर परिणाम होत असतील, याची जाण बाळगून आपण आपल्या परीनं हा प्रकार वाढू नये यासाठी प्रयत्न करणं आवश्यक आहे. वेळप्रसंगी याविषयी संबंधित तपासयंत्रणांकडे तक्रार नोंदवणंही महत्त्वाचं ठरू शकतं.
एआय तंत्रज्ञानाच्या वापराविषयी नियमावली असावी, अशा प्रकारच्या चर्चा सुरू अाहेत. आंतरराष्ट्रीय पातळीवरही त्याबद्दल बोललं जातं आहे. यातून काय निष्पन्न होईल याची अजून कुणालाच कल्पना नाही.
तसंच या सगळ्याला वेसण घालणं जवळपास अशक्य आहे असं आत्तातरी स्पष्टपणे दिसतं. म्हणूनच स्वसंयम, अतिशेअरिंग टाळणं आणि समोर येईल त्यावर डोळे झाकून विश्वास न ठेवता त्याची चिकित्सा करणं ही त्रिसूत्री वापरण्याखेरीज सध्या तरी दुसरा पर्याय दिसत नाही!
वैयक्तिक पातळीवर ‘डीपफेक’च्या जाळ्यात अडकू नये यासाठी खाली दिलेल्या गोष्टी करता येतील...
आंधळेपणानं विश्वास न ठेवणं : आपल्यासमोर दिसत असलेला मजकूर अधिकृत किंवा बरोबर असणारच असं अजिबात गृहीत धरू नये. उलट त्यावर सहजासहजी विश्वास ठेवू नये. आपल्या जवळच्या किंवा विश्वासातल्या माणसानं तो पाठवला म्हणून तो विश्वासार्ह असं इंटरनेटवर अजिबातच नसतं.
त्यामुळे प्रत्येक मजकुराकडे, फोटोकडे, व्हिडिओकडे हे सगळं खरं नाही, अशाच नजरेनं बघावं. वेळप्रसंगी त्याची अधिकृत माध्यमांकडून किंवा संबंधित विषयामधल्या तज्ज्ञाकडून खातरजमा करून घ्यावी.
मूळ स्रोत तपासणं : अशा सगळ्या गोष्टी मूळ स्रोताकडून अधिकृत पातळीवर तपासून घ्याव्यात. अलीकडे कुणाच्याही नावावर काहीही खपवलं जातं. लोकांचा विश्वास बसावा म्हणून ही बातमी अमुक अमुक ठिकाणची आहे किंवा हा व्हिडिओ अमुक संस्थेनं तयार केलेला आहे अशा अफवा बेदिक्कतपणे पसरवल्या जात असतात.
फोटो किंवा व्हिडिओ निरखून बघणं : अनेकदा ‘डीप फेक’ प्रकारच्या फोटोंमध्ये, आवाजामध्ये किंवा व्हिडिओमध्ये नीट बघितल्यावर लक्षात येतील अशा बारीक चुका राहिलेल्या असतात. वरवर त्या कळू शकत नाहीत, पण बारकाईनं बघितल्यावर त्या जाणवतात.
रिव्हर्स इमेज सर्च : जसं इंटरनेटवर आपण काहीही शोधू शकतो, तसंच कुठल्याही मजकुराचा किंवा फोटोचा मूळ स्रोत काय आहे हेसुद्धा हुडकू शकतो. उदाहरणार्थ, फोटोंसाठी आपण ‘रिव्हर्स इमेज सर्च’चा वापर केला तर फोटोच्या सत्यतेची खातरजमा होऊ शकते.
आपली माहिती आपणच जपणं : आपली माहिती, आपले फोटो, व्हिडिओ विनाकारण शेअर करणं टाळलं पाहिजे. तसंच आपण समाजमाध्यमं वापरत असलो, तर त्यावरची ‘प्रायव्हसी सेटिंग्ज’ फक्त आपल्या परिचितांनाच आपली माहिती मिळू शकेल, अशी असावीत.
‘व्हॉट्सॲप विद्यापीठा’पासून लांब राहणं : फक्त अधिकृत वेबसाइटचा वापर करणं, खोटा मजकूर पसरवणाऱ्या सगळ्या माध्यमांना चार हात लांब ठेवणं, व्हॉट्सॲप तसंच तत्सम ग्रूपमधून फिरत असलेल्या खोट्या, अतिरंजित अशा सगळ्या गोष्टींपासून पूर्णपणे लांब राहणं गरजेचं आहे.
तक्रार नोंदवणं : आपल्याला कुठलाही मजकूर खोटा, चिथावणीखोर, बदनामी करणारा वाटला तर त्याविषयी संबंधित वेबसाइट किंवा कंपनी यांच्याकडे लगेचच तक्रार नोंदवणं आवश्यक असतं.
‘डीपफेक’सारख्या आधुनिक शत्रूंशी यामुळे नक्कीच लढता येईल!
‘डीपफेक’ नावाच्या नव्या प्रकारामुळे सगळीकडे खळबळ माजलेली असल्यामुळे हा प्रकार नेमका आहे तरी काय, याविषयी अनेकजणांच्या मनात खूप कुतूहल आहे. काहीतरी गोलमाल करून प्रत्यक्षात नसलेल्या गोष्टी, त्या तशा आहेत असा भासवण्याचा हा प्रकार आहे; इतपत बऱ्याच लोकांना माहीत असतं.
प्रत्यक्षात हे कसं शक्य आहे? हा कळीचा मुद्दा मात्र थोडासा बाजूला पडतो. आधुनिक तंत्रज्ञानाविषयी सखोल माहिती मिळवली तरच हे समजू शकेल, अशी काही जणांची समजूत आहे. प्रत्यक्षात मात्र तसं नाही. या तंत्रज्ञानाची पार्श्वभूमी अगदी कुणालाही सहजपणे समजू शकेल अशी आहे.
‘डीपफेक’ यात दोन शब्द आहेत - ‘डीप’ आणि ‘फेक’. यातलं ‘डीप’ आलं आहे ‘डीप लर्निंग’ नावाच्या संकल्पनेतून. ‘फेक’ म्हणजे अर्थातच बनावट. म्हणजेच ‘डीप लर्निंग’च्या तंत्रज्ञानाचा गैरवापर करून काहीतरी बनावट तयार करणं आणि ते खरंच आहे असं भासवणं म्हणजे ‘डीपफेक’.
काहीतरी बनावट तयार करणं आणि ते खरं आहे असं भासवणं, हा प्रकार काही नवा नाही. कित्येक शतकांपासून असंख्य लफंग्यांनी हे उद्योग केलेलेच आहेत.
उदाहरणार्थ, जमिनीच्या व्यवहारांची बनावट कागदपत्रं, आपण सरकारी अधिकारी किंवा पोलिस अधिकारी आहोत असं भासवणारी ओळखपत्रं, लग्न केल्याचे बनावट पुरावे, बनावट जन्मदाखले, जातींचे बनावट पुरावे अशी असंख्य कागदपत्रं तयार करून फसवणूक करण्याचे प्रयत्न केव्हापासून होताहेत.
यात भर म्हणून आपलं अमुक एकाशी तरी लग्न झालेलं आहे, असं भासवण्यासाठी दोन फोटो जोडून बनावट फोटो तयार करणं, एखाद्या फोटोमध्ये आपण प्रत्यक्षात नसलो तरी त्या फोटोमध्ये काहीतरी फेरफार करून आपला फोटो त्यात बेमालूमपणे मिसळणं असेही प्रकार काहीजण करतात. याचंच आधुनिक आणि अत्यंत धोकादायक रूप म्हणजे ‘डीपफेक’.
‘डीपफेक’ तंत्रज्ञानात बनावट मजकूर आणि बनावट फोटो यांच्या पुढची पायरी असते; ती म्हणजे बनावट व्हिडिओची. उदाहरणार्थ, एखाद्या राजकीय नेत्यानं एखादं भाषण केलेलंच नसतं. ते भाषण दुसऱ्याच कुणीतरी केलेलं असतं.
त्या मूळ भाषणाचा व्हिडिओ बदलून त्याठिकाणी वेगळ्याच राजकारण्याची छबी, त्याचा आवाज वापरणं म्हणजे ‘डीपफेक’ होऊ शकतं. अर्थातच मूळ व्हिडिओमध्ये असे बदल करायचे म्हटलं, तरी हे बदल किंवा ही भेळमिसळ अत्यंत चपखल वाटायला हवी.
म्हणजेच या व्हिडिओमध्ये काहीतरी गडबड आहे, आवाज जुळत नाही, हालचाली जुळत नाहीत, चेहरा जुळत नाही असं काहीही बघणाऱ्याला जाणवायला नको. म्हणजेच ‘डीपफेक’ तयार करणं तसं येऱ्यागबाळ्याचं काम नाही. असं असेल तर ते तंत्रज्ञानाला कसं जमू शकतं? हे समजून घेण्यासाठी एक उदाहरण घेऊ.
समजा आपल्याकडे माणसांचे चेहरे असलेली लाखो छायाचित्रं आहेत आणि त्याच माणसांचं चेहऱ्याखालचं शरीर, म्हणजे धड असलेलीही लाखो छायाचित्रं आहेत. यातला कुठलाही चेहरा घ्यायचा आणि त्याखाली कुठलंही धड ठेवून बघायचं असला विचित्र प्रकार आपण करत आहोत; असं समजू.
हे करत असताना साहजिकच आपल्याला यामधले चेहरा-धड असे कित्येक जोड अत्यंत विजोड असल्याचं जाणवेल. म्हणजेच संबंधित चेहरा आणि धड यांची अजिबातच जुळणी होऊ शकत नाही; किंवा ते दोन एकमेकांपेक्षा कमालीचे वेगळे दिसत असल्याचं अगदी स्पष्टपणे दिसून येईल. असं असलं तरी याच्याच जोडीला इतर काही चेहरे आणि त्याखालची धडं ही मात्र बऱ्यापैकी जुळणारी वाटतील.
म्हणजेच माणसाचा चेहरा आणि त्याचं धड हे एकाच मूळ माणसाचं असेल असं नाही. दुसऱ्याच माणसाचं धड तिसऱ्याच माणसाच्या चेहऱ्याखाली एकदम तंतोतंत जुळल्यासारखं वाटेल. साहजिकच एखाद्या माणसानं आयुष्यात कधीही न घातलेले कपडे त्यानं घातले आहेत असं आपण आता भासवू शकू.
कारण त्या माणसाचा चेहरा भलत्याच माणसाच्या धडाशी अगदी बरोबर जुळल्यासारखा भासत असल्यामुळे असा बेमालूमपणे जुळवलेला फोटो बघणाऱ्या माणसाला खरोखरच हा त्या माणसाचा फोटो असल्याची खात्री पटेल.
अर्थातच हे झालं काही फोटोंचं. तेसुद्धा खूप खटाटोप केल्यानंतर एखाद्यावेळी जमू शकेल. व्हिडिओचं काय? एखाद्या व्हिडिओमध्ये मूळ माणसाचा चेहरा गायब करून त्याठिकाणी भलत्याच माणसाचा चेहरा कसा ‘बसवायचा’? यासाठी मूळ व्हिडिओमध्ये मूळ माणसानं केलेल्या सगळ्या हालचाली, त्याची देहबोली हे सगळं तंतोतंत जुळणाऱ्या प्रतिमा आपल्याला इतर कुठल्या माणसाच्या असंख्य व्हिडिओंमधून शोध घेऊन मिळवाव्या लागतील.
हे अत्यंत कठीण आणि जवळपास अशक्यच आहे. काहीतरी खटाटोप करून हे सगळं मिळवलं, तर आपल्याला मूळ व्हिडिओ ‘एडिट’ करून त्यात मूळ माणसाच्या चेहऱ्याच्या ठिकाणी दुसऱ्या माणसाचा चेहरा प्रत्येक तुकड्यात म्हणजेच ‘फ्रेम’मध्ये ‘बदली करावा’ लागेल.
जगातल्या भल्याभल्या तज्ज्ञांनाही यासाठी अपार कष्ट घ्यावे लागतील आणि एवढं करूनही यातून तयार होणारा व्हिडिओ कितपत अस्सल वाटेल याविषयी शंकाच असेल. यात नक्कीच काहीतरी गडबड आहे, असं तो व्हिडिओ बघणाऱ्यांना जाणवेल. मग अशा वेळी एआयची मदत घेतली जाते.
अलीकडे जिथं साचेबद्ध प्रकारचं किंवा थकवणारं किंवा आपले श्रम वाचवणारं अशा प्रकारचं काम असेल, त्याठिकाणी आपल्याऐवजी हे काम संगणकावर सोपवण्याची अत्यंत उपयुक्त सोय निघालेली आहे.
तिचं नाव अर्थातच ‘आर्टिफिशयल इंटेलिजन्स (एआय)’. अल्लाउद्दीनच्या जादूच्या दिव्यासारख्या या तंत्रज्ञानामुळे माणसानं स्वतः प्रयत्न करून चेहऱ्यांची अदलाबदल करणाऱ्या ‘डीपफेक’ व्हिडिओंची निर्मिती करण्याऐवजी या तंत्रज्ञानावर ते काम सोपवणं शक्य झालं आहे. पण हे नेमकं घडतं कसं?
मशिन लर्निंग
संगणकाला कसं शिकवायचं, या प्रश्नावर अनेक महान लोकांनी काथ्याकूट केलेला आहे. यासाठी सुरुवातीला खूप क्लिष्ट प्रकारचे नियम केले जात.
हे नियम संगणकाला सांगितले जात. त्या नियमांच्या आधारे संगणक ‘शिकण्याचा’ प्रयत्न करत असे. यात मोठा बदल झाला तो ‘मशिन लर्निंग’च्या आगमनामुळे. माणसानं नियम तयार करून ते नियम संगणकांना घालून देण्याच्या कटकटीतून यामुळे सुटका झाली.
त्याऐवजी संगणकाला भरपूर माहिती पुरवायची आणि त्यालाच त्या माहितीच्या आधारे शिकायला सांगायचं; असं याचं स्वरूप झालं. हे समजून घेण्यासाठी एक सोपं उदाहरण घेऊ. अनेक लोक क्रेडिट कार्ड वापरतात.
क्रेडिट कार्डचा वापर होत असताना त्यामधला नेमका कोणत्या प्रकारचा व्यवहार खरा क्रेडिट कार्डधारक करतो आहे आणि कोणता व्यवहार क्रेडिट कार्ड चोरून भलताच कोणीतरी करतो आहे, हे एआयद्वारे कसं ओळखायचं? यासाठी आधी कुठला व्यवहार खरा आणि कुठला खोटा हे ठरवण्यासाठी प्रचंड विचार करून, अनेक शक्यता पडताळून खूप क्लिष्ट नियम तयार करावे लागत. हे नियम संगणकांना समजतील अशा प्रकारे संगणकांमध्ये ‘भरावे’ लागत.
‘मशिन लर्निंग’मध्ये मात्र हे काम खूप सोपं होऊन जातं. आता आपण संगणकामध्ये आत्तापर्यंत झालेल्या क्रेडिट कार्डांच्या व्यवहारांचे तपशील भरून टाकायचे. त्यात योग्य आणि चोरांनी केलेले अशा दोन्ही प्रकारचे व्यवहार असणार.
त्यानंतर आपण संगणकाला सांगायचं; ‘बाबा रे, ही माहिती वाच आणि नेमके कुठले व्यवहार योग्य असतात आणि कुठले व्यवहार चोरांनी केलेले असतात हे तुझं तूच शोध... तूच यासाठीचे नियम तयार कर आणि त्यानंतर तूच मला पुढच्या क्रेडिट कार्डाच्या व्यवहाराच्यावेळी सांग – तो योग्य वाटतो की चोरट्याचा वाटतो...’
याचप्रमाणे एखाद्या चित्रात कुत्रा हा प्राणी आहे हे संगणकाला शिकवण्यासाठी कुत्रा कसा दिसतो याविषयीचे हजारो नियम संगणकाला शिकवणं आता गरजेचं राहिलं नाही. त्याऐवजी कुत्र्याची हजारो चित्रं संगणकाला पुरवायची.
त्यातून कुत्रा नेमका कसा दिसतो आणि त्याच्या शरीराचे अवयव, त्यांची रचना, त्यांच्यामधले बारकावे हे सगळं संगणक स्वतःच शिकून घेतो. त्यानंतर आपण त्याला एखादं चित्र दाखवल्यावर तो कुत्रा आहे का नाही, हे तो आपल्याला अचूकपणे सांगतो. याला म्हणतात ‘मशिन लर्निंग’.
डीप लर्निंग
या ‘मशिन लर्निंग’ची एक उपशाखा जन्मली. तिचं नाव ‘डीप लर्निंग’. माणसाच्या मेंदूमध्ये न्यूरॉन हा घटक महत्त्वाची भूमिका बजावतो. असे असंख्य न्यूरॉन एकमेकांशी संवाद साधत माणसाला शिकायला, विचार करायला, निर्णय घ्यायला मदत करतात. उदाहरणार्थ, समोरच्या चित्रामधला प्राणी कुत्रा आहे हे ओळखण्यासाठी त्याचा आकार, त्याच्या शरीराची एकंदर रचना, त्याची उंची, कान, डोळे, शेपटी, बांधा अशा असंख्य गोष्टी तपासून न्यूरॉन एकमेकांना भराभर संदेश देऊन हा कुत्राच असल्याचं ठरवतात.
अर्थातच यासाठी आपण आधी बघितलेल्या कुत्र्यांविषयीची माहिती आपल्या मेंदूत साठवलेली असते. ही माहिती हे न्यूरॉन तपासतात. नेमकं अशाच प्रकारचं काम संगणकाकडून करून घेण्यासाठी ‘डीप लर्निंग’ तंत्रज्ञानाची मदत घेतली जाते.
इथेही मानवी मेंदूमधल्या न्यूरॉनसारखे छोटेछोटे सॉफ्टवेअर प्रोग्रॅम असतात. ते एकमेकांना मदत करत करत कुठल्याही कूट प्रश्नाची उकल करतात. म्हणून अशा प्रकारच्या सॉफ्टवेअरला ‘न्यूरल नेटवर्क’ असं म्हणतात.
या ‘न्यूरल नेटवर्क’च्या आधारे ‘डीप लर्निंग’च्या तंत्रज्ञानाचा वापर माहितीचे अफाट साठे उचकटून त्यातून हवं ते सार काढून अत्यंत क्लिष्ट प्रश्नांची उत्तरं देण्यासाठी केला जातो. चित्रं ओळखणं, आवाज कुणाचा हे ओळखणं, अत्यंत लवचिक अशा मानवी भाषांमधल्या क्लिष्ट वाक्यरचना उलगडून वाक्यांचा नेमका अर्थ लावणं अशी अतिशय कठीण कामगिरी ‘डीप लर्निंग’चं तंत्रज्ञान करू शकतं.
साहजिकच या ‘डीप लर्निंग’ या तंत्रज्ञानाचा गैरवापरही होऊ शकतो. हा गैरवापर करणारा या तंत्रज्ञानाला एखाद्या विखारी भाषणाची जेमतेम मिनिटभराची व्हिडिओ क्लिप देतो. त्याला सांगतो, ‘बाबा रे, हे भाषण नीट बघ.
त्यानंतर या भाषणामधल्या व्हिडिओच्या फ्रेम बदल. प्रत्येक फ्रेममध्ये मूळ भाषणामधला चेहरा बदलून त्याठिकाणी एखाद्या राष्ट्रप्रमुखांचा चेहरा लाव.’ या तंत्रज्ञानाकडे राष्ट्रप्रमुखांच्या हजारो भाषणांचे आणि व्हिडिओंचे साठे असल्यामुळे मूळ भाषणाच्या कुठल्या फ्रेमच्या ठिकाणी राष्ट्रप्रमुखांच्या कुठल्या भाषणामधली किंवा व्हिडिओमधली फ्रेम चपखल बसेल याचा ते शोध घेऊ शकतं.
यासाठी एकेका मूळ फ्रेमच्या जागी राष्ट्रप्रमुखांच्या भाषणामधल्या किंवा व्हिडिओमधल्या लाखो फ्रेमचा वापर करून बघू शकतं आणि त्यामधली नेमकी कुठली फ्रेम योग्य आहे, हे ठरवू शकतं. असं एकेका फ्रेमच्या बाबतीत करत गेल्यानंतर जवळपास सगळ्या मूळ फ्रेमऐवजी राष्ट्रप्रमुखांची फ्रेम बसवली जाईल. त्यानंतर व्हिडिओ ‘एडिट’ केला जाईल.
उदाहरणार्थ, काही फ्रेममध्ये राष्ट्रप्रमुखांनी लाल रंगाचा टाय घातल्याचं दिसत असेल, तर काही ठिकाणी तो निळ्या रंगाचा असू शकेल. याचं कारण म्हणजे त्यांच्या निरनिराळ्या भाषणांमध्ये किंवा व्हिडिओमध्ये त्यांनी काही कायमच एकाच रंगाचे टाय घातलेले असतील असं नाही.
ही सगळी प्रक्रिया दर वेळी एकदम चपखलपणे होईलच असं नाही. मात्र जर ती झाली, तर हा व्हिडिओ प्रसारित करून राष्ट्रप्रमुखांनी अत्यंत विखारी भाषण केल्याचं लोकांच्या मनावर बिंबवणं शक्य होईल.
धोकादायक डीपफेक
साहजिकच हा प्रकार अत्यंत धोकादायक आहे. यामुळे व्हिडिओमध्ये मूळ व्यक्तीखेरीज अन्य कुणीही असल्याचं भासवणं शक्य होतं. खास करून स्त्रियांसाठी हे अतिशय भीतीदायक आहे. मूळ अश्लील व्हिडिओमधले चेहरे बदलून त्याठिकाणी कुणाचेही चेहरे लावणं हा यामधला सगळ्यात मोठा धोका आहे.
एका अभिनेत्रीच्या बाबतीत हा प्रकार अलीकडे घडल्यामुळे हा विषय पुन्हा चर्चेला आला. यावर सहजपणे काही उपाय करणंही शक्य नसल्यामुळे आपण आपले फोटो, व्हिडिओ शक्य तितके कमी शेअर करणं हा प्रतिबंधात्मक उपाय आपण आपल्या परीनं करू शकतो.
याखेरीज याविषयी जनजागृती करणं, आपल्या मोबाईलमध्ये येत असलेल्या सगळ्या मजकुरावर पटकन विश्वास न टाकता त्याविषयी सतत साशंकता आणि सजगता बाळगणं गरजेचं आहे.
तसंच यामुळे संबंधित व्यक्तीवर किती गंभीर परिणाम होत असतील, याची जाण बाळगून आपण आपल्या परीनं हा प्रकार वाढू नये यासाठी प्रयत्न करणं आवश्यक आहे. वेळप्रसंगी याविषयी संबंधित तपासयंत्रणांकडे तक्रार नोंदवणंही महत्त्वाचं ठरू शकतं.
एआय तंत्रज्ञानाच्या वापराविषयी नियमावली असावी, अशा प्रकारच्या चर्चा सुरू अाहेत. आंतरराष्ट्रीय पातळीवरही त्याबद्दल बोललं जातं आहे.
यातून काय निष्पन्न होईल याची अजून कुणालाच कल्पना नाही. तसंच या सगळ्याला वेसण घालणं जवळपास अशक्य आहे असं आत्तातरी स्पष्टपणे दिसतं. म्हणूनच स्वसंयम, अतिशेअरिंग टाळणं आणि समोर येईल त्यावर डोळे झाकून विश्वास न ठेवता त्याची चिकित्सा करणं ही त्रिसूत्री वापरण्याखेरीज सध्या तरी दुसरा पर्याय दिसत नाही!
-------------
ब्रेक घ्या, डोकं चालवा, कोडे सोडवा!
Read latest Marathi news, Watch Live Streaming on Esakal and Maharashtra News. Breaking news from India, Pune, Mumbai. Get the Politics, Entertainment, Sports, Lifestyle, Jobs, and Education updates. And Live taja batmya on Esakal Mobile App. Download the Esakal Marathi news Channel app for Android and IOS.