5 मार्च 2026

CHATGPT के 3 चौंकाने वाले राज़: ऐसे बनता है ये AI दिमाग़!

◈jhakkas!

क्या आप भी ChatGPT की जादूई बातों से हैरान होते हैं? कभी सोचा है कि ये AI इतना smart कैसे बन गया? असल में, इसके पीछे एक लंबी और complicated प्रक्रिया होती है। एक खाली text box से शुरू होकर, ये AI models अरबों-खरबों data points को समझकर इंसानों जैसी बातें करना सीखते हैं। चलिए, आज हम इसी प्रक्रिया को आसान भाषा में समझते हैं कि कैसे ये LLMs (Large Language Models) बनते हैं, और इनके 3 सबसे चौंकाने वाले राज़ क्या हैं।

इंटरनेट से Data जमा करना

किसी भी LLM को बनाने का पहला और सबसे ज़रूरी step है massive amount में text data जमा करना। ये data दुनिया भर के publicly available internet sources से आता है। सोचो, पूरा इंटरनेट! इसमें websites, books, articles और न जाने क्या-क्या शामिल होता है। जैसे, Hugging Face नाम की एक company ने FineWeb नाम का एक data set बनाया है। ये data set दिखाता है कि बड़े LLM providers जैसे OpenAI और Google अपने models के लिए कैसा data जमा करते हैं। उनका मकसद होता है कि बहुत ज़्यादा quantity में high-quality और diverse documents हों, ताकि model को ढेर सारा ज्ञान मिल सके। Common Crawl एक ऐसी organization है जो 2007 से लगातार इंटरनेट को scan कर रही है। 2024 तक, इन्होंने 2.7 billion से ज़्यादा web pages को index किया है! ये लोग seed web pages से शुरू करते हैं और फिर सारे links को follow करते हुए information जमा करते रहते हैं। ये सारा raw data ही LLM training का starting point बनता है। सुनने में ये बहुत ज़्यादा data लगता है, लेकिन असल में, FineWeb data set सिर्फ़ 44 terabytes की disk space लेता है। ये तो आज के एक hard drive में भी fit हो सकता है! और ये data लगभग 15 trillion tokens का होता है। ज़रा सोचो, कितना बड़ा है ये आंकड़ा!

Data को Clean और Ready करना

सिर्फ़ data जमा करना ही काफ़ी नहीं है, उसे clean करना और तैयार करना भी बहुत ज़रूरी है। Common Crawl से मिला data अक्सर raw होता है और इसमें बहुत सारी unwanted चीज़ें होती हैं। इस data को कई stages में filter किया जाता है:

URL Filtering: सबसे पहले उन URLs को हटाया जाता है जिनसे malware, spam, marketing, racist या adult content आता है। क्योंकि हम नहीं चाहते कि हमारा AI model ऐसी चीज़ें सीखे।
Text Extraction: Web pages असल में raw HTML code होते हैं। हमें इस code की नहीं, बल्कि सिर्फ़ उस पर लिखे text की ज़रूरत होती है। इसलिए, सारे navigation, ads और markup को हटाकर सिर्फ़ असली content को extract किया जाता है।
Language Filtering: इसके बाद, data को language के हिसाब से filter किया जाता है। जैसे, FineWeb data set सिर्फ़ उन web pages को रखता है जिनमें 65% से ज़्यादा English content होता है। ये एक अहम design decision होता है, क्योंकि अगर आप किसी ख़ास language का data filter कर देते हैं, तो आपका model उस language में अच्छा perform नहीं कर पाएगा।
Deduplication और PII Removal: आख़िर में, duplicate content को हटाया जाता है और Personally Identifiable Information (PII) जैसे addresses, Social Security numbers को भी remove किया जाता है ताकि privacy बनी रहे। ये सारी प्रक्रिया बहुत extensive होती है और इसके बाद ही हमें वो clean text data मिलता है जिस पर model को train किया जा सकता है।

Text से Tokens और फिर Training

अब आता है सबसे दिलचस्प stage – neural network training। लेकिन इससे पहले, raw text को neural network के समझने लायक़ format में बदलना होता है। इस प्रक्रिया को Tokenization कहते हैं। Tokens क्या होते हैं? असल में, computers सिर्फ़ numbers समझते हैं। तो हमें अपने text को numbers में बदलना होता है। हर word, word part या punctuation mark को एक अनोखी ID या token दिया जाता है। ये tokens ही AI model के "अक्षर" या "शब्द" होते हैं, जिन्हें वो सीखता और इस्तेमाल करता है। इसकी एक आसान मिसाल देखो: अगर आप "hello world" लिखते हैं, तो GPT-4 इसे "hello" (जिसकी ID 15339 है) और " world" (जिसकी ID 1917 है) जैसे दो tokens में तोड़ता है। ज़रा सोचो, ये कितना बारीक काम है! Byte Pair Encoding (BPE) नाम का एक smart algorithm इस काम में मदद करता है। ये algorithm data में सबसे common consecutive bytes या symbols को ढूँढता है और उन्हें एक नए symbol में बदल देता है। मतलब, अगर "ing" बार-बार आ रहा है, तो उसे एक ही token बना दिया जाएगा। इससे sequence की length कम हो जाती है और model को कम चीज़ें याद रखनी पड़ती हैं, लेकिन vocabulary का size बढ़ जाता है। जैसे, GPT-4 100,277 symbols का एक बहुत बड़ा vocabulary इस्तेमाल करता है! ये tokens फिर एक लंबी, one-dimensional sequence में बदल जाते हैं, जैसे एक बहुत लंबी text की रस्सी हो।

Neural Network Training: AI को सिखाना एक बार जब हमारे पास tokens की ये लंबी sequence आ जाती है, तो neural network को train करना शुरू होता है। इस training का सबसे ज़रूरी मकसद है कि model ये सीखे कि एक token के बाद अगला token क्या आएगा। ये बिल्कुल ऐसा है जैसे आप किसी बच्चे को कोई कहानी सुना रहे हो और उससे पूछो कि "इसके बाद क्या आएगा?" हम data से tokens के छोटे-छोटे "windows" लेते हैं। मान लो, हम 4 tokens का एक window लेते हैं – जैसे "bar view in single"। अब neural network इन 4 tokens को "context" के रूप में लेता है और अंदाज़ा लगाना करता है कि अगला token क्या होगा। इस उदाहरण में, अगला token "post" है। Neural network 100,277 numbers का एक output देता है (हमारे vocabulary के size के बराबर), जिसमें हर number ये बताता है कि अगला token आने की कितनी probability है। शुरुआत में, ये predictions बिल्कुल random होते हैं क्योंकि network के parameters या weights (जिन्हें आप एक DJ set के knobs समझ सकते हैं) randomly set होते हैं। लेकिन, training के दौरान, network को लगातार adjust किया जाता है। अगर network ने गलत prediction किया (जैसे "post" की probability कम बताई), तो उसके parameters को थोड़ा सा बदला जाता है ताकि अगली बार सही token ("post") की probability ज़्यादा हो और बाक़ी tokens की कम हो। ये प्रक्रिया अरबों बार होती है, हर बार network data में मौजूद statistical patterns को सीखता जाता है। ये updates एक साथ कई tokens और windows पर होते हैं, जिससे network धीरे-धीरे और smart होता जाता है। इसका मतलब है कि network के predictions हमारे training set में tokens के follow होने के statistical patterns के साथ match करना शुरू कर देते हैं।

Transformer: AI का दिमाग़ आज के modern LLMs में Transformer नाम का एक special neural network architecture इस्तेमाल होता है। ये एक बहुत ही powerful design है। इसमें अरबों parameters होते हैं। ये सारे parameters मिलकर एक बहुत बड़ा mathematical expression बनाते हैं जो input tokens को output predictions में बदलता है। आप इसे ऐसे समझो कि tokens पहले एक "distributed representation" में embed होते हैं – हर token का एक vector होता है। फिर ये values Transformer के अलग-अलग blocks से गुज़रती हैं, जैसे "attention block" और "multi-layer perceptron block"। हर block में simple mathematical operations होते हैं, जैसे matrix multiplications और layer norms। ये "synthetic neurons" हमारे दिमाग़ के biological neurons जितने complex नहीं होते। Biological neurons में memory और dynamic प्रक्रिया होते हैं, जबकि ये AI neurons सिर्फ़ fixed mathematical expressions हैं जिनका input से output तक कोई memory नहीं होती। लेकिन, यही simple operations मिलकर AI को text के patterns को समझने और generate करने की amazing ability देते हैं। असल में बात ये है कि ये पूरा प्रक्रिया बहुत complex लगता है, लेकिन इसका core idea simple है: data जमा करो, उसे साफ करो, text को numbers (tokens) में बदलो, और फिर एक smart neural network (जैसे Transformer) को train करो ताकि वो अगला token अंदाज़ा लगाना कर सके। इसी से ChatGPT जैसे models बनते हैं जो आज हमारी ज़िंदगी का हिस्सा बन चुके हैं!

आप क्या सोचते हो? टिप्पणी में बताओ! 🎧 इस LLM के बारे में full जानकारी सुनने के लिए ऊपर Play button दबाओ! अगर ये जानकारी अच्छी लगी तो साझा करो ज़रूर करो।

Jhakkas के बारे में

Jhakkas लाता है दुनिया के सबसे interesting ideas और interviews. आसान भाषा में, आपकी भाषा में. Tech, काम और future के बारे में articles और podcasts.

इंटरनेट से Data जमा करना

Data को Clean और Ready करना

Text से Tokens और फिर Training

Jhakkas के बारे में

और पढ़ें

AI Coding के 3 चौंकाने वाले खतरे: क्या ये सिर्फ दिखावा है?

Llion Jones के 3 चौंकाने वाले दावे: Competition AI Breakthroughs को मार रहा है!

Jeetu Patel के 3 धमाकेदार दावे: AI बचाएगा इंसानियत का future!

Dario Amodei का 3 चौंकाने वाला दावा: AI Tsunami आ रहा है, समाज तैयार नहीं!