سلیکن ویلی AI ایجنٹوں کو تربیت دینے کے لیے 'ماحولات' پر بڑی شرط لگاتی ہے۔
![]() |
سلیکن ویلی AI ایجنٹوں کو تربیت دینے کے لیے 'ماحولات' پر بڑی شرط لگاتی ہے۔ |
برسوں سے، بگ ٹیک کے سی ای اوز نے AI ایجنٹوں کے تصورات کا اظہار کیا ہے جو لوگوں کے کاموں کو مکمل کرنے کے لیے خود مختاری سے سافٹ ویئر ایپلی کیشنز کا استعمال کر سکتے ہیں۔ لیکن آج کے صارف AI ایجنٹوں کو گھومنے کے لیے باہر لے جائیں، چاہے وہ OpenAI کا ChatGPT ایجنٹ ہو یا Perplexity's Comet، اور آپ کو جلد ہی اندازہ ہو جائے گا کہ ٹیکنالوجی ابھی بھی کتنی محدود ہے۔ AI ایجنٹوں کو مزید مضبوط بنانے کے لیے تکنیکوں کا ایک نیا سیٹ لگ سکتا ہے جسے انڈسٹری ابھی تک دریافت کر رہی ہے۔
ان تکنیکوں میں سے ایک کام کی جگہوں کی احتیاط سے نقل کر رہی ہے جہاں ایجنٹوں کو ملٹی سٹیپ ٹاسک پر تربیت دی جا سکتی ہے — جسے ری انفورسمنٹ لرننگ (RL) ماحول کہا جاتا ہے۔ اسی طرح لیبل والے ڈیٹاسیٹس نے AI کی آخری لہر کو کس طرح طاقت بخشی، RL ماحول ایجنٹوں کی نشوونما میں ایک اہم عنصر کی طرح نظر آنے لگے ہیں۔ AI کے محققین، بانی، اور سرمایہ کار TechCrunch کو بتاتے ہیں کہ معروف AI لیبز اب مزید RL ماحول کا مطالبہ کر رہی ہیں، اور ان کی فراہمی کی امید کرنے والے سٹارٹ اپس کی کوئی کمی نہیں ہے۔
TechCrunch کے ساتھ ایک انٹرویو میں اینڈریسن ہورووٹز کے جنرل پارٹنر جینیفر لی نے کہا، "تمام بڑی AI لیبز اندرون ملک RL ماحول بنا رہی ہیں۔" "لیکن جیسا کہ آپ تصور کر سکتے ہیں، یہ ڈیٹا سیٹ بنانا بہت پیچیدہ ہے، اس لیے AI لیبز تیسرے فریق کے وینڈرز کو بھی دیکھ رہی ہیں جو اعلیٰ معیار کے ماحول اور تشخیصات تخلیق کر سکتے ہیں۔ ہر کوئی اس جگہ کو دیکھ رہا ہے۔"
RL ماحولیات کے لیے پش نے اچھی طرح سے مالی اعانت سے چلنے والے اسٹارٹ اپس کی ایک نئی کلاس تیار کی ہے، جیسا کہ میکانائز اور پرائم انٹیلیکٹ، جس کا مقصد خلا کی قیادت کرنا ہے۔ دریں اثنا، مرکر اور سرج جیسی بڑی ڈیٹا لیبلنگ کمپنیوں کا کہنا ہے کہ وہ RL ماحولیات میں مزید سرمایہ کاری کر رہی ہیں تاکہ انڈسٹری کی سٹیٹک ڈیٹاسیٹس سے انٹرایکٹو سمیلیشنز کی تبدیلیوں کے ساتھ رفتار برقرار رہے۔ بڑی لیبز بھی بہت زیادہ سرمایہ کاری کرنے پر غور کر رہی ہیں: دی انفارمیشن کے مطابق، اینتھروپک کے رہنماؤں نے اگلے سال کے دوران RL ماحولیات پر $1 بلین سے زیادہ خرچ کرنے پر تبادلہ خیال کیا ہے۔ سرمایہ کاروں اور بانیوں کے لیے امید یہ ہے کہ ان میں سے ایک اسٹارٹ اپ "ماحول کے لیے اسکیل AI" کے طور پر ابھرے، جس میں $29 بلین ڈیٹا لیبلنگ پاور ہاؤس کا حوالہ دیا گیا جس نے چیٹ بوٹ دور کو تقویت بخشی۔ سوال یہ ہے کہ کیا RL ماحول واقعی AI ترقی کی سرحد کو آگے بڑھائیں گے۔
آر ایل ماحول کیا ہے؟
ان کے بنیادی طور پر، RL ماحول تربیتی بنیادیں ہیں جو نقل کرتے ہیں کہ ایک حقیقی سافٹ ویئر ایپلی کیشن میں AI ایجنٹ کیا کر رہا ہے۔ ایک بانی نے حالیہ انٹرویو میں ان کی تعمیر کی وضاحت کی ہے "جیسے ایک بہت بورنگ ویڈیو گیم بنانا۔"
مثال کے طور پر، ایک ماحول کروم براؤزر کی تقلید کر سکتا ہے اور AI ایجنٹ کو Amazon پر جرابوں کا جوڑا خریدنے کا کام دے سکتا ہے۔ ایجنٹ کو اس کی کارکردگی پر درجہ بندی کیا جاتا ہے اور وہ کامیاب ہونے پر انعامی سگنل بھیجتا ہے (اس صورت میں، موزوں جوڑا خریدنا)۔ اگرچہ ایسا کام نسبتاً آسان لگتا ہے، لیکن بہت ساری جگہیں ایسی ہیں جہاں ایک AI ایجنٹ پھنس سکتا ہے۔ یہ ویب صفحہ کے ڈراپ ڈاؤن مینو میں نیویگیٹ کرتے ہوئے کھو سکتا ہے، یا بہت زیادہ موزے خرید سکتا ہے۔ اور چونکہ ڈویلپرز قطعی طور پر اندازہ نہیں لگا سکتے کہ ایجنٹ کیا غلط موڑ لے گا، اس لیے ماحول کو خود اتنا مضبوط ہونا چاہیے کہ کسی غیر متوقع رویے کو پکڑ سکے، اور پھر بھی مفید آراء فراہم کرے۔ یہ عمارت کے ماحول کو جامد ڈیٹاسیٹ سے کہیں زیادہ پیچیدہ بناتا ہے۔
کچھ ماحول کافی وسیع ہوتے ہیں، جو AI ایجنٹوں کو ٹولز استعمال کرنے، انٹرنیٹ تک رسائی، یا کسی مخصوص کام کو مکمل کرنے کے لیے مختلف سافٹ ویئر ایپلی کیشنز استعمال کرنے کی اجازت دیتے ہیں۔ دوسرے زیادہ تنگ ہیں، جس کا مقصد ایجنٹ کو انٹرپرائز سافٹ ویئر ایپلی کیشنز میں مخصوص کام سیکھنے میں مدد کرنا ہے۔
اگرچہ سیلیکون ویلی میں ابھی RL ماحول گرم چیز ہیں، اس تکنیک کو استعمال کرنے کی بہت سی نظیریں موجود ہیں۔ 2016 میں اوپن اے آئی کے پہلے پروجیکٹوں میں سے ایک "RL جم" بنانا تھا جو ماحول کے جدید تصور سے بالکل مماثل تھے۔ اسی سال، گوگل ڈیپ مائنڈ کے AlphaGo AI سسٹم نے بورڈ گیم Go میں عالمی چیمپئن کو شکست دی۔ اس نے مصنوعی ماحول میں آر ایل تکنیک کا بھی استعمال کیا۔
آج کے ماحول کے بارے میں جو چیز منفرد ہے وہ یہ ہے کہ محققین بڑے ٹرانسفارمر ماڈلز کے ساتھ کمپیوٹر استعمال کرنے والے AI ایجنٹس بنانے کی کوشش کر رہے ہیں۔ AlphaGo کے برعکس، جو کہ بند ماحول میں کام کرنے والا ایک خصوصی AI نظام تھا، آج کے AI ایجنٹوں کو زیادہ عمومی صلاحیتوں کی تربیت دی جاتی ہے۔ AI محققین کے پاس آج ایک مضبوط نقطہ آغاز ہے، لیکن یہ ایک پیچیدہ ہدف بھی ہے جہاں مزید غلط ہو سکتے ہیں۔
ایک پرہجوم میدان:
AI ڈیٹا لیبلنگ کمپنیاں جیسے Scale AI، Surge، اور Mercor اس لمحے کو پورا کرنے اور RL ماحول بنانے کی کوشش کر رہی ہیں۔ ان کمپنیوں کے پاس خلا میں بہت سے سٹارٹ اپس سے زیادہ وسائل ہیں، نیز AI لیبز کے ساتھ گہرے تعلقات ہیں۔
سرج کے سی ای او ایڈون چن نے ٹیک کرنچ کو بتایا کہ اس نے حال ہی میں AI لیبز کے اندر RL ماحولیات کی مانگ میں "نمایاں اضافہ" دیکھا ہے۔ انہوں نے کہا کہ اضافے نے مبینہ طور پر پچھلے سال اوپن اے آئی، گوگل، اینتھروپک اور میٹا جیسی AI لیبز کے ساتھ کام کرنے سے 1.2 بلین ڈالر کی آمدنی حاصل کی ہے، حال ہی میں ایک نئی داخلی تنظیم کی تشکیل کی ہے جسے خاص طور پر RL ماحولیات کی تعمیر کا کام سونپا گیا ہے۔
Surge کے پیچھے مرکر ہے، ایک سٹارٹ اپ جس کی قیمت $10 بلین ہے، جس نے OpenAI، Meta، اور Anthropic کے ساتھ بھی کام کیا ہے۔ مرکر سرمایہ کاروں کو اپنی کاروباری عمارت RL vironments پر راغب کر رہا ہے۔
TechCrunch کی طرف سے دیکھے گئے مارکیٹنگ مواد کے مطابق، ڈومین کے مخصوص کاموں جیسے کوڈنگ، صحت کی دیکھ بھال، اور قانون کے لیے۔ مرکر کے سی ای او برینڈن فوڈی نے ایک انٹرویو میں ٹیک کرنچ کو بتایا کہ
"کچھ لوگ سمجھتے ہیں کہ RL ماحول کے آس پاس واقعی کتنا بڑا موقع ہے۔"
اسکیل AI ڈیٹا لیبلنگ کی جگہ پر غلبہ حاصل کرتا تھا، لیکن میٹا کی جانب سے 14 بلین ڈالر کی سرمایہ کاری کرنے اور اپنے سی ای او کی خدمات حاصل کرنے کے بعد سے اس نے زمین کھو دی ہے۔ تب سے، گوگل اور اوپن اے آئی نے ڈیٹا فراہم کنندہ کے طور پر اسکیل AI کو چھوڑ دیا، اور اسٹارٹ اپ کو میٹا کے اندر ڈیٹا لیبلنگ کے کام کے لیے مقابلے کا سامنا کرنا پڑتا ہے۔ لیکن پھر بھی، اسکیل اس لمحے کو پورا کرنے اور ماحول بنانے کی کوشش کر رہا ہے۔
"یہ صرف کاروبار کی نوعیت ہے [اسکیل AI] میں ہے،" چیتن رانے، اسکیل AI کے ایجنٹس اور RL ماحولیات کے پروڈکٹ کے سربراہ نے کہا۔ "اسکیل نے تیزی سے موافقت کرنے کی اپنی صلاحیت کو ثابت کر دیا ہے۔ ہم نے یہ خود مختار گاڑیوں کے ابتدائی دنوں میں کیا تھا، جو ہماری پہلی کاروباری اکائی ہے۔ جب ChatGPT سامنے آیا، Scale AI نے اس کے مطابق ڈھال لیا۔ اور اب، ایک بار پھر، ہم نئی سرحدی جگہوں جیسے ایجنٹوں اور ماحول کے مطابق ڈھال رہے ہیں۔"
کچھ نئے کھلاڑی شروع سے ہی ماحول پر خصوصی توجہ مرکوز کر رہے ہیں۔ ان میں میکانائز بھی ہے، ایک سٹارٹ اپ جس کی بنیاد تقریباً چھ ماہ قبل "تمام ملازمتوں کو خودکار کرنے" کے دلیرانہ مقصد کے ساتھ رکھی گئی تھی۔ تاہم، شریک بانی میتھیو بارنیٹ نے TechCrunch کو بتایا کہ ان کی فرم AI کوڈنگ ایجنٹس کے لیے RL ماحولیات سے شروع کر رہی ہے۔ بارنیٹ کا کہنا ہے کہ میکانائز کا مقصد AI لیبز کو تھوڑی تعداد میں مضبوط RL ماحول فراہم کرنا ہے، بجائے اس کے کہ بڑی ڈیٹا فرموں کے بجائے جو سادہ RL ماحول کی ایک وسیع رینج تخلیق کرتی ہیں۔ اس مقام تک، سٹارٹ اپ سافٹ ویئر انجینئرز کو RL ماحول بنانے کے لیے $500,000 تنخواہوں کی پیشکش کر رہا ہے جو ایک گھنٹہ کنٹریکٹر اسکیل AI یا سرج پر کام کر کے کما سکتا ہے۔
Mechanize پہلے سے ہی RL ماحولیات پر Anthropic کے ساتھ کام کر رہا ہے، اس معاملے سے واقف دو ذرائع نے TechCrunch کو بتایا۔ میکانائز اور اینتھروپک نے شراکت پر تبصرہ کرنے سے انکار کردیا۔ دوسرے سٹارٹ اپ شرط لگا رہے ہیں کہ RL ماحولیات AI لیبز کے باہر اثر انداز ہوں گے۔ Prime Intellect ایک سٹارٹ اپ جس کی پشت پناہی AI محقق Andrej Karpathy، Founders Fund، اور Menlo Ventures نے کی ہے اپنے RL ماحول کے ساتھ چھوٹے ڈویلپرز کو نشانہ بنا رہا ہے۔ پچھلے مہینے، پرائم انٹیلیکٹ نے ایک RL ماحولیات کا مرکز شروع کیا، جس کا مقصد "RL ماحولیات کے لیے گلے ملنے والا چہرہ" بننا ہے۔ خیال یہ ہے کہ اوپن سورس ڈویلپرز کو انہی وسائل تک رسائی دی جائے جو بڑی AI لیبز کے پاس ہیں، اور ان ڈویلپرز کو اس عمل میں کمپیوٹیشنل وسائل تک رسائی فروخت کرنا ہے۔
پرائم انٹیلیکٹ کے محقق ول براؤن کے مطابق، RL ماحول میں عام طور پر قابل ایجنٹوں کی تربیت پچھلی AI تربیتی تکنیکوں سے زیادہ کمپیوٹیشنل مہنگی ہو سکتی ہے۔ RL ماحول بنانے والے اسٹارٹ اپ کے ساتھ ساتھ، GPU فراہم کنندگان کے لیے ایک اور موقع ہے جو اس عمل کو طاقت دے سکتا ہے۔ براؤن نے ایک انٹرویو میں کہا، "کسی بھی ایک کمپنی کے لیے RL ماحول بہت بڑا ہو گا۔ "ہم جو کچھ کر رہے ہیں اس کا ایک حصہ صرف اس کے ارد گرد اچھا اوپن سورس انفراسٹرکچر بنانے کی کوشش کر رہا ہے۔ ہم جو سروس بیچتے ہیں وہ کمپیوٹ ہے، اس لیے یہ GPUs کا استعمال کرنے کے لیے ایک آسان onramp ہے، لیکن ہم طویل مدتی میں اس کے بارے میں مزید سوچ رہے ہیں۔"
کیا یہ پیمانہ ہوگا؟
RL ماحولیات کے ارد گرد کھلا سوال یہ ہے کہ کیا تکنیک پچھلے AI تربیتی طریقوں کی طرح پیمانہ بنائے گی۔ Reinforcement Learning نے پچھلے سال کے دوران AI میں کچھ سب سے بڑی چھلانگیں لگائی ہیں، بشمول OpenAI's o1 اور Anthropic's Claude Opus 4۔ یہ خاص طور پر اہم پیش رفت ہیں کیونکہ پہلے AI ماڈلز کو بہتر بنانے کے لیے استعمال کیے گئے طریقے اب کم ہوتے ہوئے منافع دکھا رہے ہیں۔ ماحولیات RL پر AI لیبز کی بڑی شرط کا حصہ ہیں، جس کے بارے میں بہت سے لوگوں کا خیال ہے کہ وہ اس عمل میں مزید ڈیٹا اور کمپیوٹیشنل وسائل کا اضافہ کرتے ہوئے ترقی کو آگے بڑھاتے رہیں گے۔ O1 کے پیچھے کچھ OpenAI محققین نے پہلے TechCrunch کو بتایا تھا کہ کمپنی نے اصل میں AI ریجننگ ماڈلز میں سرمایہ کاری کی تھی جو RL اور ٹیسٹ ٹائم کمپیوٹ میں سرمایہ کاری کے ذریعے تخلیق کیے گئے تھے کیونکہ ان کا خیال تھا کہ یہ اچھی طرح سے پیمانے پر آئے گا۔
![]() |
سلیکن ویلی AI ایجنٹوں کو تربیت دینے کے لیے 'ماحولات' پر بڑی شرط لگاتی ہے۔ |
RL کی پیمائش کرنے کا بہترین طریقہ ابھی تک واضح نہیں ہے، لیکن ماحول ایک امید افزا دعویدار کی طرح لگتا ہے۔ متنی جوابات کے لیے چیٹ بوٹس کو محض انعام دینے کے بجائے، وہ ایجنٹوں کو اپنے اختیار میں ٹولز اور کمپیوٹرز کے ساتھ نقلی کام کرنے دیتے ہیں۔ یہ کہیں زیادہ وسائل پر مبنی ہے، لیکن ممکنہ طور پر زیادہ فائدہ مند ہے۔ کچھ کو شبہ ہے کہ یہ تمام RL ماحول ختم ہو جائیں گے۔ Ross Taylor، Meta کے ساتھ ایک سابقہ AI ریسرچ لیڈ جس نے جنرل ریزننگ کی مشترکہ بنیاد رکھی، TechCrunch کو بتاتا ہے کہ RL ماحول ہیکنگ کا بدلہ لینے کا شکار ہیں۔ یہ ایک ایسا عمل ہے جس میں AI ماڈل واقعی کام کیے بغیر، انعام حاصل کرنے کے لیے دھوکہ دیتے ہیں۔
"میرے خیال میں لوگ اس بات کو کم کر رہے ہیں کہ ماحول کو پیمانہ کرنا کتنا مشکل ہے،" ٹیلر نے کہا۔ "یہاں تک کہ بہترین عوامی طور پر دستیاب [RL ماحول] عام طور پر سنجیدہ ترمیم کے بغیر کام نہیں کرتے ہیں۔"
اوپن اے آئی کے اپنے API کاروبار کے لیے انجینئرنگ کے سربراہ، شیرون وو نے ایک حالیہ پوڈ کاسٹ میں کہا کہ وہ RL ماحولیات کے آغاز میں "مختصر" تھے۔ وو نے نوٹ کیا کہ یہ ایک بہت ہی مسابقتی جگہ ہے، لیکن یہ بھی کہ AI تحقیق اتنی تیزی سے تیار ہو رہی ہے کہ AI لیبز کو اچھی طرح سے پیش کرنا مشکل ہے۔
کارپتھی، پرائم انٹیلیکٹ میں سرمایہ کار:
جس نے RL ماحولیات کو ایک ممکنہ پیش رفت قرار دیا ہے، اس نے RL جگہ کے لیے بھی زیادہ وسیع پیمانے پر احتیاط کا اظہار کیا ہے۔ X پر ایک پوسٹ میں، اس نے اس بارے میں تشویش کا اظہار کیا کہ RL سے کتنی زیادہ AI پیش رفت کو نچوڑا جا سکتا ہے۔
کارپتھی نے کہا، "میں ماحولیات اور ایجنٹ کے تعاملات کے بارے میں پر امید ہوں لیکن میں خاص طور پر کمک سیکھنے کے بارے میں مندی کا شکار ہوں۔"
ہم امید کرتے ہیں کہ یہ مضمون آپ کو AI ایجنٹوں اور RL ماحول کے مستقبل کے بارے میں قیمتی بصیرت فراہم کرے گا۔ آپ کی رائے ہمارے لیے نہایت اہم ہے، لہٰذا کمنٹس میں اپنے خیالات ضرور شیئر کریں۔ ہماری ویب سائٹ پر آنے کا شکریہ۔