இந்த வேலை மொழி வடிவமைப்பு பேச்சுக்களை நேரடியாக இணைய இணைய உலாவிகளில் கொண்டு வருகிறது. சர்வர் உதவியின்றியும், WebGPU உடன் வேகப்படுத்தப்படாமலும் இணைய உலாவியில் அனைத்தும் இயங்குகிறது. GPU வேகத்தில் மகிழ்ச்சியளிக்கும் போது, அனைவருக்கும் AI உதவியாளர்களை உருவாக்குவதற்கும், தனிப்பட்ட தனியுரிமைக்கு சாத்தியமாக்குவதற்கும் நிறைய மகிழ்ச்சியான வாய்ப்புகளை நாம் கொண்டு வரலாம்.
வெளியேற எங்களின் ஆர்ப்பாட்ட வலைப்பக்கத்தைப் பாருங்கள்!
உண்மையில் நாம் உருவாக்கும் AI மற்றும் LLM இல் அற்புதமான வளர்ச்சியைக் காண்கிறோம். LLaMA, Alpaca, Vicuna மற்றும் Dolly போன்ற திறந்த மூல முயற்சிகளுக்கு நன்றி, இப்போது நமது சொந்த திறந்த மூல மொழி வடிவமைப்புகள் மற்றும் தனிப்பட்ட AI உதவியாளர் கட்டமைப்பின் சுவாரஸ்யமான எதிர்காலத்தைக் காணலாம்.
இவை வடிவமைப்புகள் பொதுவாக பெரியவை மற்றும் கணக்கீடு-கனமானவை. ஒரு அரட்டை சேவையை உருவாக்க, ஒரு நியாயமான சேவையகத்தை இயக்குவதற்கு எங்களுக்கு ஒரு பெரிய கிளஸ்டர் தேவைப்படும், அதே நேரத்தில் வாடிக்கையாளர்கள் சேவையகங்களுக்கு கோரிக்கைகளை அனுப்பி நியாயமான வெளியீட்டைப் பெறுவார்கள். நாமும் பொதுவாக ஒரு குறிப்பிட்ட வகை ஜி.பீ.களில் இயங்க வேண்டும், அங்கு பிரபலமான ஆழமான கற்றல் கட்டமைப்புகள் எளிதில் கிடைக்கின்றன.
இந்தப் பணியானது சமூகத்திற்கு மேலும் பலவகைகளைக் கொண்டுவருவதற்கான எங்கள் செயலாகும். குறிப்பாக, எல்.எல்.எம்-களை நேரடியாக வாடிக்கையாளர் பக்கத்திற்குச் சுட்டு, அவற்றை இணைய உலாவிக்குள் நேரடியாக இயக்க முடியுமா? அதைப் புரிந்து கொள்ள முடிந்தால், செலவுக் குறைப்பு, தனிப்பயனாக்கத்திற்கான மேம்பாடு மற்றும் தனிப்பட்ட தனியுரிமைப் பாதுகாப்பு ஆகியவற்றின் நன்மைகளுடன் வாடிக்கையாளர் தனிப்பட்ட AI வடிவமைப்புகளுக்கான உதவியை நாங்கள் கையாளலாம். வாடிக்கையாளர் தரப்பு மிகவும் பயனுள்ளதாக உள்ளது. எடுத்துக்காட்டாக, தற்போதைய மேக்புக் ப்ரோவில் 60G+ க்கும் மேற்பட்ட இணைக்கப்பட்ட GPU ரேம் இருக்கலாம், இது வடிவமைப்பு எடைகளை வாங்கவும், பல வேலைகளை இயக்குவதற்கு மிகவும் பயனுள்ள GPU ஆகவும் பயன்படுத்தப்படலாம்.
இல்லையா? இணைய உலாவியைத் திறந்து AI ஐ நேரடியாக உங்கள் இணைய உலாவி தாவலுக்குக் கொண்டு வர முடிந்தால் இன்னும் நம்பமுடியாததா? சமூகத்தில் ஒருவித ஆயத்த நிலை உள்ளது. WebGPU எளிமையாக வழங்கப்பட்டுள்ளது மற்றும் இணைய உலாவியில் நேட்டிவ் GPU செயல்படுத்தல்களை சாத்தியமாக்கியுள்ளது.
இன்னும், ஒரு ஜோடியைக் குறிப்பிடுவதற்கு, கடக்க பெரும் தடைகள் உள்ளன:
- பொருத்தமான GPU-துரிதப்படுத்தப்பட்ட பைதான் கட்டமைப்புகள் இல்லாமல் எங்காவது வடிவமைப்புகளை கொண்டு வர வேண்டும்.
- பெரும்பாலான AI கட்டமைப்புகள் வன்பொருள் சப்ளையர்களால் வைக்கப்படும் மேம்படுத்தப்பட்ட கணக்கிடப்பட்ட நூலகங்களை பெரிதும் நம்பியுள்ளன. நாம் புதிதாக தொடங்க வேண்டும்.
- நினைவக உபயோகத்தை கவனமாக தயாரித்தல், மற்றும் எடைகளை ஆக்ரோஷமாக சுருக்குதல்
நாங்களும் அதை ஒரு வடிவமைப்பிற்காக மட்டும் செய்ய விரும்பவில்லை. அதற்குப் பதிலாக, திறமையான பைதான்-முதல் முறையில் இந்த வடிவமைப்புகளை விரைவாக நிறுவி மேம்படுத்தி, அவற்றை இணையத்தில் பரவலாகப் பயன்படுத்தக்கூடிய வகையில், மீண்டும் மீண்டும் செய்யக்கூடிய மற்றும் ஹேக் செய்யக்கூடிய பணிப்பாய்வுகளை வழங்க விரும்புகிறோம்.
WebGPU ஐ ஆதரிப்பதைத் தவிர, TVM ஆதரிக்கும் (CUDA, OpenCL மற்றும் Vulkan போன்றவை) மற்றும் LLM வடிவமைப்புகளை நடைமுறைப்படுத்துவதற்கு உண்மையில் சாத்தியமாக்கும் பிற வகையான GPU பின்தளங்களுக்கான சேணத்தையும் இந்த பணி வழங்குகிறது.
எப்படி
இங்கே உள்ள ரகசிய கண்டுபிடிப்பு சாதனம் அறிதல் சேகரிப்பு (MLC). எங்கள் சேவையானது ஓப்பன் சோர்ஸ் சூழலின் தோள்களில் கட்டமைக்கப்படுகிறது, இதில் கட்டிப்பிடிக்கும் முகம், LAMA மற்றும் Vicuna, வாஸ்ம் மற்றும் WebGPU ஆகியவற்றின் வடிவமைப்பு மாறுபாடுகள் உள்ளன. Apache TVM யூனிட்டியில் முதன்மை சுழற்சி கட்டமைக்கப்பட்டது, இது Apache TVM சமூகத்தில்
- ஒரு சுவாரசியமான தொடர்ச்சியான முன்னேற்றம் ஆகும். சொந்த துடிப்பான வடிவ உதவியுடன் TVM இல், அதிகபட்ச நீளத்திற்கு குஷனிங் தேவையை தடுக்கிறது மற்றும் கணக்கீடு அளவு மற்றும் நினைவக பயன்பாடு இரண்டையும் குறைக்கிறது.
- TensorIR என்பது மேம்படுத்தப்பட்ட நிரல்களை உருவாக்கப் பயன்படுத்தப்படும் ரகசிய உத்தியாகும். தொழில்முறை புரிதல் மற்றும் தானியங்கு திட்டமிடல் ஆகியவற்றின் கலவையின் அடிப்படையில் TensorIR நிரல்களை விரைவாக மாற்றுவதன் மூலம் திறமையான சேவைகளை வழங்குகிறோம்.
TVM இன் ஒவ்வொரு செயல்பாடும் IRModule இன்னும் மாற்றப்பட்டு, குறைந்தபட்ச tvm இயக்க நேரத்தால் ஆதரிக்கப்படும் (ஜாவாஸ்கிரிப்ட் அவற்றில் ஒன்று) எந்த சூழலிலும் பரவலாக வெளியிடப்படும் இயங்கக்கூடிய குறியீட்டை உருவாக்கலாம்.
இலகு எடை ஆபரேட்டர்களை மேம்படுத்தும் போது ஹியூரிஸ்டிக்ஸ் பயன்படுத்தப்படுகிறது பொறியியல் அழுத்தத்தைக் குறைப்பதற்காக. வடிவமைப்பு எடைகளை நினைவகத்தில் பொருத்தும் வகையில் சுருக்க, int4 அளவீட்டு உத்திகளை நாங்கள் உருவாக்குகிறோம். பல அடுக்குகளில் நினைவகத்தை மீண்டும் பயன்படுத்த நிலையான நினைவக தயாரிப்பு மேம்படுத்தல்களை நாங்கள் உருவாக்குகிறோம்.
நாங்கள் இதேபோல் SentencePiece டோக்கனைசரின் wam போர்ட்டையும் பயன்படுத்தினோம்.
இந்தப் பணிப்பாய்வுகளின் அனைத்துப் பகுதிகளும் பைத்தானில் செய்யப்படுகின்றன, ஆனால் கடைசிப் பகுதியைத் தவிர, 600 லாக் ஜாவாஸ்கிரிப்ட் பயன்பாட்டை ஒன்றாக இணைக்கிறது. புத்தம் புதிய வடிவமைப்புகளை எடுத்துக்கொண்டு, ஊடாடத்தக்க முன்னேற்றத்திற்கான ஒரு சுவாரஸ்யமான செயல்முறை இதுவாகும்.
இவை அனைத்தும் திறந்த மூல சமூகத்தால் சாத்தியமானது, அதை நாம் சாதகமாக எடுத்துக்கொள்கிறோம். குறிப்பாக, TVM யூனிட்டியை நாங்கள் அதிகமாகப் பயன்படுத்துகிறோம், இது போன்ற பைதான்-முதல் ஊடாடும் MLC முன்னேற்ற அனுபவங்களைச் சாத்தியமாக்கும் TVM பணியின் ஒரு சுவாரஸ்யமான தற்போதைய முன்னேற்றம், பைத்தானில் உள்ள புத்தம் புதிய மேம்படுத்தல்களை விரைவாக மேக்கப் செய்ய உதவுகிறது, மேலும் எங்கள் பயன்பாட்டை மேலும் அதிகரிக்கும். web.
TVM யூனிட்டியும் அதேபோன்று சூழலில் புத்தம் புதிய விருப்பங்களை ஒப்பனை செய்வதற்கான எளிய முறையை வழங்குகிறது