Web LLM – WebGPU மூலம் இயங்கும் பெரிய மொழி மாதிரிகளின் அனுமானம்

Web LLM – WebGPU மூலம் இயங்கும் பெரிய மொழி மாதிரிகளின் அனுமானம்

0 minutes, 15 seconds Read

இந்த வேலை மொழி வடிவமைப்பு பேச்சுக்களை நேரடியாக இணைய இணைய உலாவிகளில் கொண்டு வருகிறது. சர்வர் உதவியின்றியும், WebGPU உடன் வேகப்படுத்தப்படாமலும் இணைய உலாவியில் அனைத்தும் இயங்குகிறது. GPU வேகத்தில் மகிழ்ச்சியளிக்கும் போது, ​​அனைவருக்கும் AI உதவியாளர்களை உருவாக்குவதற்கும், தனிப்பட்ட தனியுரிமைக்கு சாத்தியமாக்குவதற்கும் நிறைய மகிழ்ச்சியான வாய்ப்புகளை நாம் கொண்டு வரலாம்.

வெளியேற எங்களின் ஆர்ப்பாட்ட வலைப்பக்கத்தைப் பாருங்கள்!

உண்மையில் நாம் உருவாக்கும் AI மற்றும் LLM இல் அற்புதமான வளர்ச்சியைக் காண்கிறோம். LLaMA, Alpaca, Vicuna மற்றும் Dolly போன்ற திறந்த மூல முயற்சிகளுக்கு நன்றி, இப்போது நமது சொந்த திறந்த மூல மொழி வடிவமைப்புகள் மற்றும் தனிப்பட்ட AI உதவியாளர் கட்டமைப்பின் சுவாரஸ்யமான எதிர்காலத்தைக் காணலாம்.

இவை வடிவமைப்புகள் பொதுவாக பெரியவை மற்றும் கணக்கீடு-கனமானவை. ஒரு அரட்டை சேவையை உருவாக்க, ஒரு நியாயமான சேவையகத்தை இயக்குவதற்கு எங்களுக்கு ஒரு பெரிய கிளஸ்டர் தேவைப்படும், அதே நேரத்தில் வாடிக்கையாளர்கள் சேவையகங்களுக்கு கோரிக்கைகளை அனுப்பி நியாயமான வெளியீட்டைப் பெறுவார்கள். நாமும் பொதுவாக ஒரு குறிப்பிட்ட வகை ஜி.பீ.களில் இயங்க வேண்டும், அங்கு பிரபலமான ஆழமான கற்றல் கட்டமைப்புகள் எளிதில் கிடைக்கின்றன.

இந்தப் பணியானது சமூகத்திற்கு மேலும் பலவகைகளைக் கொண்டுவருவதற்கான எங்கள் செயலாகும். குறிப்பாக, எல்.எல்.எம்-களை நேரடியாக வாடிக்கையாளர் பக்கத்திற்குச் சுட்டு, அவற்றை இணைய உலாவிக்குள் நேரடியாக இயக்க முடியுமா? அதைப் புரிந்து கொள்ள முடிந்தால், செலவுக் குறைப்பு, தனிப்பயனாக்கத்திற்கான மேம்பாடு மற்றும் தனிப்பட்ட தனியுரிமைப் பாதுகாப்பு ஆகியவற்றின் நன்மைகளுடன் வாடிக்கையாளர் தனிப்பட்ட AI வடிவமைப்புகளுக்கான உதவியை நாங்கள் கையாளலாம். வாடிக்கையாளர் தரப்பு மிகவும் பயனுள்ளதாக உள்ளது. எடுத்துக்காட்டாக, தற்போதைய மேக்புக் ப்ரோவில் 60G+ க்கும் மேற்பட்ட இணைக்கப்பட்ட GPU ரேம் இருக்கலாம், இது வடிவமைப்பு எடைகளை வாங்கவும், பல வேலைகளை இயக்குவதற்கு மிகவும் பயனுள்ள GPU ஆகவும் பயன்படுத்தப்படலாம்.

இல்லையா? இணைய உலாவியைத் திறந்து AI ஐ நேரடியாக உங்கள் இணைய உலாவி தாவலுக்குக் கொண்டு வர முடிந்தால் இன்னும் நம்பமுடியாததா? சமூகத்தில் ஒருவித ஆயத்த நிலை உள்ளது. WebGPU எளிமையாக வழங்கப்பட்டுள்ளது மற்றும் இணைய உலாவியில் நேட்டிவ் GPU செயல்படுத்தல்களை சாத்தியமாக்கியுள்ளது.

இன்னும், ஒரு ஜோடியைக் குறிப்பிடுவதற்கு, கடக்க பெரும் தடைகள் உள்ளன:

  • பொருத்தமான GPU-துரிதப்படுத்தப்பட்ட பைதான் கட்டமைப்புகள் இல்லாமல் எங்காவது வடிவமைப்புகளை கொண்டு வர வேண்டும்.
  • பெரும்பாலான AI கட்டமைப்புகள் வன்பொருள் சப்ளையர்களால் வைக்கப்படும் மேம்படுத்தப்பட்ட கணக்கிடப்பட்ட நூலகங்களை பெரிதும் நம்பியுள்ளன. நாம் புதிதாக தொடங்க வேண்டும்.
  • நினைவக உபயோகத்தை கவனமாக தயாரித்தல், மற்றும் எடைகளை ஆக்ரோஷமாக சுருக்குதல்

நாங்களும் அதை ஒரு வடிவமைப்பிற்காக மட்டும் செய்ய விரும்பவில்லை. அதற்குப் பதிலாக, திறமையான பைதான்-முதல் முறையில் இந்த வடிவமைப்புகளை விரைவாக நிறுவி மேம்படுத்தி, அவற்றை இணையத்தில் பரவலாகப் பயன்படுத்தக்கூடிய வகையில், மீண்டும் மீண்டும் செய்யக்கூடிய மற்றும் ஹேக் செய்யக்கூடிய பணிப்பாய்வுகளை வழங்க விரும்புகிறோம்.

WebGPU ஐ ஆதரிப்பதைத் தவிர, TVM ஆதரிக்கும் (CUDA, OpenCL மற்றும் Vulkan போன்றவை) மற்றும் LLM வடிவமைப்புகளை நடைமுறைப்படுத்துவதற்கு உண்மையில் சாத்தியமாக்கும் பிற வகையான GPU பின்தளங்களுக்கான சேணத்தையும் இந்த பணி வழங்குகிறது.

எப்படி

இங்கே உள்ள ரகசிய கண்டுபிடிப்பு சாதனம் அறிதல் சேகரிப்பு (MLC). எங்கள் சேவையானது ஓப்பன் சோர்ஸ் சூழலின் தோள்களில் கட்டமைக்கப்படுகிறது, இதில் கட்டிப்பிடிக்கும் முகம், LAMA மற்றும் Vicuna, வாஸ்ம் மற்றும் WebGPU ஆகியவற்றின் வடிவமைப்பு மாறுபாடுகள் உள்ளன. Apache TVM யூனிட்டியில் முதன்மை சுழற்சி கட்டமைக்கப்பட்டது, இது Apache TVM சமூகத்தில்

    • ஒரு சுவாரசியமான தொடர்ச்சியான முன்னேற்றம் ஆகும். சொந்த துடிப்பான வடிவ உதவியுடன் TVM இல், அதிகபட்ச நீளத்திற்கு குஷனிங் தேவையை தடுக்கிறது மற்றும் கணக்கீடு அளவு மற்றும் நினைவக பயன்பாடு இரண்டையும் குறைக்கிறது.

    TVM இன் ஒவ்வொரு செயல்பாடும் IRModule இன்னும் மாற்றப்பட்டு, குறைந்தபட்ச tvm இயக்க நேரத்தால் ஆதரிக்கப்படும் (ஜாவாஸ்கிரிப்ட் அவற்றில் ஒன்று) எந்த சூழலிலும் பரவலாக வெளியிடப்படும் இயங்கக்கூடிய குறியீட்டை உருவாக்கலாம்.

  • TensorIR என்பது மேம்படுத்தப்பட்ட நிரல்களை உருவாக்கப் பயன்படுத்தப்படும் ரகசிய உத்தியாகும். தொழில்முறை புரிதல் மற்றும் தானியங்கு திட்டமிடல் ஆகியவற்றின் கலவையின் அடிப்படையில் TensorIR நிரல்களை விரைவாக மாற்றுவதன் மூலம் திறமையான சேவைகளை வழங்குகிறோம்.

இலகு எடை ஆபரேட்டர்களை மேம்படுத்தும் போது ஹியூரிஸ்டிக்ஸ் பயன்படுத்தப்படுகிறது பொறியியல் அழுத்தத்தைக் குறைப்பதற்காக. வடிவமைப்பு எடைகளை நினைவகத்தில் பொருத்தும் வகையில் சுருக்க, int4 அளவீட்டு உத்திகளை நாங்கள் உருவாக்குகிறோம். பல அடுக்குகளில் நினைவகத்தை மீண்டும் பயன்படுத்த நிலையான நினைவக தயாரிப்பு மேம்படுத்தல்களை நாங்கள் உருவாக்குகிறோம்.

  • உருவாக்கப்பட்ட தொகுதிகளை வெளியிடக்கூடிய TVM இணைய இயக்க நேரத்தை உருவாக்க எம்ஸ்கிரிப்டன் மற்றும் டைப்ஸ்கிரிப்டைப் பயன்படுத்துகிறோம்.
  • நாங்கள் இதேபோல் SentencePiece டோக்கனைசரின் wam போர்ட்டையும் பயன்படுத்தினோம்.

    இந்தப் பணிப்பாய்வுகளின் அனைத்துப் பகுதிகளும் பைத்தானில் செய்யப்படுகின்றன, ஆனால் கடைசிப் பகுதியைத் தவிர, 600 லாக் ஜாவாஸ்கிரிப்ட் பயன்பாட்டை ஒன்றாக இணைக்கிறது. புத்தம் புதிய வடிவமைப்புகளை எடுத்துக்கொண்டு, ஊடாடத்தக்க முன்னேற்றத்திற்கான ஒரு சுவாரஸ்யமான செயல்முறை இதுவாகும்.

    இவை அனைத்தும் திறந்த மூல சமூகத்தால் சாத்தியமானது, அதை நாம் சாதகமாக எடுத்துக்கொள்கிறோம். குறிப்பாக, TVM யூனிட்டியை நாங்கள் அதிகமாகப் பயன்படுத்துகிறோம், இது போன்ற பைதான்-முதல் ஊடாடும் MLC முன்னேற்ற அனுபவங்களைச் சாத்தியமாக்கும் TVM பணியின் ஒரு சுவாரஸ்யமான தற்போதைய முன்னேற்றம், பைத்தானில் உள்ள புத்தம் புதிய மேம்படுத்தல்களை விரைவாக மேக்கப் செய்ய உதவுகிறது, மேலும் எங்கள் பயன்பாட்டை மேலும் அதிகரிக்கும். web.

    TVM யூனிட்டியும் அதேபோன்று சூழலில் புத்தம் புதிய விருப்பங்களை ஒப்பனை செய்வதற்கான எளிய முறையை வழங்குகிறது

    மேலும் படிக்க.

    Similar Posts