ஆந்த்ரோபிக்கின் புதிய AI மாடல் கோடிங் & ரீசனிங் பெஞ்ச்மார்க்குகளில் ஆதிக்கம் செலுத்துகிறது; சவாலான GPT-5.2

0
ஆந்த்ரோபிக் அதிகாரப்பூர்வமாக கிளாட் ஓபஸ் 4.6 ஐ அறிமுகப்படுத்தியுள்ளது, இது இன்னும் மேம்பட்ட AI மாடலாக உள்ளது, பகுத்தறிவு, குறியீட்டு முறை மற்றும் நீண்ட சூழல் செயலாக்கத்தில் பெரிய மேம்பாடுகளுடன். இந்த வெளியீடு OpenAI இன் GPT மற்றும் Google இன் ஜெமினி ஆகியவற்றுடன் போட்டியை தீவிரப்படுத்துகிறது, பொருளாதார ரீதியாக மதிப்புமிக்க வேலை மற்றும் முகவர் குறியீட்டு முறைக்கான முக்கிய அளவுகோல்களில் அதிநவீன செயல்திறனைக் கோருகிறது.
தொழில்நுட்ப விவரக்குறிப்புகள் மற்றும் முக்கிய அம்சங்கள்
கிளாட் ஓபஸ் 4.6 திறனில் கணிசமான பாய்ச்சலைக் குறிக்கிறது, இது பீட்டா 1 மில்லியன் டோக்கன் சூழல் சாளரத்தின் மூலம் தலையீடு செய்யப்படுகிறது-ஓபஸ் மாடல் வரிசைக்கான முதல். இது மாதிரியானது மிக நீண்ட ஆவணங்கள், கோட்பேஸ்கள் அல்லது பகுப்பாய்வு அமர்வுகளில் குறைக்கப்பட்ட “சூழல் அழுகல்” மூலம் தகவலைச் செயலாக்கவும் தக்கவைக்கவும் அனுமதிக்கிறது. மாடல் 128,000 டோக்கன்கள் வரையிலான வெளியீடுகளை ஆதரிக்கிறது மற்றும் புதிய டெவலப்பர் கட்டுப்பாடுகளை அறிமுகப்படுத்துகிறது, இதில் பகுத்தறிவு ஆழத்திற்கான தகவமைப்பு சிந்தனை மற்றும் நீட்டிக்கப்பட்ட முகவர் பணிப்பாய்வுகளுக்கான சூழல் சுருக்கம் ஆகியவை அடங்கும்.
பெஞ்ச்மார்க் செயல்திறன் மற்றும் திறன்கள்
ஆந்த்ரோபிக் நிலைகள் ஓபஸ் 4.6 சிக்கலான, தன்னாட்சிப் பணிகளில் முன்னணியில் உள்ளது. பல முக்கியமான மதிப்பீடுகளில் மாடல் சிறந்த மதிப்பெண்களைப் பெறுகிறது:
- டெர்மினல்-பெஞ்ச் 2.0: ஏஜென்டிக் குறியீட்டு செயல்திறனில் முன்னணியில் உள்ளது.
- மனிதநேயத்தின் கடைசிப் பரீட்சை: இந்தப் பலதரப்பட்ட பகுத்தறிவுத் தேர்வில் முதலிடம் வகிக்கிறது.
- GDPval-AA: அறிக்கைகளின்படி, இது OpenAI இன் GPT-5.2 ஐ விட வங்கி மற்றும் சட்டப் பகுப்பாய்வு பணிகளில் சுமார் 144 Elo புள்ளிகள் அதிகமாக உள்ளது.
- MRCR v2: 1M டோக்கன் சூழலில் இந்த “நீடில்-இன்-எ-ஹேஸ்டாக்” மீட்டெடுப்பு சோதனையில் 76% மதிப்பெண்கள் பெற்றுள்ளது, இது முந்தைய மாடல்களை விட பெரிய முன்னேற்றம்.
குறியீடு மதிப்பாய்வு, பிழைத்திருத்தம் மற்றும் அதிக திட்டமிடல் துல்லியத்துடன் நீண்டகால முகவர் பணிப்பாய்வுகளைத் தக்கவைக்கும் திறன் ஆகியவற்றில் மேம்படுத்தப்பட்ட செயல்திறனை நிறுவனம் குறிப்பிடுகிறது.
பாதுகாப்பு மற்றும் பாதுகாப்பு மேம்பாடுகள்
Anthropic இன் வெளியிடப்பட்ட கணினி அட்டையின் படி, செயல்திறன் ஆதாயங்கள் பாதுகாப்பு சீரமைப்பில் சமரசம் செய்யாது. ஓபஸ் 4.6, ஏமாற்றுதல் போன்ற தவறான நடத்தைகளின் குறைந்த விகிதங்களை நிரூபிக்கிறது மற்றும் முந்தைய கிளாட் மாதிரிகளுடன் ஒப்பிடுகையில் குறைவான தேவையற்ற மறுப்புகளை வெளிப்படுத்துகிறது. மாடலின் மேம்படுத்தப்பட்ட திறன்களுக்கு விடையிறுக்கும் வகையில், ஆந்த்ரோபிக் அதன் தற்காப்பு மற்றும் தாக்குதல் பாதுகாப்பு திறனை மதிப்பிடுவதற்கு புதிய இணைய பாதுகாப்பு ஆய்வுகளை அறிமுகப்படுத்தியுள்ளது.
API, தயாரிப்பு ஒருங்கிணைப்பு மற்றும் கிடைக்கும் தன்மை
மாடல் உடனடியாக ஆந்த்ரோபிக் ஏபிஐ, claude.ai மற்றும் முக்கிய கிளவுட் இயங்குதளங்களில் கிடைக்கிறது. முக்கிய தயாரிப்பு ஒருங்கிணைப்புகள் அடங்கும்:
- கிளாட் குறியீடு: இப்போது பெரிய கோட்பேஸ் மதிப்புரைகளில் இணையான வேலைக்காக “ஏஜெண்ட் டீம்கள்” இடம்பெறுகிறது.
- சகபணிச் சூழல்: பகுப்பாய்வு மற்றும் ஆவண உருவாக்கம் போன்ற திறமைகளை ஒருங்கிணைத்து, தன்னாட்சி பல-படி பணிகளைச் செயல்படுத்த அனுமதிக்கிறது.
- Office Suite: Excel இல் மேம்படுத்தல்கள் மற்றும் Max, Team மற்றும் Enterprise பயனர்களுக்கான PowerPoint ஒருங்கிணைப்புக்கான ஆராய்ச்சி முன்னோட்டம்.
ஒரு மில்லியன் உள்ளீட்டு டோக்கன்களுக்கு $5 மற்றும் ஒரு மில்லியன் வெளியீட்டு டோக்கன்களுக்கு $25 என விலை மாறாமல் உள்ளது.
பகுப்பாய்வு: AI போட்டி நிலப்பரப்பில் தாக்கம்
ஓபஸ் 4.6 இன் வெளியீடு நேரடியாக AI இன் விளிம்பில் உள்ள போட்டியாளர்களை நேரடியாகப் பெறுகிறது, குறிப்பாக பெரிய தரவுத் தொகுப்புகளில் ஆழமான பகுத்தறிவு தேவைப்படும் பகுதிகளில். குறியீட்டு சுதந்திரம், நிதி பகுப்பாய்வு மற்றும் நீண்ட சூழல் துல்லியத்தை மேம்படுத்துவதன் மூலம், ஆந்த்ரோபிக் அதிக மதிப்புள்ள நிறுவன மற்றும் டெவலப்பர் தேவைகளை நோக்கமாகக் கொண்டுள்ளது. வலுவான அளவுகோல் முடிவுகள், குறிப்பாக GDPval-AA இல், தொழில்முறை மற்றும் பகுப்பாய்வு பயன்பாடுகளில் வெற்றி பெறுவதற்கான தெளிவான மூலோபாயத்தை சுட்டிக்காட்டுகிறது.
அடிக்கடி கேட்கப்படும் கேள்விகள்:
கே: கிளாட் ஓபஸ் 4.6க்கான சூழல் சாளரம் என்ன?
ப: கிளாட் ஓபஸ் 4.6 பீட்டாவில் 1 மில்லியன் டோக்கன் சூழல் சாளரத்தை அறிமுகப்படுத்துகிறது, இது ஒரு அமர்வில் அதிக தகவல்களை செயலாக்க அனுமதிக்கிறது.
கே: GPT-5.2 உடன் ஒப்பிடும்போது Opus 4.6 எவ்வாறு செயல்படுகிறது?
A: Anthropic இன் படி, ஓபஸ் 4.6 GDPval-AA அளவுகோலில் சுமார் 144 Elo புள்ளிகளால் GPT-5.2 ஐ விட அதிகமாக உள்ளது, இது நிதி மற்றும் சட்ட நடவடிக்கைகளில் செயல்திறனை அளவிடுகிறது.
கே: Claude Opus 4.6 இப்போது கிடைக்கிறதா?
ப: ஆம், மாடல் இன்று வரை claude.ai, Anthropic API மற்றும் முக்கிய கிளவுட் இயங்குதளங்களில் கிடைக்கிறது.
Source link



