சமையல் மற்றும் கேம்களில் 70% சரியாகப் பெறுகிறது, ஆனால் மிக முக்கியமான தலைப்பில் மோசமாகத் தோல்வியடைந்தது

ஒரு குறிப்பிட்ட வகை உதவியால் அவளை நம்ப முடியாது
தொழில்நுட்பப் பந்தயம் செயற்கை நுண்ணறிவை குறியீட்டு முறை மற்றும் பகுத்தறிவு ஆகியவற்றில் மேதைகளின் உயரத்திற்கு உயர்த்துவதால், ஒரு புதிய பகுப்பாய்வு நம்பமுடியாத குருட்டுப் புள்ளியை சுட்டிக்காட்டுகிறது: AI, OpenAI இன் மேம்பட்ட மாதிரிகள் உட்பட, சிக்கலான பணிகளுக்கு சிறந்தது, ஆனால் அன்றாட வாழ்க்கைக்கு முக்கியமான ஒன்றில் மோசமாக தோல்வியடைகிறது: ஷாப்பிங் மற்றும் நுகர்வு.
ஓ அளவுகோல் மெர்கோரால் உருவாக்கப்பட்ட ACE (AI நுகர்வோர் குறியீடு), முன்னணி AI மாதிரிகள் (GPT-5, ஜெமினி மற்றும் க்ளாட் உட்பட) 400 நடைமுறைப் பணிகளுக்கு நான்கு பகுதிகளாகப் பிரிக்கப்பட்டுள்ளன – ஷாப்பிங், உணவு, DIY (உங்களைச் செய்யுங்கள்) மற்றும் விளையாட்டுகள். இதன் விளைவாக மிகவும் தேவையான குளிர் மழை: AI ஒரு அருமையான பொது உதவியாளர், ஆனால் ஒரு பயங்கரமான ஒன்றாகும். தனிப்பட்ட கடைக்காரர் நம்பகமான.
சிறந்த, மேலும் திசைதிருப்பப்பட்ட
உயர்ந்த போதிலும் செயல்திறன் மற்ற பகுதிகளில், கொள்முதல் களமானது AIகளின் மிக முக்கியமான குறைபாடுகளை அம்பலப்படுத்தியுள்ளது:
முக்கிய பிரச்சனை என்னவென்றால் மாயத்தோற்றம்அதாவது, AI தகவல்களைக் கண்டுபிடிக்கிறது. மாதிரிகள் அடிக்கடி கொடுத்தன உடைந்த அல்லது இல்லாத இணைப்புகள் தயாரிப்பு பரிந்துரைகள் மற்றும் கண்டுபிடிக்கப்பட்ட விலைகளில் அவர்கள் ஆதாரமாகப் பயன்படுத்திய பக்கங்களுடன் பொருந்தவில்லை.
“இந்த பகுதி எனது கணினிக்கு பொருந்துமா?” போன்ற நடைமுறை கேள்விகளில் அல்லது தயாரிப்பு இணக்கத்தன்மை, பிழைகள் அடிக்கடி இருந்தன.
எப்போது தி அளவுகோல் மாதிரிகள் தேவை அனைத்து தகவல்களையும் சரிபார்க்கவும் எழுத்துருக்களுடன் (தரையிறக்கம்), சில மாதிரிகள் துல்லியத்தில் 20 சதவீத புள்ளிகளுக்கு மேல் குறைந்துவிட்டன.
மிகவும் மேம்பட்ட மாதிரிகள் கூட உச்சத்தை அடைந்தன 45.4% ஷாப்பிங் டொமைனில் (o3 ப்ரோ) துல்லியம், குறைந்த அகநிலை பகுதிகளில், துல்லியம் கணிசமாக அதிகமாக இருந்தது:…
தொடர்புடைய கட்டுரைகள்
Source link


