போர்ச்சுகீஸ் மொழியில் “நினைக்கும்” ChatGPT ஐ ஆராய்ச்சியாளர்கள் தொடங்குகின்றனர்

ஜெர்மனியில் உள்ள பான் பல்கலைக்கழகத்தைச் சேர்ந்த விஞ்ஞானிகள், போர்த்துகீசிய மொழியில் பூர்வீகமாகக் காரணமான டுகானோ 2 மாதிரியை சோதித்தனர். ஓப்பன் சோர்ஸ், கருவி அதிக செயல்திறன் மற்றும் AI இல் ஏற்றத்தாழ்வுகளைக் குறைப்பதாக உறுதியளிக்கிறது, ஜெர்மனியின் பான் நகரில் உள்ள பல்கலைக்கழகத்தின் அரங்குகளில், நாட்டின் மிகவும் சக்திவாய்ந்த பல்கலைக்கழக சூப்பர் கம்ப்யூட்டர்களில் ஒன்றாகும், இது டஜன் கணக்கான ரேக்குகள், நூற்றுக்கணக்கான சர்வர்கள் மற்றும் ஆயிரக்கணக்கான செயலாக்க அலகுகளில் விநியோகிக்கப்படுகிறது, போர்த்துகீசிய மொழியில் பில்லியன் கணக்கான டோக்கன்களை இயக்குகிறது.
செயற்கை நுண்ணறிவு (AI) மாடல்களை விரைவாகப் பயிற்றுவிப்பதற்கு உகந்ததாக, உயர் செயல்திறன் கொண்ட கம்ப்யூட்டிங் கிளஸ்டர் Tucano 2, “ChatGPT” ஆனது, அதன் தோற்றம் போர்த்துகீசிய மொழியில் இருந்து, உலகம் முழுவதும் 260 மில்லியனுக்கும் அதிகமான மக்களால் பேசப்படும் மொழியாகும்.
இந்த மாத தொடக்கத்தில், பான் பல்கலைக்கழக ஆராய்ச்சியாளர்கள் குழு ஒன்று தங்களின் முதல் Tucano 2 சோதனைப் படுக்கையை அறிமுகப்படுத்தியது. AIக்கான மிகப்பெரிய போர்த்துகீசிய மொழி தரவுத்தளமான GigaVerbo க்கு எதிராக மொழி மாதிரி பயிற்சியளிக்கப்பட்டது, இது 2024 இல் குழுவால் தயாரிக்கப்பட்டது.
இயற்கை மொழி செயலாக்கம் (NLP) துறையில் உள்ள ஏற்றத்தாழ்வுகளைக் குறைக்க முற்படும் ஜெர்மன் அரசாங்கத்தால் நிதியளிக்கப்பட்ட பாலிகிளாட் முயற்சியின் ஒரு பகுதியாக இந்தத் திட்டம் உள்ளது. உருவாக்கக்கூடிய AI இன் சமீபத்திய முன்னேற்றங்கள் முக்கியமாக வளங்கள்-தீவிர மொழிகளுக்குப் பயனளித்துள்ளன, அது அதன் இணையதளத்தில் சுட்டிக்காட்டுகிறது, அதே சமயம் குறைவான மொழிகள் பெரிய நிறுவனங்களால் தயாரிக்கப்படும் “காத்திருப்பு மற்றும் மறுசுழற்சி” மாதிரிகளைச் சார்ந்து, பெரும்பாலும் வெளிப்படைத்தன்மை இல்லாமல் உருவாக்கப்படுகின்றன.
“தற்போதைய ஆழமான கற்றல் முன்னுதாரணமானது – பாரிய தரவுத் தொகுப்புகள் மற்றும் கணினி சக்தியை பெரிதும் நம்பியுள்ளது – இந்த இடைவெளியை தற்செயலாக விரிவுபடுத்தியுள்ளது, வளமற்ற மொழி பேசுபவர்களுக்கு அவர்களின் மொழி மற்றும் கலாச்சார அடையாளங்களை பிரதிபலிக்கும் AI தொழில்நுட்பங்களை அணுகவும் வடிவமைக்கவும் கடினமாக உள்ளது” என்று பாலிகிளாட் கூறுகிறது.
போர்த்துகீசிய மொழியில் சிந்தனை வேறுபாடு
“20 மற்றும் 21 ஆம் நூற்றாண்டுகளில் இருந்து பிரேசிலிய இலக்கியத்தின் ஆசிரியர்களின் பட்டியலை உருவாக்க பயனர் என்னிடம் கேட்கிறார். […] அந்தக் காலத்திலிருந்து முக்கியமான பெயர்களை நான் பட்டியலிடுவதை உறுதிசெய்ய வேண்டும். […] எனது பதிலில் பன்முகத்தன்மையைச் சேர்க்க, வெவ்வேறு பாணிகள் மற்றும் புவியியல் பகுதிகளைச் சேர்க்க நான் நினைவில் கொள்ள வேண்டும். […] சமகால பெண் குரல்களை சேர்ப்பது முக்கியம்”, என்று டுகானோ 2 அறிக்கை எழுப்பிய கேள்விக்கு காரணம்.
“இந்த அனைத்து கூறுகளையும் சேகரித்து, நான் இப்போது முழுமையான மற்றும் ஒழுங்கமைக்கப்பட்ட பட்டியலை உருவாக்குகிறேன், வழங்கப்பட்ட தகவலை வளப்படுத்த சுருக்கமான சூழ்நிலை விளக்கங்களுடன் ஒவ்வொரு பெயரையும் முன்வைக்கிறேன்”, கார்லோஸ் டிரம்மண்ட் டி ஆண்ட்ரேட், கிளாரிஸ் லிஸ்பெக்டர், லிஜியா ஃபாகுண்டஸ் டெல்லெஸ் மற்றும் கான்செயோ எவரிஸ்டோ போன்ற பெயர்களைத் திரும்பப் பெறுவதற்கு முன்பு அவர் தொடர்கிறார்.
Tucano 2 உருவாக்கிய சிந்தனைச் சங்கிலி, பயனர் பின்தொடர திரையில் கிடைக்கும், OpenAI’s ChatGPT அல்லது Chinese DeepSeek போன்ற நன்கு அறியப்பட்ட வணிக தளங்களை மிதக்க வைக்கிறது.
ஒரு கேள்விக்கு பதிலளிக்கும் முன், கருவிகள் பல படிகளை உள்ளடக்கிய ஒரு உள் மோனோலாக்கைச் செய்கின்றன. வித்தியாசம் என்னவென்றால், ஆங்கிலம் அல்லது சீன மொழியில் உருவாக்கப்பட்ட தயாரிப்புகள், எடுத்துக்காட்டாக, டோக்கன்களைப் பயன்படுத்துகின்றன (இது “சொற்களின் துண்டுகளாக” செயல்படுகிறது) மொழிபெயர்ப்பதற்கும் பயனருக்குத் திரும்புவதற்கும் முன் சிக்கலான பணிகளை நியாயப்படுத்தவும் தீர்க்கவும். மறுபுறம், போர்த்துகீசிய மொழியில் ஒரு மாதிரியானது, தீர்வை உருவாக்குவதற்கு குறைவான டோக்கன்கள் தேவை, ஏனெனில் தர்க்கம் ஏற்கனவே பயனரின் மொழியில் நடைபெறுகிறது.
“நீங்கள் ChatGPT உடன் பேசும்போது, திரையில் வார்த்தை வார்த்தையாகத் தோன்றுவதைப் பார்க்கிறீர்கள். அந்தச் சிறிய வார்த்தைகள் ஒவ்வொன்றும் கணக்கீட்டுச் செலவைக் கொண்டிருக்கும். போர்ச்சுகீசிய மொழிக்காக பிரத்யேகமாகப் பயிற்றுவிக்கப்பட்ட மாதிரி இருந்தால், அது போர்த்துகீசிய மொழியின் சிறிய பகுதிகளைப் பிரித்து மிகவும் திறமையாகத் தயாரிக்கிறது” என்று ஆய்வின் ஆசிரியர்களில் ஒருவரான Nicholas Kluge விளக்குகிறார்.
“ஓனோமாடோபோயா” என்ற வார்த்தைக்கு 50 சொற்களை உருவாக்குவதற்கு பதிலாக, அதற்கு இரண்டு மட்டுமே தேவை” என்று அவர் மேலும் கூறுகிறார்.
சில சமயங்களில் ஆராய்ச்சியுடன் ஒப்பிடுகையில், போர்த்துகீசியம் பேசும் கருவிக்கு மற்ற மொழி மாதிரிகளை விட 30% குறைவான டோக்கன்கள் தேவைப்படுகின்றன. ஏனென்றால், அதிகமான டோக்கன்கள் அதிக கணக்கீடு, மெதுவான அனுமானப் பயிற்சி என்று பொருள்படும். மொழியியல் “குறுக்குவழி”, பெரிய அளவில் பயன்படுத்தப்பட்டால், அதன் ஆற்றல் தேவை மற்றும் அதிக CO2 உமிழ்வுகளால் பெருகிய முறையில் அழுத்தம் கொடுக்கப்படும் ஒரு தொழிற்துறையில் செயல்திறனை அதிகரிக்க வழிவகுக்கும் என்று ஆராய்ச்சி கூறுகிறது.
க்ளூஜைப் பொறுத்தவரை, பூர்வீக போர்த்துகீசியம் பயனருக்கு மிகவும் பொருத்தமான பதில்களுக்கு வழிவகுக்கிறது, இதில் மொழியியல் வெளிப்பாடுகளைப் புரிந்துகொள்வது உட்பட. “போர்த்துகீசியம் மிகவும் வளமான, பன்முகத்தன்மை வாய்ந்த மொழியாகும், மேலும் ஆங்கிலத்தில் முக்கியமாகப் பயிற்றுவிக்கப்பட்ட மாதிரியானது போர்த்துகீசிய மொழியின் அனைத்து நுணுக்கங்களையும் சந்திக்க முடியும் என்பது ஒரு மாயை. மொழி மாதிரிகளில் பல மேம்பாடுகள் உள்ளன, அவற்றை நம் மொழிக்கு இன்னும் குறிப்பிட்டதாக மாற்றும் போது”, அவர் கூறுகிறார்.
திறந்த மூல மற்றும் பொது அணுகல்
இதை சாத்தியமாக்குவதற்கு, AI ஆல் உருவாக்கப்பட்ட செயற்கைப் பொருட்களுடன் மனிதர்களால் உருவாக்கப்பட்ட உள்ளடக்கத்தைப் படிப்பதை ஒருங்கிணைக்கும் தரவுத்தொகுப்பின் அடிப்படையில் Tucano பயிற்சியளிக்கப்படுகிறது. பயன்படுத்தப்படும் ஒவ்வொரு ஆவணத்தின் கல்வி மதிப்பு மற்றும் நச்சுத்தன்மையின் அளவைக் கண்டறிய தரவுத்தளம் நிர்வகிக்கப்படுகிறது.
இன்று, Tucano 2 ஒரு வணிகத் தயாரிப்பாக இல்லாமல், கல்வி ஆராய்ச்சியில் இருந்து தயாரிக்கப்பட்ட கையேடாக உள்ளது. இதன் பொருள், பான் பல்கலைக்கழகத்தில் உள்ள “மார்வின்” சூப்பர் கம்ப்யூட்டரை அடிப்படையாகக் கொண்ட அதன் இடைமுகம், தொழில்துறை கருவிகளுடன் ஒப்பிடும்போது சில வரம்புகளைக் கொண்டுள்ளது. எடுத்துக்காட்டாக, தானியங்கி இணைய இணைப்பு இல்லை மற்றும் பயன்பாட்டு வரம்பு உள்ளது.
இருப்பினும், போர்த்துகீசிய மொழி பேசும் நிறுவனங்கள் மற்றும் பெரிய உள்கட்டமைப்பில் தங்கள் சொந்தக் கருவிகளை உருவாக்க ஆர்வமுள்ள நிறுவனங்களால் இந்த மாதிரியைப் பிரதிபலிக்க முடியும். அனைத்து ஆராய்ச்சி, மாதிரி, தரவு தொகுப்பு, கருவிகள் மற்றும் அமைப்புகள் திறந்த மூலமாக வெளியிடப்படுகின்றன. அணுகலை ஜனநாயகப்படுத்துவதே இதன் நோக்கம்.
“யாரும் அதை மீண்டும் உருவாக்க முடியும். இது கல்வித்துறை மற்றும் தொழில்துறை ஆகிய இரண்டிற்கும் மிகவும் பயனுள்ள விஷயம். சுருக்கமாக, போர்த்துகீசிய மொழியின் முழு கலாச்சாரத்திற்காகவும் இந்த மாதிரிகளை உருவாக்கினோம், இது ஒரு இறையாண்மை கொண்ட பிரேசிலிய மாதிரி அல்ல”, க்ளூஜ் முடிக்கிறார்.
எனவே, போர்த்துகீசியம் தவிர, அனிகேத் சென், ஷிசா பாத்திமா, சோபியா பால்க் மற்றும் லூசி ஃப்ளெக் ஆகியோரைக் கொண்ட குழு, இப்போது பெங்காலி மற்றும் இந்தி போன்ற பிற மொழிகளில் தரவுத்தளங்களை உருவாக்கும் திட்டத்தை முன்னெடுத்து வருகிறது.
Source link


