
સંશોધકોના નવા ડેટા મુજબ, હિન્દી, અરબી અને ચીની જેવી ભાષાઓમાં AIનો ઉપયોગ કરતા લોકો માટે, અંગ્રેજીમાં AIનો ઉપયોગ કરતા લોકોની સરખામણીએ વધુ ખર્ચ થઈ શકે છે.

હિન્દીમાં લખાયેલો એ જ પ્રોમ્પ્ટ અંગ્રેજીની તુલનામાં વધુ ટોકન્સ ઉત્પન્ન કરી શકે છે. ટોકન્સ એ એવી એકમો છે જેનો ઉપયોગ AI સિસ્ટમ લખાણને વાંચવા અને સમજવા માટે કરવામાં આવે છે.

સરળ શબ્દોમાં કહીએ તો હિન્દીમાં એક જ વાત કહેવાથી અંગ્રેજી કરતાં AI ટોકન્સ વધુ ખર્ચ થાય છે. આનાથી અંગ્રેજી ન બોલનારાઓ માટે AIનો ઉપયોગ વધુ ખર્ચાળ બને છે.

સંશોધકો અને ડેવલપર્સ આ વધારાના ખર્ચને ઘણીવાર લૅન્ગ્વેજ ટેક્સ તરીકે ઓળખાવામાં આવે છે. આ એક પ્રકારનો છુપાયેલો ખર્ચ છે. જે AI મોડલ વિવિધ ભાષાઓને અલગ રીતે પ્રોસેસ કરવાને કારણે થાય છે.

થોડા અઠવાડિયા પહેલાં OpenAIના સંશોધક Aran Komatsuzaki એ એક પ્રયોગ વિશે માહિતી આપી હતી જેમાં OpenAI અને Anthropicના ટોકનાઇઝર્સ વિવિધ ભાષાઓના લખાણને કેવી રીતે પ્રોસેસ કરે છે તે તપાસવામાં આવ્યું હતું.

AI સંશોધક Rich Suttonના પ્રસિદ્ધ લેખ ધ બિટર લેસનને આધાર બનાવીને, કોમાત્સુઝાકીએ લખાણનું અનેક ભાષાઓમાં અનુવાદ કર્યું અને ત્યારબાદ જુદા જુદા AI સિસ્ટમ્સ કેટલા ટોકન્સ બનાવે છે તેનું વિશ્લેષણ કર્યું.

પરિણામે અંગ્રેજી અને અન્ય ભાષાઓ વચ્ચે નોંધપાત્ર તફાવત જોવા મળ્યો છે. વિશ્લેષણ મુજબ, OpenAIના ટોકનાઇઝર પર હિન્દી ટેક્સ્ટને અંગ્રેજી કરતાં 1.37 ગણા વધુ ટોકન્સની જરૂર પડે છે. જો કે, Anthropicના Cloud ટોકનાઇઝર પર આ આંકડો વધીને 3.24 ગણો વધુ ટોકન્સ છે. ક્લાઉડ પર અરબી ભાષાને 2.86 ગણા વધુ ટોકન્સની જરૂર પડી, જ્યારે ચાઇનીઝ ભાષાને 1.71 ગણા વધુ ટોકન્સ વપરાયા.