நேரடி தளங்களில் மிதமான மாதிரிகளின் செயல்திறனை அதிகரிக்கும் முறையை ஆராய்ச்சியாளர்கள் உருவாக்குகின்றனர்

இழுப்பு. சிலர் இதை விளையாட்டாளர்களின் வேடிக்கையான ஆன்லைன் சமூகமாகவும் நல்ல இயல்புடைய மின்-விளையாட்டு ரசிகர்களாகவும் பார்க்கிறார்கள். மற்றவர்களுக்கு, இது நச்சுத்தன்மையுள்ள உள்ளடக்கம் மற்றும் வெறுப்புப் பேச்சு ஆகியவற்றின் அபாயகரமான ஸ்ட்ரீம்.

டிஜிட்டல் தகவல்தொடர்பு எப்போதும் உருவாகி வரும் நிலப்பரப்பில், ட்விட்ச் மற்றும் யூடியூப் லைவ் போன்ற லைவ் ஸ்ட்ரீம் இயங்குதளங்களில் உள்ள செய்திகளின் நிகழ் நேரத் தன்மையானது, உள்ளடக்க மதிப்பீட்டிற்கான தனித்துவமான சவால்களைக் கொண்டுவருகிறது. தற்போது, ​​லைவ் ஸ்ட்ரீம்களில் உள்ளடக்கத்தை மதிப்பிடுவதற்கான பயனுள்ள கருவிகள் இல்லை, ஏனெனில் ஏற்கனவே உள்ள மாதிரிகள் Facebook அல்லது Twitter போன்ற நிகழ்நேர சமூக ஊடக தளங்களில் பயிற்சி பெற்றுள்ளன.

USC Viterbi’s Information Sciences Institute (ISI) யைச் சேர்ந்த ஆராய்ச்சி உதவியாளர் டோங்-ஹோ லீ மற்றும் முதன்மை விஞ்ஞானி ஜே புஜாரா இருவரும் அதை மாற்றத் தொடங்கினர். லைவ் பிளாட்பார்ம்களில் மிதமான மாடல்களின் செயல்திறனை 35% அதிகரிக்கும் புதுமையான முறையை அவர்கள் உருவாக்கியுள்ளனர்.

ஒத்திசைவு பெறுகிறது

புஜாரா, “நான் ட்விட்டர் அல்லது ரெடிட்டில் எதையாவது இடுகையிட்டால், யாராவது மணிநேரங்கள் அல்லது நாட்களுக்குப் பிறகு பதிலளிக்கலாம். ஆனால் நாம் ட்விச்சைப் பார்த்தால், அது மிகவும் வித்தியாசமான சூழல். மக்கள் ஒவ்வொரு நொடியும் செய்திகளை அனுப்புகிறார்கள்.”

இது அனைத்தும் நேரத்தைப் பொறுத்தது. ட்விட்டர், ஃபேஸ்புக் மற்றும் ரெடிட் ஆகியவை ஒத்திசைவற்றவை-பயனர்கள் தங்கள் எண்ணங்களை இடுகையிடுகிறார்கள், ஆனால் பதில்கள் உடனடியாக இருக்காது. மறுபுறம், ட்விட்ச், யூடியூப் லைவ் மற்றும் பிற லைவ் ஸ்ட்ரீமிங் இயங்குதளங்கள் ஒத்திசைவானவை—இது நேரலை உரையாடலில் இருப்பதற்குச் சமமானதாகும்.

ஒத்திசைவற்ற தளங்களில் உரையாடல்களில், எண்ணங்கள் பொதுவாக உரையாடல் சூழலை அனுமதிக்கும் இழைகளின் கட்டமைப்பில் தொகுக்கப்படுகின்றன. பயனர்களுக்கு நேரக் கட்டுப்பாடுகள் இல்லை, எனவே அவர்கள் சிறந்த சிந்தனை பதில்களுடன் கருத்து தெரிவிக்கலாம். அதேசமயம், ஒத்திசைவான தளங்களில், எண்ணங்கள் நிகழ்நேரத்தில், தொடர்ச்சியாக, சூழலைக் குறிக்க எந்த அமைப்பும் இல்லாமல் வழங்கப்படுகின்றன. வேகமான இயல்பு விரைவான பதில்களையும் பல குறுகிய கருத்துகளையும் ஊக்குவிக்கிறது.

முதல்-அதன் வகையான அணுகுமுறை

ஆராய்ச்சியில் இந்த இடைவெளியைக் கண்டு, லீ மற்றும் புஜாரா லைவ் ஸ்ட்ரீம் அரட்டையில் விதிமுறை மீறல்களைக் கண்டறிவதற்கான முதல் NLP ஆய்வை மேற்கொண்டனர்.

“விதிமுறை மீறல்கள்” என்பது ஆன்லைன் பிளாட்ஃபார்ம்களில் உள்ள பயனர்கள் ஏற்றுக்கொள்ளக்கூடிய நடத்தைக்கான நிறுவப்பட்ட விதிகள் அல்லது வழிகாட்டுதல்களை மீறும் நிகழ்வுகளைக் குறிக்கிறது. புஜாரா விளக்கினார், “பொதுவாக நீங்கள் [நேரடி ஸ்ட்ரீம்] சேரும்போது வெளியிடப்படும் விதிகளின் தொகுப்பு இருக்கும், மேலும் இந்த விதிகளை மக்கள் மீறுகிறார்களா என்பதைக் கண்டறியும் மதிப்பீட்டாளர்கள் உள்ளனர். நீங்கள் யாரையாவது துன்புறுத்துகிறீர்களா? நீங்கள் முயற்சி செய்கிறீர்களா? தலைப்பை மாற்றவா? ஸ்பேம் செய்திகளை அனுப்புகிறீர்களா?”

ISI Ph.D உட்பட ஆசிரியர்கள் குழு மாணவர்கள் ஜஸ்டின் சோ மற்றும் வூஜியோங் ஜின் மற்றும் யுஎஸ்சி விட்டெர்பி தாமஸ் லார்ட் கம்ப்யூட்டர் சயின்ஸ் துறையின் ஆராய்ச்சி இணைப் பேராசிரியரான ஜொனாதன் மே ஆகியோர், மனித சேனல் மதிப்பீட்டாளர்களால் நிர்வகிக்கப்பட்ட ட்விச்சில் 4,583 விதிமுறைகளை மீறும் கருத்துகளின் தரவுத்தொகுப்பைப் பயன்படுத்தினர்.

“ஒவ்வொரு ட்விச் ஸ்ட்ரீமரின் அரட்டை விதிகளையும் அவர்கள் சேகரித்தனர், விதிமுறை மீறல்களின் வகைகளை வகைப்படுத்த மீண்டும் மீண்டும் கூட்டங்களை நடத்தினர், மேலும் ட்விச்சில் விதிமுறை மீறல்களை பகுப்பாய்வு செய்ய பல்வேறு நேரடி ஸ்ட்ரீமிங் அமர்வுகளை லேபிளிடுவதில் சிறுகுறிப்புகளை நிர்வகித்தனர்,” என்று லீ தொடர்ந்தார், “இது குறிப்பிடத்தக்க கூட்டு முயற்சியை உள்ளடக்கியது. லைவ் ஸ்ட்ரீம் அரட்டையில் விதிமுறை மீறல்கள் பற்றிய முதல் ஆய்வுக்காக பல்வேறு தொழில் கூட்டாளிகள் மற்றும் கல்வி நிறுவனங்களுக்கு இடையே.”

மனிதர்களையும் விவரங்களையும் கொண்டு வாருங்கள்

புஜாரா, “நாங்கள் இதைச் செய்த விதத்தில் ஒரு சுவாரஸ்யமான விஷயம் என்னவென்றால், தரவுக்கான லேபிளைப் பெற, நாங்கள் கூட்டமாகச் சேர்ந்தோம். நாங்கள் அதை மனிதர்கள் லேபிளிடச் செய்தோம், பின்னர் அந்த மனிதர்கள் அடிப்படையில் மூன்று நிலை விவரங்களைப் பெறுவார்கள். எனவே, நாங்கள் அவர்களுக்கு வழங்குகிறோம். என்ன நடக்கிறது என்பதை மதிப்பிடுவதற்கு படிப்படியாக கூடுதல் தகவல்.”

என்ன வகையான விவரங்கள் வழங்கப்பட்டன? நடுநிலையான கருத்தைச் சுற்றியுள்ள பல்வேறு நிலைகளின் தாக்கத்தை தீர்மானிக்கும் ஒரு செயல்முறையை குழு வடிவமைத்தது. எடுத்துக்காட்டாக, அரட்டை வரலாறு தாக்கத்தை ஏற்படுத்தியதா – மதிப்பாய்வு செய்யப்பட்ட உள்ளடக்கத்திற்கு முன் கருத்து தெரிவிப்பவரின் கடைசி செய்தி அல்லது மதிப்பிட்ட கருத்துரையின் போது பரந்த அரட்டையா? கருத்து பதிவிடப்பட்ட வீடியோவில் என்ன நடக்கிறது? மேலும் கருத்துக்கு குறிப்பிட்ட உள்ளடக்கம் தொடர்பான ஏதேனும் வெளிப்புற அறிவு இருந்ததா (அதாவது, குறிப்பிட்ட ஈமோஜிகள் அல்லது சேனலில் உள்ள ஸ்லாங்).

சூழல் முக்கியமானது

லைவ் ஸ்ட்ரீம்களை மதிப்பாய்வு செய்யும் போது, ​​சூழல் எண்ணிக்கையை மாற்றுகிறது.

புஜாரா விளக்குகிறார், “பல்வேறு அளவிலான தகவல்களைப் பயன்படுத்துவதன் மூலம் நீங்கள் மிதமான தரத்தை மேம்படுத்தலாம். எனவே, நீங்கள் Twitch க்காக ஒரு தானியங்கி மிதமான அமைப்பை வடிவமைக்கிறீர்கள் என்றால், மக்கள் என்ன என்பதை விளக்குவதற்கு சரியான சூழல் என்ன என்பதை நீங்கள் சிந்திக்க வேண்டும். சொல்வது.”

குழு இந்தத் தகவலைப் பயன்படுத்தியது, மனித மதிப்பீட்டாளர்களுக்கு சிறந்த முறையில் உதவிய தகவல் சூழலை அடையாளம் கண்டது, மேலும் இந்த சூழ்நிலைத் தகவலை மேம்படுத்துவதன் மூலம் விதிமுறை மீறல்களை அடையாளம் காண பயிற்சியளிக்கப்பட்ட மாதிரிகள். சூழல் சார்ந்த தகவல் மாதிரி மிதமான செயல்திறனை 35% அதிகரிக்க முடியும் என்று அவர்களின் முடிவுகள் காட்டுகின்றன.

புஜாரா மற்றும் லீயின் கட்டுரை, லைவ்-ஸ்ட்ரீம் அரட்டையில் விதிமுறை மீறல்களை பகுப்பாய்வு செய்வது, arXiv ப்ரீபிரிண்ட் சர்வரில் கிடைக்கிறது மற்றும் 2023 ஆம் ஆண்டு இயற்கை மொழி செயலாக்கத்தில் அனுபவ முறைகள் குறித்த மாநாட்டில் (EMNLP 23), இது சிங்கப்பூரில் டிசம்பர் 6 முதல் நடைபெறுகிறது— 10, 2023.

லீ கூறினார், “EMNLP இல் பங்கேற்று, எங்கள் ஆராய்ச்சியை முன்வைப்பதில் நான் மகிழ்ச்சியடைகிறேன். மேலும், இரண்டு கூடுதல் கட்டுரைகளை முன்வைக்க ஆவலாக உள்ளேன்—Temporal Knowledge Graph Forecasting Without Knowledge using In-Context Learning மற்றும் பெரிய மொழி மாதிரிகளை சிறந்த தரவு உருவாக்குபவர்களை உருவாக்குதல்— நான் ஜெய்யுடன் வேலை செய்திருக்கிறேன்.

Source link

Leave a Reply

Your email address will not be published. Required fields are marked *