کاربرد هوش‎ مصنوعی در تشخیص اخبار جعلی

نوع مقاله : مقاله پژوهشی

نویسنده

دانشگاه عالی دفاع ملی

چکیده

همزمان با توسعه اینترنت، ظهور و پذیرش گسترده مفهوم رسانه‌های اجتماعی، نحوه شکل‏گیری و انتشار اخبار را تغییر داده است. اخبار سریع‌تر، کم‌هزینه‌تر و به راحتی با رسانه‌های اجتماعی قابل دسترسی هستند. این تغییر با معایبی نیز همراه بوده است. به ویژه، محتوای فریبنده، مانند اخبار جعلی ساخته شده توسط کاربران رسانه‌های اجتماعی، به‌طور فزاینده‌ای خطرناک می‌شود. هدف اصلی این مقاله ارائه راه‎حلی برای چالش تشخیص تفاوت بین اخبار واقعی و جعلی است.
این مقاله از نظر هدف کاربردی است و از نظر شیوه اجرا، گردآوری و تحلیل داده‏ها پژوهشی کمی است، که با انتخاب دو مجموعه داده مجموعه داده منبع باز از وب‎گاه کگل در سال 2024 (به‌عنوان جامعه آماری) و پیش‎پردازش این مجموعه داده با استفاده از سامانه رپیدماینر و بکارگیری ماتریس درهم‏ریختگی مبتنی بر پنج مدل یادگیری ماشین نظارت شده، مدل سازی و اجرا شده است. در این مقاله پس از تجزیه و تحلیل داده‌ها و محاسبه معیارهای ارزیابی صحت، یادآوری، دقت و امتیازF1 (میانگین همساز) و مقایسه نتایج مشخص گردید که مدل یادگیری ماشین جنگل تصادفی در معیارهای صحت و دقت به ترتیب با 98.3 درصد و 97.9 درصد و مدل یادگیری تقویت گرادیان در محاسبه معیارهای امتیاز F1 و یادآوری به ترتیب با 97.7 درصد و 98.7 درصد بهترین نتیجه در تشخیص اخبار جعلی دارند.

کلیدواژه‌ها

موضوعات


 

 

                                                   فصلنامة آماد و فناوری دفاعی، سال هفتم، شمارۀ 2 (پیاپی 22)، تابستان 1403

 

کاربرد هوش ‎مصنوعی در تشخیص اخبار جعلی

احمدرضا ترسلی*[1]

تاریخ دریافت: 27/02/1403                                                                      پذیرش مقاله: 24/03/1403

      

چکیده

همزمان با توسعه اینترنت، ظهور و پذیرش گسترده مفهوم رسانه‌های اجتماعی بر نحوه شکل‏گیری و انتشار اخبار تاثیر گذاشته و آن‌ها را تغییر داده است. اخبار؛ سریع‌تر، کم‌هزینه‌تر و به‌راحتی با رسانه‌های اجتماعی قابل دسترسی هستند. البته این تغییر با معایبی همراه بوده است، تا جایی‌که محتوای فریبنده مانند اخبار جعلی ساخته شده توسط کاربران رسانه‌های اجتماعی به‌طور فزاینده‌ای خطرناک می‌شود. هدف اصلی مقاله، ارائه راه‎حلی برای چالش تشخیص تفاوت بین اخبار واقعی و جعلی است. این مقاله از نظر هدف کاربردی است و از نظر شیوه اجرا، گردآوری و تحلیل داده‏ها پژوهشی کمی است که با انتخاب دو مجموعه داده منبع باز از وب‎گاه کگل در سال 2024م. (به‌عنوان جامعه آماری) و پیش‎پردازش این مجموعه داده با استفاده از سامانه رپیدماینر و بکارگیری ماتریس درهم‏ریختگی مبتنی بر پنج مدل یادگیری ماشین نظارت شده، مدل‌سازی و اجرا شده است. در این مقاله پس از تجزیه‌وتحلیل داده‌ها و محاسبه معیارهای ارزیابی صحت، یادآوری، دقت و امتیاز F1 (میانگین همساز) و مقایسه نتایج مشخص گردید که مدل یادگیری ماشین جنگل تصادفی در معیارهای صحت و دقت به ترتیب با 98.3 درصد و 97.9 درصد و مدل یادگیری تقویت گرادیان در محاسبه معیارهای امتیاز F1 و یادآوری به ترتیب با 97.7 درصد و 98.7 درصد بهترین نتیجه در تشخیص اخبار جعلی دارند.

واژگان‌کلیدی: هوش‌مصنوعی، یادگیری ماشین، اخبار جعلی، اطلاعات نادرست، ماتریس درهم‏ریختگی.

 

 

 

 

 

 

 

 

  1. مقدمه

10

10

10

با ظهور رسانه‌های اجتماعی، هر فردی می‌تواند در تولید محتوا مشارکت کند و انتشار اخبار جعلی در اینترنت را با سرعتی سرسام‌آور ساده کرده است. این امر، زمینه انتشار اطلاعات نادرست را تسهیل کرده است که اغلب یا برای افزایش ترافیک شبکه، عضوگیری و کسب سودهای مالی از ارائه تبلیغات آنلاین مانند «طعمه کلیک»، تأثیرگذاری بر باورهای افراد و در نهایت، تأثیرگذاری بر رویدادهای مهم مانند انتخابات ساخته می‏شود (ینکیکار و همکاران[2]، 2023: 1). اخبار جعلی به دلیل تهدیدی که برای جامعه ایجاد می‌کند، از بحث برانگیزترین موضوعات امروز هستند.

امروزه، افراد دارای شهرت ممکن است به دلیل ناآگاهی محض و یا به تبعیت از سیاست‎های دشمن، اطلاعات گمراه‌کننده را منتشر کنند و این یک مشکل دائمی است؛ به‌ویژه زمانی‌که به مداخله خارجی مرتبط باشد. کاربران رسانه‌های اجتماعی اغلب نمی‌دانند تنها هدف پست‌ها، توییت‌ها، مقاله‌ها یا سایر مطالب نوشتاری که در فضای مجازی وجود دارند، شکل‌دهی به نظرات دیگران به منظور تأثیرگذاری بر قضاوت‌های آنها است. دقیقاً، «دستکاری اطلاعات» به دلیل دانش ضعیف کاربران رسانه‌های اجتماعی از موضوعات رخ می دهد.

برخی از کاربران جوان، غرق «اخبار فوری» هستند و اطلاعات نادرست همیشه بخشی از برنامه‎ریزی‌های اطلاعاتی و نظامی بوده است. این رویکرد، مطمئنا در نتیجه استفاده از رسانه‌های اجتماعی و فناوری هوشمند بدتر می‎شود. دلیل ان مسئله را باید چنین توضیح داد که فن‌آوری‌های ارتباطی مدرن ابزاری عموماً ارزان و کم‌مانع برای انتشار اطلاعات به‌ویژه انتشار اطلاعات نادرست ارائه می‌کنند.

شناسائی اخبار جعلی که توسط برخی مراجع به‎صورت دستی انجام می‎گردد، همواره با مسائل عدیده‎ای مواجه است. چراکه؛

  • تشخیص تفاوت بین اطلاعات واقعی و نادرست، ردیابی و کنترل آنها بسیار دشوار است.
  • با ظهور کلان‌داده‎ها، ارزیابی دستی کاری زمان‌بر است و افشای اطلاعات نادرست برای تأثیرگذاری بر مخاطبین خیلی دیر اتفاق می‌افتد.
  • پائین‌بودن دقت بررسی واقعیت‌ها است که کاربران عموماً به آن اعتماد ندارند و این شرایط در متقاعد کردن افرادی که از قبل به اطلاعات نادرست اعتقاد دارند، بی‌اثر است.
  • اخبار جعلی آینده که ممکن است با الگوریتمی که امروز ایجاد شده قابل تشخیص نباشند. به‌عنوان مثال، جعل‌های عمیق که اصلاحات صوتی یا تصویری رقمی هستند، «بسیار واقع‌گرایانه و به سختی قابل تشخیص هستند»، و احتمالاً در آینده در جنگ اطلاعاتی رایج‌تر خواهند بود.
  • رمزگذاری انتها به انتها که توسط برنامه‌های پیام‌رسانی مانند واتساپ[3] و سیگنال[4] استفاده می‌شود، نظارت و رهگیری انتقال اطلاعات نادرست را چالش برانگیزتر می‎کند.

مهمترین گام برای جلوگیری از انتشار اخبار جعلی و نجات جان مردم، «شناسایی زودهنگام اخبار جعلی» است. افراد، ناآگاهانه اطلاعات نادرست را منتشر می کنند و در آن مشارکت می‌کنند. تشخیص اخبار جعلی و الگوی انتشار آن برای جامعه و دولت اهمیت فوق‌العاده‌ای داشته تا از این رشته حوادث جلوگیری کنند، انگیزه‌های پشت اخبار اینترنتی را تجزیه‌وتحلیل و توانایی تشخیص درست از آنچه جعلی است را توسعه دهند.

استفاده از هوش مصنوعی برای تشخیص دقیق، صحیح و زودهنگام اطلاعات نادرست، ارزشمند است و در این مقاله تلاش گردید تا با بررسی چگونگی استفاده از مدل‎های یادگیری ماشینی در پیش‎بینی و تشخیص اخبار جعلی، بر میزان دانش و درک مدیران حوزه امنیتی و دفاعی کشور بیافزاید. جامعه اطلاعاتی در عصر کوانتوم، هوش‎ مصنوعی، اینترنت و... نیازمند استفاده از ابزارهای متناسب با زمان برای پردازش کارآمد کلان داده‎های رایانه سپهر[5]، تشخیص اطلاعات جعلی، منبع و الگوی انتشار برای پیشگیری و مقابله موثر با فعالیت‎های مجرمانه و بدخواهانه علیه امنیت و اعتماد جامعه خواهد بود.

 

  1. مبانی نظری و پیشینه‌شناسی تحقیق

10

10

10

1-2. اهمیت و ضرورت

هدف اصلی این پژوهش، بررسی کاربرد و چگونگی تاثیر مدل‎های طبقه‎بندی‌کننده یادگیری ماشین در تشخیص اخبار نادرست است. اهمیت و دلیل انجام مطالعه حاضر این است که الگوریتم‌های هوش مصنوعی می‌توانند حجم عظیمی از داده‌ها را به سرعت و با دقت بالا پردازش کنند و اخبار جعلی را با بررسی عواملی مانند سبک نگارش، منبع انتشار، و تناقض با اطلاعات موثق شناسایی کنند. این امر، به‌ویژه در مواقعی که انتشار اخبار جعلی می‌تواند به سرعت آسیب‏های جدی به بار آورد، بسیار حائز اهمیت است. همچنین هوش مصنوعی به‌مرور زمان و با جمع‌آوری داده‌های بیشتر می‌تواند در تشخیص اخبار جعلی دقیق‌تر عمل کند. الگوریتم‌ها می‌توانند با شناسایی الگوهای جدید در اخبار جعلی و به‌روز رسانی مداوم دانش خود، با جدیدترین روش‌های فریب‌کاری سازگار شوند. از سوی دیگر، استفاده از هوش مصنوعی برای تشخیص اخبار نادرست، نیاز به بررسی دستی تک‌تک اخبار توسط انسان را کاهش می‌دهد. این امر به کارشناسان و خبرنگاران اجازه می‌دهد تا زمان و تمرکز خود را صرف بررسی عمیق‌تر اخبار مشکوک و تأیید صحت اخبار موثق کنند.

در مورد ضرورت انجام تحقیق حاضر، همین نکته کفایت دارد که انتشار اخبار جعلی به‌خصوص در شرایط بحرانی می‌توانند باعث ایجاد ترس و وحشت در میان مردم شوند و همچنین در مورد دولت، رسانه‌ها و سایر نهادها می‌تواند اعتماد مردم به آنها را از بین ببرد. اخبار جعلی می‌توانند برای تحریک تنش و درگیری بین گروه‌های مختلف جامعه استفاده شوند و همچنین در مواردی افراد ممکن است بر اساس اخبار نادرست تصمیماتی اشتباه در زندگی شخصی، شغلی یا حتی سیاسی خود بگیرند.

 

2-2. پیشینه‌شناسی تحقیق

اخگری و ممتازی در تحقیقی مشترک با عنوان «کاربرد هوش مصنوعی در راستی‌آزمایی اخبار: تشخیص اخبار جعلی با استفاده از متن خبر و اطلاعات منابع منتشرکننده خبر» (1402) با استفاده از مجموعه داده[6] «تات» که برای زبان فارسی مناسب بوده و شامل 1081 خبر جعلی و 1081 خبر با برچسب غیرجعلی در حوزه‎های مختلف خبری از 38 کانال تلگرامی است، نشان دادند استفاده از شبکه عصبی پیچشی، شناسایی اخبار فارسی منتشرشده در تلگرام و استفاده از متن خبرهای منتشرشده به همراه شناسه کانال ارسال‎کننده خبر به‌عنوان ورودی شبکه توانسته است به صحت 90.46 درصد در تشخیص اخبار جعلی دست یابد.

ابراهیمی و همکاران در تحقیقی با عنوان «بررسی تطبیقی سیاست کیفری انتشار اطلاعات نادرست در رسانه‌های مجازی» (1401) نشان دادند طی سال‌های اخیر، بسیاری از کشورها با وضع مقررات کیفری در قبال انتشار اطلاعات نادرست در شبکه‌های اجتماعی و رسانه‌های مجازی، سیاست کیفری واحدی را دنبال می‌کنند.

هاشمی و همکاران در تحقیق مشترکی با عنوان «پیشرفت تشخیص اخبار جعلی: یادگیری عمیق ترکیبی با FastText و هوش مصنوعی قابل توضیح» (2024) به این نتیجه رسیدند که یک مدل ترکیبی که CNN را با لایه‌های LSTM ترکیب می‌کند و با تعبیه‌های FastText تقویت شده است، در طبقه‌بندی دقیق مقالات خبری از مدل‌های دیگر بهتر عمل می‌کند. علاوه‌بر این، استفاده از مدل‌های مبتنی بر ترانسفورماتور، قابلیت‌های این معماری‌ها را در رمزگشایی ساختارهای نحوی پیچیده برای درک معنایی پیشرفته روشن کرده است. استفاده از هوش مصنوعی قابل توضیح از طریق LIME و LDA نه تنها شفافیت فرآیند تشخیص را توجیه کرده است، بلکه بینش تفسیری ارزشمندی را نیز ارائه کرده است.

«پاتیل»[7] و همکارانش در پژوهش «رویکردی جدید برای تشخیص اخبار جعلی با استفاده از هوش مصنوعی» (2024) نشان دادند سکوی طراحی شده توسط هوش مصنوعی مولد برای تشخیص اخبار نادرست که از LamaIndex به‌عنوان یک منبع قابل اعتماد استفاده می‌کند؛ با ادغام تحلیل‌های بی‌درنگ توییتر، حضور رسانه‌های اجتماعی و ابرداده‌های مرتبط نیز به کاربران اطلاعات روشن‌تری در مورد محبوبیت و نفوذ محتوای خبری می‌دهد و با تجزیه‌وتحلیل احساسات، تجزیه‌وتحلیل متن، شناسایی تبلیغات، تشخیص سخنان مشوق عداوت و تنفر، و نظارت بر فعالیت ربات‌ها نیز در تجزیه‌وتحلیل مقالات و شناسایی منابع جعلی به‌خوبی عمل می‌کند.

«هو»[8] و همکارانش در تحقیقی با عنوان «بازیگر بد، مشاور خوب: بررسی نقش مدل‌های زبان بزرگ در تشخیص اخبار جعلی» (2024) نشان دادند مدل‌های زبانی بزرگ[9] فعلی ممکن است جایگزین مدل‌های زبانی کوچک[10] تنظیم‌شده دقیق در تشخیص اخبار جعلی نشوند، اما می‌توانند با ارائه دلایل آموزنده چند منظری، مشاور خوبی برای SLM‌ها باشند.

ترویکا[11] و همکاران در مقاله «معماری گروهی شبکه عصبی عمیق برای تشخیص اخبار جعلی از محتوای اجتماعی و متنی» (2024) اشاره کردند معماری شبکه‌های عصبی عمیق برای تشخیص اخبار جعلی مبتنی بر متن اجتماعی و متن مشتمل بر یک شاخه متن برای زمینه مبتنی بر محتوای متنی و یک شاخه اجتماعی برای زمینه اجتماعی که این دو شاخه برای ایجاد یک جاسازی شبکه جدید[12] استفاده می‎شود، نتایج خوبی را در مجموعه داده‌های آموزشی کوچک به‌دست می‌آورد و از مدل‌های پیشرفته فعلی بهتر عمل می‌کند.

 

2-3. مبانی نظری و مفهوم‌شناسی

2-3-1. اخبار جعلی

بر اساس تعریف لیزر[13] و همکاران (2018)، اخبار جعلی به عنوان اطلاعات نادرست یا گمراه‌کننده تعریف می‌شوند که نوعی از تقلید از اخبار واقعی را به نمایش می‌گذارند (سوئتنکو وآنجلوپولوس[14]، 2024: 460).

 

2-3-2. متنکاوی

در یادگیری ماشین، نمایش داده‎ها تا حد زیادی بر صحت نتایج تأثیر می‌گذارد. به‌طور خاص، مسائل تجزیه‌وتحلیل متن باید به نمایشی تبدیل شوند که برای روش مورد استفاده مناسب باشد. داده‌های مبتنی بر متن که توسط کاربران در رسانه‌های اجتماعی به اشتراک گذاشته می‌شوند، عموماً به شکل‌های بدون ساختار هستند. به‌همین دلیل، داده‎های بدون ساختار استخراج‌شده از رسانه‌های اجتماعی باید با روش‌های متن‌کاوی به‌ شکل ساختاریافته تبدیل شوند. مشکل متن‌کاوی را می‌توان به‌عنوان استخراج اطلاعات معنی‌دار، مفید و ناشناخته قبلی از داده‎های متنی تعریف کرد (پیچیان و همکاران[15]، 2023: 7). روش متن‌کاوی با پیش‌پردازش داده‎ها آغاز می‎شود که شامل سه مرحله است (مک‌کار و همکاران[16]، 2023: 1).

 

2-3-2-1. پیش‌پردازش دادهها و بنواژهسازی متن

در هر زبانی، کلمات با توجه به نقشی که در جملات ایفا می‌کنند، به شکل‌های ظاهری متفاوتی خواهند بود. اما با توجه به این‌که تمامی آن‌ها از یک ریشه (بُن) ساخته می‌شوند، از نظر معنا و مفهوم در گام‌های بعدی تشخیصی به ما کمک شایانی خواهند نمود. از همین‌رو، در بسیاری از روش‌های مبتنی بر پردازش زبان‌های طبیعی (NLP)، ابتدا می‏بایست ریشه کلمات را پیدا کنیم. برای استخراج ریشه کلمات معمولاً از دو روش ریشه‌یابی[17] و بُن‎واژه‎سازی[18] در روش پردازش زبان‌های طبیعی(NLP) برای استخراج ریشه کلمات (کلمات مشتق شده از کلمات دیگر) استفاده می‌شوند.

بُن‌واژه‌سازی در رویکردی که برای تولید اشکال ریشه کلمات استفاده می‎شود، متفاوت از ریشه‌یابی است. تفاوت بین این دو رویکرد این است که بن‌واژه‌سازی، ریشه واقعی کلمات زبان متن را تولید می‌کند در حالی‌که ریشه‌یابی که به فرایند حذف پسوند کلمات گفته می‌شود؛ ممکن است ریشه واقعی کلمات را تولید نکند. بنابراین، در تحقیق حاضر از رویکرد بن‎واژه‌سازی استفاده شد، زیرا کلمات عطف شده را به‌درستی کاهش می‌دهد و اطمینان حاصل می‌کند که بن‎واژه، ریشه کلمه و متعلق به زبان است. نمونه‌ای از بن‎واژه‌سازی در شکل (1) نشان داده شده است (چای[19]، 2023: 19).

 

 

شکل شماره 1. بن‌واژه‎سازی از کلمات خارج شده از متن

 

2-3-2-2. حذف کلمات توقف

«حذف کلمات توقف»[20] باید قبل از آموزش طبقه‌بندی‌کننده‌های مبتنی بر یادگیری ماشین از متن انجام شوند؛ زیرا کلمات توقف معنای بسیار کمی دارند و اغلب برای تکمیل ساختار جمله و اتصال عبارات استفاده می‏شوند. حروف ربط، ضمایر و حروف اضافه نیز کلمات توقف هستند. برای حذف کلمات توقف از متن خبر، هر جمله در متن نشانه‌گذاری شده و به کلمات/نشانه‌ها تقسیم می‎شود. الگوریتم در تمام نشانه‌ها تکرار می‎شود و بررسی می‌کند: آیا کلمه در لیست کلمات توقف وجود دارد یا خیر؟، بنابراین کلمه حذف می‎شود. بنابراین، تمام کلماتی مانند «به»، «او»، «است»، «an» و «the» از متن حذف می‌شوند. حدود 400 تا 500 کلمه توقف در زبان انگلیسی وجود دارد. برخی از کلمات توقف عبارتند از:a, an, about, by, but, that, does, on, above, when, where, what, all, am, any, against, و... . نمونه‎ای از حذف کلمات توقف در شکل (2) نشان داده شده است (مک‌کار و همکاران، 2023: 4).

 

شکل شماره 2. حذف کلمات توقف

2-3-2-3. واحدسازی (استخراج ویژگی)

فرآیند «واحدسازی»[21] نیز متن داده‌شده را به قسمت‌های کوچکتری تقسیم می‎کند که به آنها «واحدهای کلمات»[22] می‌گویند و تمام علائم نگارشی را از داده‎های متنی حذف می‎کند (مک‌کار، 2023: 7). فیلتر اعداد برای حذف عباراتی که حاوی اعداد هستند، اعمال شده است. مبدل حروف برای تبدیل داده‎های متنی به حروف کوچک یا بزرگ استفاده شده است. در این مقاله، تمامی عبارت‎ها به حروف کوچک تبدیل شده‌اند. در نهایت در این مرحله از فیلتر N-chars برای حذف کلماتی که کمتر از N کاراکتر تشکیل شده‎اند، استفاده شده است (مهسواری و سودها[23]، 2024: 4).

بزرگترین مشکل در متن‌کاوی، کلان‌داده‎ها هستند. بنابراین، حذف ویژگی‌های غیرمرتبط و اضافی برای بهبود دقت مدل ضروری است. در مراحل پیش‌پردازش داده‎ها، ویژگی‌ها از کلان‌داده‎های بدون ساختار استخراج می‌شوند (داس و آلفونس[24]، 2023: 3).

ورودی بسیاری از روش‏های یادگیری، رقم و اعداد هستند و باید با روش‌هایی اسناد متنی (متن‌های خبری) به صورت عدد درآیند که به آن «استخراج ویژگی»[25] گفته می‎شود. یکی از روش‌های استخراج ویژگی، ایجاد «ماتریس اصطلاح-سند»[26] است. در این ماتریس (نک: شکل شماره 3) تکرار هر اصطلاح در هر سند شمارش می‏شود. در استخراج ویژگی که با استفاده از مدل «فضای برداری»[27] (VSM) شباهت بین اسناد را بر اساس بازنمایی برداری آنها مقایسه و اندازه گیری می‏گردد. هر سند به‌عنوان یک بردار نشان داده می‎شود، که در آن هر بعد مربوط به یک اصطلاح منحصر به فرد در مجموعه اسناد است. مقدار هر بعد نشان‌دهنده اهمیت یا فراوانی عبارت مربوطه در سند است.

 

 

شکل 3. ماتریس اصطلاح-سند مبتنی بر تکرار اصطلاح

 

برای وزن‌دهی و شمارش ویژگی‌های مختلف از روش‌های مختلفی می‎توان استفاده کرد: روش‌های همچون (TF-IDF) یا تکرار کلمه-برعکس تکرار سند[28]، برعکس تکرار سند[29] (IDF)، تکرار کلمه[30] (TF) یا نمایش باینری[31] برای محاسبه این وزن‌ها توسعه داده شده است (داس و آلفونس، 2023: 5).

دو روش «TF» و «TF-IDF» شناخته‏شده‏ترین این روش‌ها هستند. بردار TF-IDF برداری است که از روی کلمات می‌تواند ویژگی‌های مختلف را برای یک متن بسازد (در واقع متن را تبدیل به اعداد قابل فهم برای الگوریتم کند). در این مطالعه از TF برای محاسبه وزن هر کلمه در هر سند استفاده شده است. TF تعداد دفعاتی که یک کلمه در یک سند مشاهده می‎شود را نشان می‌دهد. TF با استفاده از معادله زیر محاسبه می‌شود.

              (1)                                                                

di مجموع تمام اصطلاحات سند i است. nij تعداد کلمه j ام در سند i است.

پس از محاسبه مقدار TF برای هر کلمه در سند، ماتریس اصطلاح-سند (DTM) با توجه به وزن کلمات ایجاد می‎شود. DTM مانند شکل (4) تعریف شده است و یک ماتریس m x n است. در ماتریس، هر ردیف نشان‌دهنده اسناد؛ ستون‌ها نشان‌دهنده عبارت‌ها؛ و سلول‌ها نشان‌دهنده اعداد واقعی هستند که وزن عبارات را در سند نشان می‌دهند (المراشی[32] و همکاران، 2023: 5).

 

 

شکل شماره 4. ماتریس اصطلاح-سند مبتنی بر وزن اصطلاح در سند

 

2-3-3. الگوریتم‌های طبقهبندی

الگوریتم‎های مختلف برای تشخیص اخبار جعلی مورد بررسی قرار گرفت. ویژگی‌های استخراج شده به پنج طبقه‌بندی‌کننده مختلف وارد شدند. در این پژوهش از الگوریتم‌های Random Forest، Support Vector Machine، Naïve Bayes،Logistic Regression و Gradient Boosting برای ساخت طبقه‌بندی‌کننده‌ها و بررسی استفاده از الگوریتم‌های یادگیری ماشین استفاده گردید.

2-3-3-1. جنگل‌های تصادفی 

«جنگل تصادفی»[33] یک الگوریتم بسیار مؤثر از نظر پیش‌بینی در زمینه یادگیری ماشینی تحت نظارت، یادگیری عمیق و هوش مصنوعی است. یک جنگل تصادفی بر اساس اصل «کیسه‎گذاری»[34] کار می‌کند که اولین گام در آن، تقسیم یک مجموعه داده به زیرمجموعه‌ها برای تولید مجموعه‌ای از درخت‌های تصمیم‌گیری[35] است؛ پس از آموزش درختان، نتایج تولید شده برای به‌دست‌ آوردن قوی‌ترین پیش‌بینی ترکیب می‌شوند. روش کیسه‎گذاری استفاده از چندین نمونه داده به‌جای یک نمونه است و خروجی‏های تولید شده توسط درختان تصمیم رتبه‌بندی می‏شوند و بالاترین مقدار به عنوان خروجی نهایی انتخاب می‏شود (دودِجا و همکاران[36]، 2023: 2). دو روش برای تعیین نتیجه نهایی وجود دارد.

«رگرسیون جنگل تصادفی»[37] شامل محاسبه میانگین پیش‌بینی‌های به‌دست‌آمده با در نظر گرفتن تمام پیش‌بینی‌های حاصل از درخت‌های تصمیم است. طبقه‌بندی جنگل تصادفی نیز براساس روش بسته‌بندی است، اما تخمین نهایی با انتخاب متداول‌ترین دسته پاسخ به جای استفاده از همه نتایج به‌دست‌آمده انجام می‌شود (گونیمات و همکاران[38]، 2023: 6).

درخت‌های تصمیم ایجاد شده توسط طبقه‌بندی‌کننده جنگل تصادفی[39] با استفاده از ناخالصی جینی[40]  مورد استفاده برای شکافتن شاخه‌ها و انتخاب گره‌هایی که عدم قطعیت در درخت‌های تصمیم را کاهش می‌دهند، آموزش داده می‌شوند. بنابراین بهترین تقسیم با به‌حداقل رساندن ناخالصی جینی هنگام تقسیم هر گره انتخاب می‌شود. ناخالصی جینی یک گره نشان‌دهنده این احتمال است که یک نمونه بر اساس توزیع نمونه‌ها در یک گره به‌طور تصادفی انتخاب شده و به اشتباه برچسب‌گذاری شده است. ناخالصی جینی یک گره n به عنوان فرمول داده شده تعریف می‌شود.

 (2)                                                                  

که در آن Pi احتمال متعلق به کلاس i در یک گره معین است. مقدار کم ناخالصی جینی به این معنی است که گره‌ها خالص هستند و هیچ شانسی وجود ندارد نمونه‏ای که به‌طور تصادفی از آن گره انتخاب شده است، به اشتباه طبقه‏بندی شود (سی و همکاران[41]، 2024: 3).

 

2-3-3-2. ماشین بردار پشتیبان

«ماشین‌های بردار پشتیبان»[42] مجموعه‌ای از روش‌های یادگیری تحت نظارت[43] هستند که برای حل مسائل طبقه‌بندی و رگرسیون طراحی شده‌اند و تعمیم طبقه‌بندی‌کننده‌های خطی هستند. این الگوریتم در دهه 1990 توسط «کورتس و واپنیک»[44] توسعه یافت و با دلایل زیر به سرعت مورد استفاده قرار گرفت:

  • توانایی آنها در کار با کلان داده‌ها،
  • تعداد کم فراپارامترها[45]،
  • تضمین‌های نظری،
  • نتایج خوب در عمل.

برخلاف سایر الگوریتم‌های یادگیری، این الگوریتم سعی می‌کند مشابه‌ترین مثال‌ها را بین کلاس‌ها بیاموزد تا مجموعه‌ای از بردارهای پشتیبان بسازد و براساس آن، با کشیدن یک مرز تصمیم به‌نام «ابرصفحه»[46]، داده‌ها را از هم جدا می‌کند و در نهایت با محاسبه بهترین حاشیه ابرصفحه، ابر صفحه بهینه را که تقسیم‌کننده کلاس‌ها است را بررسی می‌کند.

 SVM می‌تواند برای حل مسائل طبقه‌بندی با تصمیم‌گیری در مورد این‌که یک نمونه متعلق به کدام کلاس است، یا مسائل رگرسیون با پیش‌بینی مقدار عددی یک متغیر نیز استفاده شود. حل این دو نوع مسئله شامل ساخت تابع f است که دارای بردار ورودی X و مطابق با خروجی است (گیدو و همکاران[47]، 2023: 3).

(3)                                                                                Y = f (X)

  توابع کرنل[48] توسط الگوریتم‌های SVM استفاده می‌شوند. در این مطالعه نیز از کرنل خطی[49] که معمولاً برای مسائل طبقه‎بندی متن توصیه می‏شود، استفاده گردید. تابع کرنل خطی از پارامترهای کمتری استفاده می‌کند و سریع‌تر از سایر توابع هسته مانند توابع چند جمله‎ای و شعاعی[50] است. مرز تصمیمی که SVM برمی‌گرداند توسط تابع کرنل خطی ارائه شده است که در فرمول زیر تعریف می‏شود.

(4)                                                                   

که در آن w بردار وزنی است که باید به حداقل برسد، x داده‏ای است که باید طبقه‎بندی شود، و b ضریب خطی تخمین زده شده است. از دو پارامتر w و b برای تعریف ابرصفحه استفاده می‌شود (آزه و همکاران[51]، 2023: 4).

 

2-3-3-3. بیز ساده

«بیز ساده»[52] یک نوع طبقه‎بندی بیز احتمالی ساده است که بر اساس قضیه بیز در فرمول زیر ارائه شده است. این یک طبقه‌بندی‌کننده ساده بیز را پیاده‌سازی می‌کند که متعلق به خانواده طبقه‎بندی کننده‌های خطی با استقلال قوی از مفروضات است. یک طبقه‌بندی‌کننده بیزی ساده فرض می‌کند که وجود یک مشخصه برای یک کلاس مستقل از وجود ویژگی‌های دیگر است. حتی اگر این ویژگی ها به هم مرتبط باشند.

(5)                                               P(A|B) = ( P (B|A) P(A)) / P(B)

مزیت طبقه‌بندی‌کننده NB این است که به داده‌های آموزشی نسبتاً کمی برای تخمین پارامترهای لازم برای طبقه‌بندی نیاز دارد. الگوریتم ماتریس اصطلاح-سند را برای هر کلاس (جعلی، واقعی) محاسبه می‌کند. این ماتریس شامل فهرستی از بسامدهای کلمه موجود در مجموعه‌ای از اسناد است. ورودی (m, n) ماتریس سند اصطلاحی از فراوانی کلمه "m" در سند "n" تشکیل شده است. تعداد به مفهوم تعداد دفعاتی که هر واژه/کلمه در تمام اسناد وجود دارد محاسبه می‏شود. در این پژوهش، از بیز ساده چندجمله‎ای[53] استفاده گردید که معمولاً برای مسئله طبقه‌بندی متن استفاده می‌شود و داده‌ها به‌عنوان تعداد بردار کلمات نشان داده می‌شوند (وزیروگلو و همکاران[54]، 2024: 7).

  

2-3-3-4. رگرسیون پشتیبان

«رگرسیون پشتیبان»[55] یکی از الگوریتم‎های یادگیری تحت نظارت و تجزیه‌وتحلیل پیش‌بینی‌کننده بر اساس مفهوم احتمال است. این الگوریتم عمدتاً برای مسائل طبقه‌بندی برای تخصیص نمونه‌ها به مجموعه‌ای از کلاس‌ها استفاده می‌شود و هدف آن، انجام طبقه‌بندی باینری است. تابع پشتیبان خروجی یک مدل خطی را به فرصتی تبدیل می‌کند که می‌تواند برای وظایف طبقه‎بندی اعمال شود.

تابع پشتیبان که در بسیاری از کاربردهای دیگر مورد استفاده قرار می‌گیرد، ابزار مؤثری برای درک و پیش‌بینی داده‌ها است. خروجی با استفاده از تابع «سیگموئید پشتیبان»[56] به یک «تابع هزینه»[57] تبدیل می‎شود که مقدار احتمالی را بین 0 و 1 برمی‌گرداند.

فرضیه رگرسیون پشتیبان به‌سمت حداقل‌کردن تابع هزینه متمایل می‎شود. بنابراین استفاده از توابع خطی به‌عنوان تابع هزینه مناسب نیست؛ زیرا می‌تواند مقداری بزرگتر از 1 تولید کند که طبق فرضیه رگرسیون پشتیبان قابل قبول نیست. تابع سیگموئید برای ترسیم هر مقدار پیش‌بینی شده که ممکن است هر مقدار واقعی با x نشان داده شود به احتمال آن‌که باید بین 0 و 1 باشد استفاده شده است (زیدی و ال‌ لوهیب[58]، 2023: 1). تابع سیگموئید به صورت زیر تعریف می‎شود (همان: 2):

  (6)                                                                 

برای کاهش خطا در احتمالات پیش‌بینی‌شده توسط مدل و تولید پیش‌بینی‌های دقیق، بهینه‌سازی تابع هزینه با استفاده از گرادیان کاهشی[59] انجام می‎گردد (همان: 4). ضرایب بتا[60] برای معادله رگرسیون پشتیبان از داده‎های آموزشی با استفاده از تخمین حداکثر احتمال، تخمین زده شد؛ به‌طوری‌که، مدل قادر خواهد بود مقدار بسیار نزدیک به (1) را برای کلاس اخبار جعلی و مقدار بسیار نزدیک به (0) را برای کلاس اخبار واقعی پیش‌بینی کند (سولومون و همکاران[61]، 2023: 7).

 

2-3-3-5. تقویت گرادیان

الگوریتم تقویت گرادیان یکی از قدرتمندترین الگوریتم‌ها در زمینه یادگیری ماشین است. تقویت گرادیان[62] اساساً فرآیند تبدیل مدل‌های یادگیری ضعیف به مدل‌های یادگیری قوی است. یکی از اجزای کلیدی تقویت گرادیان، «تابع ضرر»[63] است که برای آموزش این مدل‌ها استفاده می‌شود (امامی و مارتینز‌مونوز[64] ،2023: 3).

برای یادگیرندگان ضعیف، از درخت تصمیم در تقویت گرادیان استفاده می‌شود؛ جایی‌که خروجی‌های آن‌ها برای تصحیح باقی‌مانده‌ها در پیش‌بینی‌ها اضافه می‌شود. در تقویت گرادیان، یادگیرنده ضعیف درخت رگرسیون است و در هر تکرار، مدل با استفاده از گرادیان کاهشی تصادفی برای کاهش خطا آموزش داده می‌شود؛

یک. اولین یادگیرنده ضعیف (درخت اول) در الگوریتم GB یاد می‎گیرد تا خطا را در تکرار اول کاهش دهد.

دو. سپس، درخت دوم (یعنی دومین یادگیرنده ضعیف) به‌طور مداوم آموزش داده می‎شود و یاد می‎گیرد که خطا را در تکرار دوم درخت دوم به حداقل برساند. این فرآیند به‌طور مکرر انجام می‌شود تا زمانی‌که خطای مورد قبول به‌دست آید (هو و ترن[65]، 2024: 7).

 

  1. روش‌شناسی تحقیق

این مقاله از نظر هدف، کاربردی است و از نظر شیوه اجرا، گردآوری و تحلیل داده‏ها نیز پژوهشی کمی است. مجموعه داده مطالعه حاضر بر اساس دو مجموعه داده منبع باز است که به صورت آنلاین از وب‎گاه کگل[66] در دسترس هستند.

اولین مجموعه داده شامل 6060 خبر است که 50 درصد خبر جعلی و 50 درصد خبر واقعی است. اخبار مجموعه داده اول با عناوین زیر مشخص می‏شود (کومار[67]، 2024):

  • شناسه،
  • عنوان،
  • متن،
  • برچسب (جعلی و صحیح).

این داده‌ها و قالب آن در جدول (1) ارائه شده است.

 

 

جدول شماره 1. معیارها و زیرمعیارهای تاب‌آوری زنجیره تأمین (طهماسبی و حامی، 1399)

برچسب

متن

عنوان

شناسه

Fake

Daniel Greenfield, a Shillman Journalism Fellow at the Freedom Center, is a New York writer focusing...

You Can Smell Hillary’s Fear

8476

 

مجموعه داده دوم شامل 21724 مقاله خبری و اطلاعاتی درباره آن است. مجموعه داده دوم از 17441 خبر موثق و 5755 خبر غیرموثق تشکیل شده است. هر مقاله خبری با موارد زیر توصیف می‌شود (گولوین[68]، 2024):

  • یک عنوان،
  • آدرس اینترنتی،
  • نام دامنه،
  • تعداد بازنشر[69]،
  • برچسب (جعلی و صحیح).

شاخص‌های فوق در جدول (2) نشان داده شده است.

 

جدول شماره 2. اخبار مجموعه داده دوم

برچسب

تعداد بازنشر

نام دامنه

آدرس اینترنتی

عنوان

Fake

42

toofab.com

http://toofab.com/2017/05/08/real-housewives-atlanta-kandi-burruss-rape-phaedra-parks-porsha-william...

Kandi Burruss Explodes Over Rape Accusation on Real Housewives of Atlanta' Reunion

 

دو مجموعه داده مورد استفاده برای جلوگیری از ایجاد هرگونه اختلاف در فرآیند طبقه‎بندی، با استفاده از سامانه رپیدماینر[70] ابتدا وارد مرحله پیش‌پردازش می‎گردند. فرآیند پاکسازی داده‎ها برای حذف نویزهای درون متن خبر مورد نیاز است. دور انداختن کلیه کلمات و حروف غیرانگلیسی یا بی‎معنا در اخبار، جایگزینی کلمات عامیانه با اشکال استاندارد آنها و تبدیل متون به حروف کوچک، برای یکنواختی کار یک گام اساسی برای نگاه‌داشتن متن قابل استفاده در خبر است. از روش‌های پردازش زبان طبیعی (NLP) می‌توان برای تحلیل متون خبری و استخراج اطلاعات با کیفیت بالا در متن استفاده کرد. همان‌گونه که پیشتر ذکر گردید، چندین روش پردازش زبان طبیعی برای مرحله پیش‎پردازش مجموعه‎های داده، قبل از آموزش مدل‌های یادگیری ماشین به کار گرفته شدند. روش‌های مورد استفاده عبارتند از؛ «واحدسازی»، «بُن‎واژه‎سازی» و «حذف کلمات توقف» که بخش مهمی در متن‎کاوی می‎باشند.

پس از پیش‎پردازش و آماده‎سازی مجموعه داده، آن‌ها به دو قسمت تقسیم گردیدند:

  • «مجموعه داده آموزشی»،
  • «مجموعه داده تست».

بررسی مدل‌های طبقه‌بندی‌کننده‌ یادگیری ماشین برای شناسایی اخبار جعلی و طبقه‌بندی دقیق اخبار به جعلی یا واقعی، و دستیابی به معیارهای مشخص و معتبر در ارزیابی و مقایسه هر یک از مدل‎ها یک گام مهم در مطالعه این پژوهش است. با استفاده از سامانه رپیدماینر، پنج مدل طبقه‌بندی‌کننده‌ یادگیری ماشین که همان الگوریتم‎های رگرسیون پشتیبان، تقویت گرادیان، جنگل تصادفی، ماشین بردار پشتیبان و بیز ساده به‌صورت جداگانه بر روی مجموعه داده‌های تست بررسی و برای سنجش قدرت پیش‎بینی هر یک از مدل‌های یادگیری ارزیابی گردید.

 

  1. تجزیه‌وتحلیل یافته‌ها

معیارهای ارزیابی مختلف برای مقایسه عملکرد الگوریتم‌های یادگیری ماشین تحت نظارت برای تشخیص اخبار جعلی استفاده شده است. معیارهای ارزیابی اغلب به ما امکان می‌دهند اثربخشی الگوریتم را آزمایش کنیم. در مطالعه حاضر، همانطور که در جدول (3) نشان داده شده است، از روش ماتریس درهم‏ریختگی[71] برای ارزیابی عملکرد تشخیص اخبار جعلی استفاده شده است. در این ماتریس، نمونه‌ها به عنوان جعلی یا واقعی طبقه‎بندی می‌شوند. هنگام آزمایش طبقه‌بندی‌کننده‌های باینری (اخبار جعلی، اخبار واقعی)، هر رکورد در یکی از چهار احتمال زیر قرار می‌گیرد:

  • مثبت صادق[72] (TP): اگر اخبار جعلی پیش‌بینی شده در واقع اخبار جعلی باشد، پیش‌بینی TP است.
  • مثبت کاذب[73] (FP): اگر اخبار جعلی پیش‌بینی شده در واقع خبر واقعی باشد، پیش‌بینی FP است.
  • منفی صادق[74] (TN): اگر خبر واقعی پیش‌بینی شده در واقع خبر واقعی باشد، پیش‌بینی TN است.
  • منفی کاذب[75] (FN): اگر خبر واقعی پیش‌بینی شده در واقع اخبار جعلی باشد، پیش‌بینی FN است.

 

 

جدول شماره 3: ماتریس درهم‏ریختگی برای اخبارجعلی

پیش‌بینی‌های صحیح شامل «مثبت صادق» و «منفی صادق» هستند، در حالی‌که مثبت کاذب و منفی کاذب پیش‌بینی‌های نادرستی هستند که توسط طبقه‌بندی‌کننده‌ها انجام می‌شوند. برای سنجش عملکرد مدل‌های یادگیری ماشین در این پژوهش، معیارهای ارزیابی مختلفی به شرح زیر استفاده شد:

  • صحت[76]،
  • امتیاز F1[77]،
  • یادآوری،
  • دقت[78].

«صحت» به عنوان نسبت بین تعداد نمونه‎های طبقه‎بندی شده صحیح و تعداد کلی نمونه‌ها تعریف می‏شود (گویدو و همکاران، 2023: 5).

 

                 (7)                         

 

مقدار یادآوری نسبت اخبار جعلی را نشان می‌دهد که به‌درستی در تعداد کل اخبار جعلی پیش‌بینی شده است.

                (8)                                                   

معیار دقت، دقت اخبار جعلی را اندازه‌گیری می‎کند، که به‌درستی از کل اخبار پیش‌بینی شده در کلاس جعلی پیش‌بینی می‎شود.

 

              (9)                                                   

امتیاز F1 یا مقدار میانگین همساز[79]، مقدار یادآوری و مقدار دقت به‌دست آمده برای تشخیص اخبار جعلی است که برای ارزیابی دقت مدل و نرخ‌های یادآوری به‌طور جمعی استفاده شده تا درک بهتری از رکوردهای طبقه‌بندی اشتباه ارائه شود.

 

           (10)                  

امتیاز F1 بالا نشان می‌دهد که مدل‌ها موارد منفی کاذب و مثبت کاذب پایینی دارند که به‌نوبه‌خود به‌معنای عملکرد خوب است. امتیاز F1 تعادل بین دقت و یادآوری است و بالاترین مقدار آن 1 است که نشان‌دهنده دقت و یادآوری کامل است (همان: 5).

همانگونه که نتایج تشخیص اخبار جعلی با استفاده از معیارهای چهارگانه ارزیابی (صحت، امتیاز F1 ، یادآوری و دقت) در جدول (4) گزارش شده است، در معیارهای امتیاز F1 و یادآوری، الگوریتم تقویت گرادیان بالاترین امتیازات را به ترتیب 97.7 و 98.7 به‌دست آورد. این الگوریتم تعادل بسیار خوبی بین معیارهای دقت و فراخوانی دارد.

 

جدول شماره 4: نتایج ارزیابی عملکرد مدل‌های یادگیری ماشین

مدل یادگیری ماشین

% صحت

% دقت

% امتیاز F1

% یادآوری

رگرسیون پشتیبان

96.6

97.5

97.3

96.4

تقویت گرادیان

97.6

96.4

97.7

98.7

جنگل تصادفی

98.3

97.9

97

97.6

ماشین بردار پشتیبان

95.2

95.3

93.6

93.4

بیز ساده

89.3

89.3

91.4

91.3

 

الگوریتم جنگل تصادفی قدرت تشخیص بسیار خوبی در معیارهای صحت و دقت با امتیازات به ترتیب 98.3 و 97.9 دارد.

 

  1. نتیجه‌گیری و پیشنهادات

1-5. جمع‌بندی

از آنجایی‌که تشخیص اخبار به‌صورت دستی یک کار پرهزینه است، به تخصص بالا و دانش عمیق در این حوزه نیاز دارد تا بتوان ناهنجاری‌ها را در متن خبر تشخیص داد. پژوهش حاضر، با هدف بررسی کاربرد هوش مصنوعی در تشخیص اخبار جعلی انجام شد. نتایج حاصل از روش تحقیق و تحلیل انجام شده در این پژوهش در قالب مدل مفهومی و به شرح فرآیند پیشنهادی تشخیص اخبار جعلی در شکل (5) ترسیم و ارائه شده است.

 

شکل شماره 5. فرآیند پیشنهادی تشخیص اخبار جعلی

 

همانطور که پیش‎تر ذکر شد، تشخیص نادرست اخبار جعلی از اخبار واقعی، به دلیل تاثیر منفی اخبار جعلی بر کاربران و عموم جامعه منجر به بروز مسائل اخلاقی رفتاری مهمی می‌گردد. بروز منفی کاذب و مثبت کاذب پیش‎بینی‎های نادرستی هستند که چنین پیامدهای زیان‎باری را ایجاد خواهند کرد. موارد منفی کاذب به‌عنوان طبقه‎بندی نادرست اطلاعات نادرست که به‌عنوان اطلاعات صحیح ظاهر می‎شوند و اجازه می‎دهند محتوای مضر از تشخیص فرار کند و در فضای برخط بدون کنترل پخش شود، می‎تواند باعث ایجاد سردرگمی و بی‎اعتمادی در میان کاربران شود و به‎طور مستقیم به‌عنوان سلاح موثر جنگ‎های ترکیبی[80] بر انتخابات و فرآیندهایی مردم‎سالارانه تاثیر بگذارد، زیرا افراد برای تصمیم‎گیری آگاهانه به اطلاعات با کیفیت بالا نیاز دارند.

از سوی ‌دیگر، موارد مثبت کاذب به شناسائی نادرست محتوای صحیح که به‌عنوان اطلاعات نادرست معرفی می‎شوند و در نتیجه، اطلاعات معتبر منتشرشده برخط مانند گزارش‎های خبری، به‌دلیل طبقه‎بندی نادرست حذف می‎گردند. چنین اشتباهاتی می‎توانند تهدید جدی برای گفتگوی آزاد باشند و به نقض آزادی‎های مدنی و موارد سانسور منجر شوند.

بنابراین استفاده از معیارهای ارزیابی که بر سنجش میزان پیش‌بینی‌های صحیح شامل مثبت صادق و منفی صادق متمرکز بوده و گزاره‎های صحت، امتیاز F1، یادآوری و دقت را بررسی می‎نمایند موجب افزایش اطمینان و اعتماد به مدل‎های یادگیری ماشین در تشخیص صحیح اخبار جعلی می‎گردند.

همانگونه که نتایج تشخیص اخبار جعلی با استفاده از معیارهای چهارگانه ارزیابی در جدول (4) ذکر شده است، الگوریتم تقویت گرادیان که در معیارهای امتیاز F1 و یادآوری، بالاترین امتیازات را به ترتیب 97.7 و 98.7 به دست آورد و تعادل بسیار خوبی بین معیارهای دقت و فراخوانی ارائه نمود، از روش تقویت استفاده می‌کند و درخت‌ها را یکی یکی می‌سازد، به‌گونه‌ای‌که هر درخت از درختی که قبلاً آموزش داده شده بهره می‌برد و خطاهای خود را تصحیح و باعث ایجاد یک یادگیرنده قوی می‌شود.

الگوریتم جنگل تصادفی که قدرت تشخیص بسیار خوبی در معیارهای صحت و دقت با امتیازات به ترتیب 98.3 و 97.9 ارائه داد از راهبرد کیسه‌گذاری و از نمونه تصادفی داده‌ها استفاده می‌کند و هر درخت را جداگانه آموزش می‌دهد و نیاز به رای‌گیری برای تجمیع مدل دارد. به بیان ساده، جنگل تصادفی چندین درخت تصمیم ساخته و آن‌ها را با یکدیگر ادغام می‌کند تا پیش‌بینی‌های صحیح‌تر و پایدارتری حاصل شوند.

ترکیب روش‌های متن‌کاوی به این مدل اجازه داد تا قابلیت‌های تعمیم و عملکرد طبقه‌بندی‌کننده اخبار جعلی را بهبود بخشد. بنابراین، این مدل پتانسیل ایجاد یک محیط غنی از دانش را دارد که می‌تواند به‌طور معناداری با طبقه‌بندی دقیق اخبار به‌حداقل رساندن انتشار اخبار جعلی در سکو‌های رسانه‌های اجتماعی کمک کند.

 

2-5. پیشنهادات

با عنایت به کاربردی‌بودن این پژوهش، پیشنهاد می‏گردد:

  • به‌منظور مبارزه با اطلاعات نادرست، باید برنامه و بودجه‎ای مشخص برای دانشگاه‌ها، موسسات تحقیقاتی و سایر محققان و نهادهای دانش‎بنیان برای «طراحی»، «تولید» و «توسعه» سامانه‎های تخصصی این حوزه تامین و اختصاص داده شود.
  • سازمان‏های مرتبط با حوزه پژوهش ضمن تلاش برای به‌حداقل رساندن کارهای تکراری، رویکردهای رایج برای توسعه، آزمایش و ارزیابی، استقرار قابلیت‌های هوش مصنوعی در تشخیص اخبار جعلی را به حداکثر برسانند. آنها باید با یکدیگر همکاری نمایند تا منابع و ابزارهای قابل استفاده و قابل اشتراک‌گذاری را ایجاد کنند. باید فرهنگ به اشتراک‏گذاری همه قابلیت‏های فعال شده با هوش مصنوعی را در صورت امکان ایجاد کنند.

 

 

 

  • منابع

    الف- فارسی

    • ابراهیمی، سید نصراله؛ محمودی، امیررضا؛ و میری بالاجورشری، سیده مهشید (1401). «بررسی تطبیقی سیاست کیفری انتشار اطلاعات نادرست در رسانه‌های مجازی»،فصلنامه آموزه‌های فقه و حقوق جزاء، 1 (1)، 1-20.‎
    • اخگری، محمدرضا؛ ممتازی، سعیده (1402). «کاربرد هوش مصنوعی در راستی‌آزمایی اخبار: تشخیص اخبار جعلی با استفاده از متن خبر و اطلاعات منابع منتشرکننده خبر»،پژوهش‌های رسانه و ارتباطات، 1 (1)، 243-268.‎

     

    ب- انگلیسی

    • Almarashy, A. H. J., Feizi-Derakhshi, M. R., & Salehpour, P. (2023). “Enhancing Fake News Detection by Multi-Feature Classification”. IEEE Access. Almarashy, A. H. J., Feizi-Derakhshi, M. R., & Salehpour, P. (2023). Enhancing Fake News Detection by Multi-Feature Classification. IEEE Access.
    • Azzeh, M., Elsheikh, Y., Nassif, A. B., & Angelis, L. (2023). “Examining the performance of kernel methods for software defect prediction based on support vector machine”, Science of Computer Programming, (226), 102916.
    • Chai, C. P. (2023). “Comparison of text preprocessing methods”, Natural Language Engineering, 29 (3), 509-553.
    • Das, M., & Alphonse, P. J. A. (2023). “A comparative study on tf-idf feature weighting method and its analysis using unstructured dataset”, arXiv preprint arXiv, 2308.04037.
    • Dudeja, D., Noonia, A., Lavanya, S., Sharma, V., Kumar, V., Rehan, S., & Ramkumar, R. (2023). “Breast Cancer Diagnosis Using Bagging Decision Trees with Improved Feature Selection”, Engineering Proceedings, 59 (1), 17; https://doi.org/10.3390/engproc2023059017
    • Emami, S., & Martínez-Muñoz, G. (2023). Sequential training of neural networks with gradient boosting. IEEE Access.
    • Ghunimat, D., Alzoubi, A. E., Alzboon, A., & Hanandeh, S. (2023). “Prediction of concrete compressive strength with GGBFS and fly ash using multilayer perceptron algorithm, random forest regression and k-nearest neighbor regression”, Asian Journal of Civil Engineering, 24 (1), 169-177.
    • Golovin, A. (2024). “Fake News. Fake News dataset based on FakeNewsNet”. In: Kaggle, Available at: https://www.kaggle.com/datasets/algord/fake-news.
    • Guido, R., Groccia, M. C., & Conforti, D. (2023). “A hyper-parameter tuning approach for cost-sensitive support vector machine classifiers”, Soft Computing, 27 (18), 12863-12881.
    • Ho, L. S., & Tran, V. Q. (2024). “Evaluation and estimation of compressive strength of concrete masonry prism using gradient boosting algorithm”, Plos one, 19 (3), e0297364.
    • Hu, B., Sheng, Q., Cao, J., Shi, Y., Li, Y., Wang, D., & Qi, P. (2024, March). “Bad actor, good advisor: Exploring the role of large language models in fake news detection”. In: Proceedings of the AAAI Conference on Artificial Intelligence, 38 (20), 22105-22113.
    • Kumar, R. (2024). “Fake News Prediction Dataset. Dataset is having records of real and fake news which can be used for prediction”, Available at: https://www.kaggle.com/datasets/rajatkumar30/fake-news?resource.
    • Maheswari, R. U., & Sudha, N. (2024). “An efficient fake news classification model based on ensemble deep learning techniques”, Salud, Ciencia y Tecnología-Serie de Conferencias, (3), 649-649.
    • Makkar, K., Kumar, P., Poriye, M., & Aggarwal, S. (2023). “Improvisation in opinion mining using data preprocessing techniques based on consumer’s review”, International Journal of Advanced Technology and Engineering Exploration, 10 (99), 257-277; DOI:10.19101/IJATEE.2021.875886.
    • Patil, M., Yadav, H., Gawali, M., Suryawanshi, J., Patil, J., Yeole, A., ... & Potlabattini, J. (2024). “A Novel Approach to Fake News Detection Using Generative AI”, International Journal of Intelligent Systems and Applications in Engineering, 12 (4s), 343-354.
    • Pichiyan, V., Muthulingam, S., Sathar, G., Nalajala, S., Ch, A., & Das, M. N. (2023). “Web Scraping using Natural Language Processing: Exploiting Unstructured Text for Data Extraction and Analysis”, Procedia Computer Science, (230), 193-202; DOI: 10.1016/j.procs.2023.12.074.
    • Soetekouw, L., & Angelopoulos, S. (2024). “Digital resilience through training protocols: Learning to identify fake news on social media”, Information Systems Frontiers, 26 (2), 459-475.
    • Solomon, F. A. M., Sathianesan, G. W., & Ramesh, R. (2023). “Logistic Regression Trust-A Trust Model for Internet-of-Things Using Regression Analysis”, Computer Systems Science & Engineering, 44 (2), 1125-1142.
    • Truică, C. O., Apostol, E. S., & Karras, P. (2024). “DANES: Deep neural network ensemble architecture for social and textual context-aware fake news detection”, Knowledge-Based Systems, (294), 111715; https://doi.org/10.1016/j.knosys.2024.111715.
    • Veziroğlu, M., Eziroğlu, E., & Bucak, İ. Ö. (2024). “Performance Comparison between Naive Bayes and Machine Learning Algorithms for News Classification”. In: Bayesian Inference-Recent Trends. IntechOpen.
    • Xie, X., Yuan, M. J., Bai, X., Gao, W., & Zhou, Z. H. (2024). “On the Gini-impurity preservation for privacy random forests”, Advances in Neural Information Processing Systems, (36), 45055–45082.
    • Yenkikar, A., Sultanpure, K., & Bali, M. (2023). “Machine learning-based algorithmic comparison for fake news identification”. (pp. 67-83). In: AI-Based Metaheuristics for Information Security and Digital Media. Chapman and Hall/CRC.
    • Zaidi, A., & Al Luhayb, A. S. M. (2023). “Two statistical approaches to justify the use of the logistic function in binary logistic regression”. Mathematical Problems in Engineering. https://doi.org/10.1155/2023/5525675.

     

    [1]. پژوهشگر حوزه مدیریت راهبردی فضای سایبر (نویسنده مسئول) a.tarrasoli@sndu.ac.ir.

    [2]. Yenkikar, A., Sultanpure, K., & Bali, M.

    [3]. WhatsApp

    [4]. Signal

    [5]. Cyberspace

    [6]. Dataset

    [7]. Patil

    [8]. Hu

    [9]. large language models (LLMs)

    [10]. small language models (SLMs)

    [11]. Truică

    [12]. Novel Network Embedding

    [13]. Lazer  & et.al.

    [14]. Soetekouw, L., & Angelopoulos, S.

    [15]. Pichiyan, V., Muthulingam, S., Sathar, G., Nalajala, S., Ch, A., & Das, M. N.

    [16]. Makkar, K., Kumar, P., Poriye, M., & Aggarwal, S.

    [17]. Stemming

    [18]. Lemmatization

    [19]. Chai

    [20]. Stop word removal

    [21]. Tokenization

    [22]. Tokens

    [23]. Maheswari & Sudha

    [24]. Das & Alphonse

    [25]. Feature extraction

    [26]. Document-term matrix

    [27]. Vector Space Model (VSM)

    [28]. Term Frequency-Inverse Document Frequency (TF-IDF)

    [29]. Inverse Document Frequency (IDF)

    [30]. Term Frequency (TF)

    [31]. Binary representation

    [32]. Almarashy

    [33]. Random Forests (RF)

    [34]. Bagging

    [35]. Decision Trees

    [36]. Dudeja, D., Noonia, A., Lavanya, S., Sharma, V., Kumar, V., Rehan, S., & Ramkumar, R.

    [37]. Random forest regression

    [38]. Ghunimat, D., Alzoubi, A. E., Alzboon, A., & Hanandeh, S.

    [39]. Classification Random Forest

    [40]. Gini Impurity

    [41]. Xie, X., Yuan, M. J., Bai, X., Gao, W., & Zhou, Z. H.

    [42]. Support Vector Machine (SVM)

    [43]. Supervised Learning

    [44]. Cortes and Vapnik

    [45]. Hyperparameters

    [46]. Hyperplane

    [47]. Guido, R., Groccia, M. C., & Conforti, D.

    [48]. Kernel functions

    [49]. linear kernel

    [50]. polynomial and radial functions

    [51]. Azzeh

    [52]. Naive Bayes (NB)

    [53]. Multinomial Naive Bayes

    [54]. Veziroglu, M., Eziroglu, E., & Bucak, I. O.

    [55]. Logistic Regression (LR)

    [56]. logistic Sigmoid

    [57]. Cost Function

    [58]. Zaidi, A., & Al Luhayb, A. S. M.

    [59]. Gradient Descent

    [60]. The Beta coefficients

    [61]. Solomon, F. A. M., Sathianesan, G. W., & Ramesh, R.

    [62]. Gradient Boosting (GB)

    [63]. loss function

    [64]. Emami, S., & Martínez-Muñoz, G.

    [65]. Ho, L. S., & Tran, V. Q.

    [66]. Kaggle

    [67]. Kumar, R.

    [68]. Golovin

    [69]. Retweet

    [70]. RapidMiner

    [71]. Confusion matrix

    [72]. True-Positive

    [73]. False-Positives

    [74]. True-Negatives

    [75]. False-Negatives

    [76]. Accuracy

    [77]. F1-Score

    [78]. The Recall and Rhe Precision

    [79]. Harmonic Mean

    [80]. Hybrid warfare