نوع مقاله : مقاله پژوهشی
نویسنده
دانشکده مدیریت راهبردی ، دانشگاه عالی دفاع ملی ، تهران ، ایران
چکیده
کلیدواژهها
موضوعات
فصلنامة آماد و فناوری دفاعی، سال هفتم، شمارۀ 2 (پیاپی 22)، تابستان 1403
کاربرد هوش مصنوعی در تشخیص اخبار جعلی
احمدرضا ترسلی*[1]
تاریخ دریافت: 27/02/1403 پذیرش مقاله: 24/03/1403
چکیده
همزمان با توسعه اینترنت، ظهور و پذیرش گسترده مفهوم رسانههای اجتماعی بر نحوه شکلگیری و انتشار اخبار تاثیر گذاشته و آنها را تغییر داده است. اخبار؛ سریعتر، کمهزینهتر و بهراحتی با رسانههای اجتماعی قابل دسترسی هستند. البته این تغییر با معایبی همراه بوده است، تا جاییکه محتوای فریبنده مانند اخبار جعلی ساخته شده توسط کاربران رسانههای اجتماعی بهطور فزایندهای خطرناک میشود. هدف اصلی مقاله، ارائه راهحلی برای چالش تشخیص تفاوت بین اخبار واقعی و جعلی است. این مقاله از نظر هدف کاربردی است و از نظر شیوه اجرا، گردآوری و تحلیل دادهها پژوهشی کمی است که با انتخاب دو مجموعه داده منبع باز از وبگاه کگل در سال 2024م. (بهعنوان جامعه آماری) و پیشپردازش این مجموعه داده با استفاده از سامانه رپیدماینر و بکارگیری ماتریس درهمریختگی مبتنی بر پنج مدل یادگیری ماشین نظارت شده، مدلسازی و اجرا شده است. در این مقاله پس از تجزیهوتحلیل دادهها و محاسبه معیارهای ارزیابی صحت، یادآوری، دقت و امتیاز F1 (میانگین همساز) و مقایسه نتایج مشخص گردید که مدل یادگیری ماشین جنگل تصادفی در معیارهای صحت و دقت به ترتیب با 98.3 درصد و 97.9 درصد و مدل یادگیری تقویت گرادیان در محاسبه معیارهای امتیاز F1 و یادآوری به ترتیب با 97.7 درصد و 98.7 درصد بهترین نتیجه در تشخیص اخبار جعلی دارند.
واژگانکلیدی: هوشمصنوعی، یادگیری ماشین، اخبار جعلی، اطلاعات نادرست، ماتریس درهمریختگی.
10 |
10 |
10 |
با ظهور رسانههای اجتماعی، هر فردی میتواند در تولید محتوا مشارکت کند و انتشار اخبار جعلی در اینترنت را با سرعتی سرسامآور ساده کرده است. این امر، زمینه انتشار اطلاعات نادرست را تسهیل کرده است که اغلب یا برای افزایش ترافیک شبکه، عضوگیری و کسب سودهای مالی از ارائه تبلیغات آنلاین مانند «طعمه کلیک»، تأثیرگذاری بر باورهای افراد و در نهایت، تأثیرگذاری بر رویدادهای مهم مانند انتخابات ساخته میشود (ینکیکار و همکاران[2]، 2023: 1). اخبار جعلی به دلیل تهدیدی که برای جامعه ایجاد میکند، از بحث برانگیزترین موضوعات امروز هستند.
امروزه، افراد دارای شهرت ممکن است به دلیل ناآگاهی محض و یا به تبعیت از سیاستهای دشمن، اطلاعات گمراهکننده را منتشر کنند و این یک مشکل دائمی است؛ بهویژه زمانیکه به مداخله خارجی مرتبط باشد. کاربران رسانههای اجتماعی اغلب نمیدانند تنها هدف پستها، توییتها، مقالهها یا سایر مطالب نوشتاری که در فضای مجازی وجود دارند، شکلدهی به نظرات دیگران به منظور تأثیرگذاری بر قضاوتهای آنها است. دقیقاً، «دستکاری اطلاعات» به دلیل دانش ضعیف کاربران رسانههای اجتماعی از موضوعات رخ می دهد.
برخی از کاربران جوان، غرق «اخبار فوری» هستند و اطلاعات نادرست همیشه بخشی از برنامهریزیهای اطلاعاتی و نظامی بوده است. این رویکرد، مطمئنا در نتیجه استفاده از رسانههای اجتماعی و فناوری هوشمند بدتر میشود. دلیل ان مسئله را باید چنین توضیح داد که فنآوریهای ارتباطی مدرن ابزاری عموماً ارزان و کممانع برای انتشار اطلاعات بهویژه انتشار اطلاعات نادرست ارائه میکنند.
شناسائی اخبار جعلی که توسط برخی مراجع بهصورت دستی انجام میگردد، همواره با مسائل عدیدهای مواجه است. چراکه؛
مهمترین گام برای جلوگیری از انتشار اخبار جعلی و نجات جان مردم، «شناسایی زودهنگام اخبار جعلی» است. افراد، ناآگاهانه اطلاعات نادرست را منتشر می کنند و در آن مشارکت میکنند. تشخیص اخبار جعلی و الگوی انتشار آن برای جامعه و دولت اهمیت فوقالعادهای داشته تا از این رشته حوادث جلوگیری کنند، انگیزههای پشت اخبار اینترنتی را تجزیهوتحلیل و توانایی تشخیص درست از آنچه جعلی است را توسعه دهند.
استفاده از هوش مصنوعی برای تشخیص دقیق، صحیح و زودهنگام اطلاعات نادرست، ارزشمند است و در این مقاله تلاش گردید تا با بررسی چگونگی استفاده از مدلهای یادگیری ماشینی در پیشبینی و تشخیص اخبار جعلی، بر میزان دانش و درک مدیران حوزه امنیتی و دفاعی کشور بیافزاید. جامعه اطلاعاتی در عصر کوانتوم، هوش مصنوعی، اینترنت و... نیازمند استفاده از ابزارهای متناسب با زمان برای پردازش کارآمد کلان دادههای رایانه سپهر[5]، تشخیص اطلاعات جعلی، منبع و الگوی انتشار برای پیشگیری و مقابله موثر با فعالیتهای مجرمانه و بدخواهانه علیه امنیت و اعتماد جامعه خواهد بود.
10 |
10 |
10 |
1-2. اهمیت و ضرورت
هدف اصلی این پژوهش، بررسی کاربرد و چگونگی تاثیر مدلهای طبقهبندیکننده یادگیری ماشین در تشخیص اخبار نادرست است. اهمیت و دلیل انجام مطالعه حاضر این است که الگوریتمهای هوش مصنوعی میتوانند حجم عظیمی از دادهها را به سرعت و با دقت بالا پردازش کنند و اخبار جعلی را با بررسی عواملی مانند سبک نگارش، منبع انتشار، و تناقض با اطلاعات موثق شناسایی کنند. این امر، بهویژه در مواقعی که انتشار اخبار جعلی میتواند به سرعت آسیبهای جدی به بار آورد، بسیار حائز اهمیت است. همچنین هوش مصنوعی بهمرور زمان و با جمعآوری دادههای بیشتر میتواند در تشخیص اخبار جعلی دقیقتر عمل کند. الگوریتمها میتوانند با شناسایی الگوهای جدید در اخبار جعلی و بهروز رسانی مداوم دانش خود، با جدیدترین روشهای فریبکاری سازگار شوند. از سوی دیگر، استفاده از هوش مصنوعی برای تشخیص اخبار نادرست، نیاز به بررسی دستی تکتک اخبار توسط انسان را کاهش میدهد. این امر به کارشناسان و خبرنگاران اجازه میدهد تا زمان و تمرکز خود را صرف بررسی عمیقتر اخبار مشکوک و تأیید صحت اخبار موثق کنند.
در مورد ضرورت انجام تحقیق حاضر، همین نکته کفایت دارد که انتشار اخبار جعلی بهخصوص در شرایط بحرانی میتوانند باعث ایجاد ترس و وحشت در میان مردم شوند و همچنین در مورد دولت، رسانهها و سایر نهادها میتواند اعتماد مردم به آنها را از بین ببرد. اخبار جعلی میتوانند برای تحریک تنش و درگیری بین گروههای مختلف جامعه استفاده شوند و همچنین در مواردی افراد ممکن است بر اساس اخبار نادرست تصمیماتی اشتباه در زندگی شخصی، شغلی یا حتی سیاسی خود بگیرند.
2-2. پیشینهشناسی تحقیق
اخگری و ممتازی در تحقیقی مشترک با عنوان «کاربرد هوش مصنوعی در راستیآزمایی اخبار: تشخیص اخبار جعلی با استفاده از متن خبر و اطلاعات منابع منتشرکننده خبر» (1402) با استفاده از مجموعه داده[6] «تات» که برای زبان فارسی مناسب بوده و شامل 1081 خبر جعلی و 1081 خبر با برچسب غیرجعلی در حوزههای مختلف خبری از 38 کانال تلگرامی است، نشان دادند استفاده از شبکه عصبی پیچشی، شناسایی اخبار فارسی منتشرشده در تلگرام و استفاده از متن خبرهای منتشرشده به همراه شناسه کانال ارسالکننده خبر بهعنوان ورودی شبکه توانسته است به صحت 90.46 درصد در تشخیص اخبار جعلی دست یابد.
ابراهیمی و همکاران در تحقیقی با عنوان «بررسی تطبیقی سیاست کیفری انتشار اطلاعات نادرست در رسانههای مجازی» (1401) نشان دادند طی سالهای اخیر، بسیاری از کشورها با وضع مقررات کیفری در قبال انتشار اطلاعات نادرست در شبکههای اجتماعی و رسانههای مجازی، سیاست کیفری واحدی را دنبال میکنند.
هاشمی و همکاران در تحقیق مشترکی با عنوان «پیشرفت تشخیص اخبار جعلی: یادگیری عمیق ترکیبی با FastText و هوش مصنوعی قابل توضیح» (2024) به این نتیجه رسیدند که یک مدل ترکیبی که CNN را با لایههای LSTM ترکیب میکند و با تعبیههای FastText تقویت شده است، در طبقهبندی دقیق مقالات خبری از مدلهای دیگر بهتر عمل میکند. علاوهبر این، استفاده از مدلهای مبتنی بر ترانسفورماتور، قابلیتهای این معماریها را در رمزگشایی ساختارهای نحوی پیچیده برای درک معنایی پیشرفته روشن کرده است. استفاده از هوش مصنوعی قابل توضیح از طریق LIME و LDA نه تنها شفافیت فرآیند تشخیص را توجیه کرده است، بلکه بینش تفسیری ارزشمندی را نیز ارائه کرده است.
«پاتیل»[7] و همکارانش در پژوهش «رویکردی جدید برای تشخیص اخبار جعلی با استفاده از هوش مصنوعی» (2024) نشان دادند سکوی طراحی شده توسط هوش مصنوعی مولد برای تشخیص اخبار نادرست که از LamaIndex بهعنوان یک منبع قابل اعتماد استفاده میکند؛ با ادغام تحلیلهای بیدرنگ توییتر، حضور رسانههای اجتماعی و ابردادههای مرتبط نیز به کاربران اطلاعات روشنتری در مورد محبوبیت و نفوذ محتوای خبری میدهد و با تجزیهوتحلیل احساسات، تجزیهوتحلیل متن، شناسایی تبلیغات، تشخیص سخنان مشوق عداوت و تنفر، و نظارت بر فعالیت رباتها نیز در تجزیهوتحلیل مقالات و شناسایی منابع جعلی بهخوبی عمل میکند.
«هو»[8] و همکارانش در تحقیقی با عنوان «بازیگر بد، مشاور خوب: بررسی نقش مدلهای زبان بزرگ در تشخیص اخبار جعلی» (2024) نشان دادند مدلهای زبانی بزرگ[9] فعلی ممکن است جایگزین مدلهای زبانی کوچک[10] تنظیمشده دقیق در تشخیص اخبار جعلی نشوند، اما میتوانند با ارائه دلایل آموزنده چند منظری، مشاور خوبی برای SLMها باشند.
ترویکا[11] و همکاران در مقاله «معماری گروهی شبکه عصبی عمیق برای تشخیص اخبار جعلی از محتوای اجتماعی و متنی» (2024) اشاره کردند معماری شبکههای عصبی عمیق برای تشخیص اخبار جعلی مبتنی بر متن اجتماعی و متن مشتمل بر یک شاخه متن برای زمینه مبتنی بر محتوای متنی و یک شاخه اجتماعی برای زمینه اجتماعی که این دو شاخه برای ایجاد یک جاسازی شبکه جدید[12] استفاده میشود، نتایج خوبی را در مجموعه دادههای آموزشی کوچک بهدست میآورد و از مدلهای پیشرفته فعلی بهتر عمل میکند.
2-3. مبانی نظری و مفهومشناسی
2-3-1. اخبار جعلی
بر اساس تعریف لیزر[13] و همکاران (2018)، اخبار جعلی به عنوان اطلاعات نادرست یا گمراهکننده تعریف میشوند که نوعی از تقلید از اخبار واقعی را به نمایش میگذارند (سوئتنکو وآنجلوپولوس[14]، 2024: 460).
2-3-2. متنکاوی
در یادگیری ماشین، نمایش دادهها تا حد زیادی بر صحت نتایج تأثیر میگذارد. بهطور خاص، مسائل تجزیهوتحلیل متن باید به نمایشی تبدیل شوند که برای روش مورد استفاده مناسب باشد. دادههای مبتنی بر متن که توسط کاربران در رسانههای اجتماعی به اشتراک گذاشته میشوند، عموماً به شکلهای بدون ساختار هستند. بههمین دلیل، دادههای بدون ساختار استخراجشده از رسانههای اجتماعی باید با روشهای متنکاوی به شکل ساختاریافته تبدیل شوند. مشکل متنکاوی را میتوان بهعنوان استخراج اطلاعات معنیدار، مفید و ناشناخته قبلی از دادههای متنی تعریف کرد (پیچیان و همکاران[15]، 2023: 7). روش متنکاوی با پیشپردازش دادهها آغاز میشود که شامل سه مرحله است (مککار و همکاران[16]، 2023: 1).
2-3-2-1. پیشپردازش دادهها و بنواژهسازی متن
در هر زبانی، کلمات با توجه به نقشی که در جملات ایفا میکنند، به شکلهای ظاهری متفاوتی خواهند بود. اما با توجه به اینکه تمامی آنها از یک ریشه (بُن) ساخته میشوند، از نظر معنا و مفهوم در گامهای بعدی تشخیصی به ما کمک شایانی خواهند نمود. از همینرو، در بسیاری از روشهای مبتنی بر پردازش زبانهای طبیعی (NLP)، ابتدا میبایست ریشه کلمات را پیدا کنیم. برای استخراج ریشه کلمات معمولاً از دو روش ریشهیابی[17] و بُنواژهسازی[18] در روش پردازش زبانهای طبیعی(NLP) برای استخراج ریشه کلمات (کلمات مشتق شده از کلمات دیگر) استفاده میشوند.
بُنواژهسازی در رویکردی که برای تولید اشکال ریشه کلمات استفاده میشود، متفاوت از ریشهیابی است. تفاوت بین این دو رویکرد این است که بنواژهسازی، ریشه واقعی کلمات زبان متن را تولید میکند در حالیکه ریشهیابی که به فرایند حذف پسوند کلمات گفته میشود؛ ممکن است ریشه واقعی کلمات را تولید نکند. بنابراین، در تحقیق حاضر از رویکرد بنواژهسازی استفاده شد، زیرا کلمات عطف شده را بهدرستی کاهش میدهد و اطمینان حاصل میکند که بنواژه، ریشه کلمه و متعلق به زبان است. نمونهای از بنواژهسازی در شکل (1) نشان داده شده است (چای[19]، 2023: 19).
شکل شماره 1. بنواژهسازی از کلمات خارج شده از متن
2-3-2-2. حذف کلمات توقف
«حذف کلمات توقف»[20] باید قبل از آموزش طبقهبندیکنندههای مبتنی بر یادگیری ماشین از متن انجام شوند؛ زیرا کلمات توقف معنای بسیار کمی دارند و اغلب برای تکمیل ساختار جمله و اتصال عبارات استفاده میشوند. حروف ربط، ضمایر و حروف اضافه نیز کلمات توقف هستند. برای حذف کلمات توقف از متن خبر، هر جمله در متن نشانهگذاری شده و به کلمات/نشانهها تقسیم میشود. الگوریتم در تمام نشانهها تکرار میشود و بررسی میکند: آیا کلمه در لیست کلمات توقف وجود دارد یا خیر؟، بنابراین کلمه حذف میشود. بنابراین، تمام کلماتی مانند «به»، «او»، «است»، «an» و «the» از متن حذف میشوند. حدود 400 تا 500 کلمه توقف در زبان انگلیسی وجود دارد. برخی از کلمات توقف عبارتند از:a, an, about, by, but, that, does, on, above, when, where, what, all, am, any, against, و... . نمونهای از حذف کلمات توقف در شکل (2) نشان داده شده است (مککار و همکاران، 2023: 4).
شکل شماره 2. حذف کلمات توقف
2-3-2-3. واحدسازی (استخراج ویژگی)
فرآیند «واحدسازی»[21] نیز متن دادهشده را به قسمتهای کوچکتری تقسیم میکند که به آنها «واحدهای کلمات»[22] میگویند و تمام علائم نگارشی را از دادههای متنی حذف میکند (مککار، 2023: 7). فیلتر اعداد برای حذف عباراتی که حاوی اعداد هستند، اعمال شده است. مبدل حروف برای تبدیل دادههای متنی به حروف کوچک یا بزرگ استفاده شده است. در این مقاله، تمامی عبارتها به حروف کوچک تبدیل شدهاند. در نهایت در این مرحله از فیلتر N-chars برای حذف کلماتی که کمتر از N کاراکتر تشکیل شدهاند، استفاده شده است (مهسواری و سودها[23]، 2024: 4).
بزرگترین مشکل در متنکاوی، کلاندادهها هستند. بنابراین، حذف ویژگیهای غیرمرتبط و اضافی برای بهبود دقت مدل ضروری است. در مراحل پیشپردازش دادهها، ویژگیها از کلاندادههای بدون ساختار استخراج میشوند (داس و آلفونس[24]، 2023: 3).
ورودی بسیاری از روشهای یادگیری، رقم و اعداد هستند و باید با روشهایی اسناد متنی (متنهای خبری) به صورت عدد درآیند که به آن «استخراج ویژگی»[25] گفته میشود. یکی از روشهای استخراج ویژگی، ایجاد «ماتریس اصطلاح-سند»[26] است. در این ماتریس (نک: شکل شماره 3) تکرار هر اصطلاح در هر سند شمارش میشود. در استخراج ویژگی که با استفاده از مدل «فضای برداری»[27] (VSM) شباهت بین اسناد را بر اساس بازنمایی برداری آنها مقایسه و اندازه گیری میگردد. هر سند بهعنوان یک بردار نشان داده میشود، که در آن هر بعد مربوط به یک اصطلاح منحصر به فرد در مجموعه اسناد است. مقدار هر بعد نشاندهنده اهمیت یا فراوانی عبارت مربوطه در سند است.
شکل 3. ماتریس اصطلاح-سند مبتنی بر تکرار اصطلاح
برای وزندهی و شمارش ویژگیهای مختلف از روشهای مختلفی میتوان استفاده کرد: روشهای همچون (TF-IDF) یا تکرار کلمه-برعکس تکرار سند[28]، برعکس تکرار سند[29] (IDF)، تکرار کلمه[30] (TF) یا نمایش باینری[31] برای محاسبه این وزنها توسعه داده شده است (داس و آلفونس، 2023: 5).
دو روش «TF» و «TF-IDF» شناختهشدهترین این روشها هستند. بردار TF-IDF برداری است که از روی کلمات میتواند ویژگیهای مختلف را برای یک متن بسازد (در واقع متن را تبدیل به اعداد قابل فهم برای الگوریتم کند). در این مطالعه از TF برای محاسبه وزن هر کلمه در هر سند استفاده شده است. TF تعداد دفعاتی که یک کلمه در یک سند مشاهده میشود را نشان میدهد. TF با استفاده از معادله زیر محاسبه میشود.
(1)
di مجموع تمام اصطلاحات سند i است. nij تعداد کلمه j ام در سند i است.
پس از محاسبه مقدار TF برای هر کلمه در سند، ماتریس اصطلاح-سند (DTM) با توجه به وزن کلمات ایجاد میشود. DTM مانند شکل (4) تعریف شده است و یک ماتریس m x n است. در ماتریس، هر ردیف نشاندهنده اسناد؛ ستونها نشاندهنده عبارتها؛ و سلولها نشاندهنده اعداد واقعی هستند که وزن عبارات را در سند نشان میدهند (المراشی[32] و همکاران، 2023: 5).
شکل شماره 4. ماتریس اصطلاح-سند مبتنی بر وزن اصطلاح در سند
2-3-3. الگوریتمهای طبقهبندی
الگوریتمهای مختلف برای تشخیص اخبار جعلی مورد بررسی قرار گرفت. ویژگیهای استخراج شده به پنج طبقهبندیکننده مختلف وارد شدند. در این پژوهش از الگوریتمهای Random Forest، Support Vector Machine، Naïve Bayes،Logistic Regression و Gradient Boosting برای ساخت طبقهبندیکنندهها و بررسی استفاده از الگوریتمهای یادگیری ماشین استفاده گردید.
2-3-3-1. جنگلهای تصادفی
«جنگل تصادفی»[33] یک الگوریتم بسیار مؤثر از نظر پیشبینی در زمینه یادگیری ماشینی تحت نظارت، یادگیری عمیق و هوش مصنوعی است. یک جنگل تصادفی بر اساس اصل «کیسهگذاری»[34] کار میکند که اولین گام در آن، تقسیم یک مجموعه داده به زیرمجموعهها برای تولید مجموعهای از درختهای تصمیمگیری[35] است؛ پس از آموزش درختان، نتایج تولید شده برای بهدست آوردن قویترین پیشبینی ترکیب میشوند. روش کیسهگذاری استفاده از چندین نمونه داده بهجای یک نمونه است و خروجیهای تولید شده توسط درختان تصمیم رتبهبندی میشوند و بالاترین مقدار به عنوان خروجی نهایی انتخاب میشود (دودِجا و همکاران[36]، 2023: 2). دو روش برای تعیین نتیجه نهایی وجود دارد.
«رگرسیون جنگل تصادفی»[37] شامل محاسبه میانگین پیشبینیهای بهدستآمده با در نظر گرفتن تمام پیشبینیهای حاصل از درختهای تصمیم است. طبقهبندی جنگل تصادفی نیز براساس روش بستهبندی است، اما تخمین نهایی با انتخاب متداولترین دسته پاسخ به جای استفاده از همه نتایج بهدستآمده انجام میشود (گونیمات و همکاران[38]، 2023: 6).
درختهای تصمیم ایجاد شده توسط طبقهبندیکننده جنگل تصادفی[39] با استفاده از ناخالصی جینی[40] مورد استفاده برای شکافتن شاخهها و انتخاب گرههایی که عدم قطعیت در درختهای تصمیم را کاهش میدهند، آموزش داده میشوند. بنابراین بهترین تقسیم با بهحداقل رساندن ناخالصی جینی هنگام تقسیم هر گره انتخاب میشود. ناخالصی جینی یک گره نشاندهنده این احتمال است که یک نمونه بر اساس توزیع نمونهها در یک گره بهطور تصادفی انتخاب شده و به اشتباه برچسبگذاری شده است. ناخالصی جینی یک گره n به عنوان فرمول داده شده تعریف میشود.
(2)
که در آن Pi احتمال متعلق به کلاس i در یک گره معین است. مقدار کم ناخالصی جینی به این معنی است که گرهها خالص هستند و هیچ شانسی وجود ندارد نمونهای که بهطور تصادفی از آن گره انتخاب شده است، به اشتباه طبقهبندی شود (سی و همکاران[41]، 2024: 3).
2-3-3-2. ماشین بردار پشتیبان
«ماشینهای بردار پشتیبان»[42] مجموعهای از روشهای یادگیری تحت نظارت[43] هستند که برای حل مسائل طبقهبندی و رگرسیون طراحی شدهاند و تعمیم طبقهبندیکنندههای خطی هستند. این الگوریتم در دهه 1990 توسط «کورتس و واپنیک»[44] توسعه یافت و با دلایل زیر به سرعت مورد استفاده قرار گرفت:
برخلاف سایر الگوریتمهای یادگیری، این الگوریتم سعی میکند مشابهترین مثالها را بین کلاسها بیاموزد تا مجموعهای از بردارهای پشتیبان بسازد و براساس آن، با کشیدن یک مرز تصمیم بهنام «ابرصفحه»[46]، دادهها را از هم جدا میکند و در نهایت با محاسبه بهترین حاشیه ابرصفحه، ابر صفحه بهینه را که تقسیمکننده کلاسها است را بررسی میکند.
SVM میتواند برای حل مسائل طبقهبندی با تصمیمگیری در مورد اینکه یک نمونه متعلق به کدام کلاس است، یا مسائل رگرسیون با پیشبینی مقدار عددی یک متغیر نیز استفاده شود. حل این دو نوع مسئله شامل ساخت تابع f است که دارای بردار ورودی X و مطابق با خروجی است (گیدو و همکاران[47]، 2023: 3).
(3) Y = f (X)
توابع کرنل[48] توسط الگوریتمهای SVM استفاده میشوند. در این مطالعه نیز از کرنل خطی[49] که معمولاً برای مسائل طبقهبندی متن توصیه میشود، استفاده گردید. تابع کرنل خطی از پارامترهای کمتری استفاده میکند و سریعتر از سایر توابع هسته مانند توابع چند جملهای و شعاعی[50] است. مرز تصمیمی که SVM برمیگرداند توسط تابع کرنل خطی ارائه شده است که در فرمول زیر تعریف میشود.
(4)
که در آن w بردار وزنی است که باید به حداقل برسد، x دادهای است که باید طبقهبندی شود، و b ضریب خطی تخمین زده شده است. از دو پارامتر w و b برای تعریف ابرصفحه استفاده میشود (آزه و همکاران[51]، 2023: 4).
2-3-3-3. بیز ساده
«بیز ساده»[52] یک نوع طبقهبندی بیز احتمالی ساده است که بر اساس قضیه بیز در فرمول زیر ارائه شده است. این یک طبقهبندیکننده ساده بیز را پیادهسازی میکند که متعلق به خانواده طبقهبندی کنندههای خطی با استقلال قوی از مفروضات است. یک طبقهبندیکننده بیزی ساده فرض میکند که وجود یک مشخصه برای یک کلاس مستقل از وجود ویژگیهای دیگر است. حتی اگر این ویژگی ها به هم مرتبط باشند.
(5) P(A|B) = ( P (B|A) P(A)) / P(B)
مزیت طبقهبندیکننده NB این است که به دادههای آموزشی نسبتاً کمی برای تخمین پارامترهای لازم برای طبقهبندی نیاز دارد. الگوریتم ماتریس اصطلاح-سند را برای هر کلاس (جعلی، واقعی) محاسبه میکند. این ماتریس شامل فهرستی از بسامدهای کلمه موجود در مجموعهای از اسناد است. ورودی (m, n) ماتریس سند اصطلاحی از فراوانی کلمه "m" در سند "n" تشکیل شده است. تعداد به مفهوم تعداد دفعاتی که هر واژه/کلمه در تمام اسناد وجود دارد محاسبه میشود. در این پژوهش، از بیز ساده چندجملهای[53] استفاده گردید که معمولاً برای مسئله طبقهبندی متن استفاده میشود و دادهها بهعنوان تعداد بردار کلمات نشان داده میشوند (وزیروگلو و همکاران[54]، 2024: 7).
2-3-3-4. رگرسیون پشتیبان
«رگرسیون پشتیبان»[55] یکی از الگوریتمهای یادگیری تحت نظارت و تجزیهوتحلیل پیشبینیکننده بر اساس مفهوم احتمال است. این الگوریتم عمدتاً برای مسائل طبقهبندی برای تخصیص نمونهها به مجموعهای از کلاسها استفاده میشود و هدف آن، انجام طبقهبندی باینری است. تابع پشتیبان خروجی یک مدل خطی را به فرصتی تبدیل میکند که میتواند برای وظایف طبقهبندی اعمال شود.
تابع پشتیبان که در بسیاری از کاربردهای دیگر مورد استفاده قرار میگیرد، ابزار مؤثری برای درک و پیشبینی دادهها است. خروجی با استفاده از تابع «سیگموئید پشتیبان»[56] به یک «تابع هزینه»[57] تبدیل میشود که مقدار احتمالی را بین 0 و 1 برمیگرداند.
فرضیه رگرسیون پشتیبان بهسمت حداقلکردن تابع هزینه متمایل میشود. بنابراین استفاده از توابع خطی بهعنوان تابع هزینه مناسب نیست؛ زیرا میتواند مقداری بزرگتر از 1 تولید کند که طبق فرضیه رگرسیون پشتیبان قابل قبول نیست. تابع سیگموئید برای ترسیم هر مقدار پیشبینی شده که ممکن است هر مقدار واقعی با x نشان داده شود به احتمال آنکه باید بین 0 و 1 باشد استفاده شده است (زیدی و ال لوهیب[58]، 2023: 1). تابع سیگموئید به صورت زیر تعریف میشود (همان: 2):
(6)
برای کاهش خطا در احتمالات پیشبینیشده توسط مدل و تولید پیشبینیهای دقیق، بهینهسازی تابع هزینه با استفاده از گرادیان کاهشی[59] انجام میگردد (همان: 4). ضرایب بتا[60] برای معادله رگرسیون پشتیبان از دادههای آموزشی با استفاده از تخمین حداکثر احتمال، تخمین زده شد؛ بهطوریکه، مدل قادر خواهد بود مقدار بسیار نزدیک به (1) را برای کلاس اخبار جعلی و مقدار بسیار نزدیک به (0) را برای کلاس اخبار واقعی پیشبینی کند (سولومون و همکاران[61]، 2023: 7).
2-3-3-5. تقویت گرادیان
الگوریتم تقویت گرادیان یکی از قدرتمندترین الگوریتمها در زمینه یادگیری ماشین است. تقویت گرادیان[62] اساساً فرآیند تبدیل مدلهای یادگیری ضعیف به مدلهای یادگیری قوی است. یکی از اجزای کلیدی تقویت گرادیان، «تابع ضرر»[63] است که برای آموزش این مدلها استفاده میشود (امامی و مارتینزمونوز[64] ،2023: 3).
برای یادگیرندگان ضعیف، از درخت تصمیم در تقویت گرادیان استفاده میشود؛ جاییکه خروجیهای آنها برای تصحیح باقیماندهها در پیشبینیها اضافه میشود. در تقویت گرادیان، یادگیرنده ضعیف درخت رگرسیون است و در هر تکرار، مدل با استفاده از گرادیان کاهشی تصادفی برای کاهش خطا آموزش داده میشود؛
یک. اولین یادگیرنده ضعیف (درخت اول) در الگوریتم GB یاد میگیرد تا خطا را در تکرار اول کاهش دهد.
دو. سپس، درخت دوم (یعنی دومین یادگیرنده ضعیف) بهطور مداوم آموزش داده میشود و یاد میگیرد که خطا را در تکرار دوم درخت دوم به حداقل برساند. این فرآیند بهطور مکرر انجام میشود تا زمانیکه خطای مورد قبول بهدست آید (هو و ترن[65]، 2024: 7).
این مقاله از نظر هدف، کاربردی است و از نظر شیوه اجرا، گردآوری و تحلیل دادهها نیز پژوهشی کمی است. مجموعه داده مطالعه حاضر بر اساس دو مجموعه داده منبع باز است که به صورت آنلاین از وبگاه کگل[66] در دسترس هستند.
اولین مجموعه داده شامل 6060 خبر است که 50 درصد خبر جعلی و 50 درصد خبر واقعی است. اخبار مجموعه داده اول با عناوین زیر مشخص میشود (کومار[67]، 2024):
این دادهها و قالب آن در جدول (1) ارائه شده است.
جدول شماره 1. معیارها و زیرمعیارهای تابآوری زنجیره تأمین (طهماسبی و حامی، 1399) |
|||
برچسب |
متن |
عنوان |
شناسه |
Fake |
Daniel Greenfield, a Shillman Journalism Fellow at the Freedom Center, is a New York writer focusing... |
You Can Smell Hillary’s Fear |
8476 |
مجموعه داده دوم شامل 21724 مقاله خبری و اطلاعاتی درباره آن است. مجموعه داده دوم از 17441 خبر موثق و 5755 خبر غیرموثق تشکیل شده است. هر مقاله خبری با موارد زیر توصیف میشود (گولوین[68]، 2024):
شاخصهای فوق در جدول (2) نشان داده شده است.
جدول شماره 2. اخبار مجموعه داده دوم |
||||
برچسب |
تعداد بازنشر |
نام دامنه |
آدرس اینترنتی |
عنوان |
Fake |
42 |
toofab.com |
http://toofab.com/2017/05/08/real-housewives-atlanta-kandi-burruss-rape-phaedra-parks-porsha-william... |
Kandi Burruss Explodes Over Rape Accusation on Real Housewives of Atlanta' Reunion |
دو مجموعه داده مورد استفاده برای جلوگیری از ایجاد هرگونه اختلاف در فرآیند طبقهبندی، با استفاده از سامانه رپیدماینر[70] ابتدا وارد مرحله پیشپردازش میگردند. فرآیند پاکسازی دادهها برای حذف نویزهای درون متن خبر مورد نیاز است. دور انداختن کلیه کلمات و حروف غیرانگلیسی یا بیمعنا در اخبار، جایگزینی کلمات عامیانه با اشکال استاندارد آنها و تبدیل متون به حروف کوچک، برای یکنواختی کار یک گام اساسی برای نگاهداشتن متن قابل استفاده در خبر است. از روشهای پردازش زبان طبیعی (NLP) میتوان برای تحلیل متون خبری و استخراج اطلاعات با کیفیت بالا در متن استفاده کرد. همانگونه که پیشتر ذکر گردید، چندین روش پردازش زبان طبیعی برای مرحله پیشپردازش مجموعههای داده، قبل از آموزش مدلهای یادگیری ماشین به کار گرفته شدند. روشهای مورد استفاده عبارتند از؛ «واحدسازی»، «بُنواژهسازی» و «حذف کلمات توقف» که بخش مهمی در متنکاوی میباشند.
پس از پیشپردازش و آمادهسازی مجموعه داده، آنها به دو قسمت تقسیم گردیدند:
بررسی مدلهای طبقهبندیکننده یادگیری ماشین برای شناسایی اخبار جعلی و طبقهبندی دقیق اخبار به جعلی یا واقعی، و دستیابی به معیارهای مشخص و معتبر در ارزیابی و مقایسه هر یک از مدلها یک گام مهم در مطالعه این پژوهش است. با استفاده از سامانه رپیدماینر، پنج مدل طبقهبندیکننده یادگیری ماشین که همان الگوریتمهای رگرسیون پشتیبان، تقویت گرادیان، جنگل تصادفی، ماشین بردار پشتیبان و بیز ساده بهصورت جداگانه بر روی مجموعه دادههای تست بررسی و برای سنجش قدرت پیشبینی هر یک از مدلهای یادگیری ارزیابی گردید.
معیارهای ارزیابی مختلف برای مقایسه عملکرد الگوریتمهای یادگیری ماشین تحت نظارت برای تشخیص اخبار جعلی استفاده شده است. معیارهای ارزیابی اغلب به ما امکان میدهند اثربخشی الگوریتم را آزمایش کنیم. در مطالعه حاضر، همانطور که در جدول (3) نشان داده شده است، از روش ماتریس درهمریختگی[71] برای ارزیابی عملکرد تشخیص اخبار جعلی استفاده شده است. در این ماتریس، نمونهها به عنوان جعلی یا واقعی طبقهبندی میشوند. هنگام آزمایش طبقهبندیکنندههای باینری (اخبار جعلی، اخبار واقعی)، هر رکورد در یکی از چهار احتمال زیر قرار میگیرد:
جدول شماره 3: ماتریس درهمریختگی برای اخبارجعلی
پیشبینیهای صحیح شامل «مثبت صادق» و «منفی صادق» هستند، در حالیکه مثبت کاذب و منفی کاذب پیشبینیهای نادرستی هستند که توسط طبقهبندیکنندهها انجام میشوند. برای سنجش عملکرد مدلهای یادگیری ماشین در این پژوهش، معیارهای ارزیابی مختلفی به شرح زیر استفاده شد:
«صحت» به عنوان نسبت بین تعداد نمونههای طبقهبندی شده صحیح و تعداد کلی نمونهها تعریف میشود (گویدو و همکاران، 2023: 5).
(7)
مقدار یادآوری نسبت اخبار جعلی را نشان میدهد که بهدرستی در تعداد کل اخبار جعلی پیشبینی شده است.
(8)
معیار دقت، دقت اخبار جعلی را اندازهگیری میکند، که بهدرستی از کل اخبار پیشبینی شده در کلاس جعلی پیشبینی میشود.
(9)
امتیاز F1 یا مقدار میانگین همساز[79]، مقدار یادآوری و مقدار دقت بهدست آمده برای تشخیص اخبار جعلی است که برای ارزیابی دقت مدل و نرخهای یادآوری بهطور جمعی استفاده شده تا درک بهتری از رکوردهای طبقهبندی اشتباه ارائه شود.
(10)
امتیاز F1 بالا نشان میدهد که مدلها موارد منفی کاذب و مثبت کاذب پایینی دارند که بهنوبهخود بهمعنای عملکرد خوب است. امتیاز F1 تعادل بین دقت و یادآوری است و بالاترین مقدار آن 1 است که نشاندهنده دقت و یادآوری کامل است (همان: 5).
همانگونه که نتایج تشخیص اخبار جعلی با استفاده از معیارهای چهارگانه ارزیابی (صحت، امتیاز F1 ، یادآوری و دقت) در جدول (4) گزارش شده است، در معیارهای امتیاز F1 و یادآوری، الگوریتم تقویت گرادیان بالاترین امتیازات را به ترتیب 97.7 و 98.7 بهدست آورد. این الگوریتم تعادل بسیار خوبی بین معیارهای دقت و فراخوانی دارد.
جدول شماره 4: نتایج ارزیابی عملکرد مدلهای یادگیری ماشین |
||||
مدل یادگیری ماشین |
% صحت |
% دقت |
% امتیاز F1 |
% یادآوری |
رگرسیون پشتیبان |
96.6 |
97.5 |
97.3 |
96.4 |
تقویت گرادیان |
97.6 |
96.4 |
97.7 |
98.7 |
جنگل تصادفی |
98.3 |
97.9 |
97 |
97.6 |
ماشین بردار پشتیبان |
95.2 |
95.3 |
93.6 |
93.4 |
بیز ساده |
89.3 |
89.3 |
91.4 |
91.3 |
الگوریتم جنگل تصادفی قدرت تشخیص بسیار خوبی در معیارهای صحت و دقت با امتیازات به ترتیب 98.3 و 97.9 دارد.
1-5. جمعبندی
از آنجاییکه تشخیص اخبار بهصورت دستی یک کار پرهزینه است، به تخصص بالا و دانش عمیق در این حوزه نیاز دارد تا بتوان ناهنجاریها را در متن خبر تشخیص داد. پژوهش حاضر، با هدف بررسی کاربرد هوش مصنوعی در تشخیص اخبار جعلی انجام شد. نتایج حاصل از روش تحقیق و تحلیل انجام شده در این پژوهش در قالب مدل مفهومی و به شرح فرآیند پیشنهادی تشخیص اخبار جعلی در شکل (5) ترسیم و ارائه شده است.
شکل شماره 5. فرآیند پیشنهادی تشخیص اخبار جعلی
همانطور که پیشتر ذکر شد، تشخیص نادرست اخبار جعلی از اخبار واقعی، به دلیل تاثیر منفی اخبار جعلی بر کاربران و عموم جامعه منجر به بروز مسائل اخلاقی رفتاری مهمی میگردد. بروز منفی کاذب و مثبت کاذب پیشبینیهای نادرستی هستند که چنین پیامدهای زیانباری را ایجاد خواهند کرد. موارد منفی کاذب بهعنوان طبقهبندی نادرست اطلاعات نادرست که بهعنوان اطلاعات صحیح ظاهر میشوند و اجازه میدهند محتوای مضر از تشخیص فرار کند و در فضای برخط بدون کنترل پخش شود، میتواند باعث ایجاد سردرگمی و بیاعتمادی در میان کاربران شود و بهطور مستقیم بهعنوان سلاح موثر جنگهای ترکیبی[80] بر انتخابات و فرآیندهایی مردمسالارانه تاثیر بگذارد، زیرا افراد برای تصمیمگیری آگاهانه به اطلاعات با کیفیت بالا نیاز دارند.
از سوی دیگر، موارد مثبت کاذب به شناسائی نادرست محتوای صحیح که بهعنوان اطلاعات نادرست معرفی میشوند و در نتیجه، اطلاعات معتبر منتشرشده برخط مانند گزارشهای خبری، بهدلیل طبقهبندی نادرست حذف میگردند. چنین اشتباهاتی میتوانند تهدید جدی برای گفتگوی آزاد باشند و به نقض آزادیهای مدنی و موارد سانسور منجر شوند.
بنابراین استفاده از معیارهای ارزیابی که بر سنجش میزان پیشبینیهای صحیح شامل مثبت صادق و منفی صادق متمرکز بوده و گزارههای صحت، امتیاز F1، یادآوری و دقت را بررسی مینمایند موجب افزایش اطمینان و اعتماد به مدلهای یادگیری ماشین در تشخیص صحیح اخبار جعلی میگردند.
همانگونه که نتایج تشخیص اخبار جعلی با استفاده از معیارهای چهارگانه ارزیابی در جدول (4) ذکر شده است، الگوریتم تقویت گرادیان که در معیارهای امتیاز F1 و یادآوری، بالاترین امتیازات را به ترتیب 97.7 و 98.7 به دست آورد و تعادل بسیار خوبی بین معیارهای دقت و فراخوانی ارائه نمود، از روش تقویت استفاده میکند و درختها را یکی یکی میسازد، بهگونهایکه هر درخت از درختی که قبلاً آموزش داده شده بهره میبرد و خطاهای خود را تصحیح و باعث ایجاد یک یادگیرنده قوی میشود.
الگوریتم جنگل تصادفی که قدرت تشخیص بسیار خوبی در معیارهای صحت و دقت با امتیازات به ترتیب 98.3 و 97.9 ارائه داد از راهبرد کیسهگذاری و از نمونه تصادفی دادهها استفاده میکند و هر درخت را جداگانه آموزش میدهد و نیاز به رایگیری برای تجمیع مدل دارد. به بیان ساده، جنگل تصادفی چندین درخت تصمیم ساخته و آنها را با یکدیگر ادغام میکند تا پیشبینیهای صحیحتر و پایدارتری حاصل شوند.
ترکیب روشهای متنکاوی به این مدل اجازه داد تا قابلیتهای تعمیم و عملکرد طبقهبندیکننده اخبار جعلی را بهبود بخشد. بنابراین، این مدل پتانسیل ایجاد یک محیط غنی از دانش را دارد که میتواند بهطور معناداری با طبقهبندی دقیق اخبار بهحداقل رساندن انتشار اخبار جعلی در سکوهای رسانههای اجتماعی کمک کند.
2-5. پیشنهادات
با عنایت به کاربردیبودن این پژوهش، پیشنهاد میگردد:
منابع
الف- فارسی
ب- انگلیسی
[1]. پژوهشگر حوزه مدیریت راهبردی فضای سایبر (نویسنده مسئول) a.tarrasoli@sndu.ac.ir.
[2]. Yenkikar, A., Sultanpure, K., & Bali, M.
[3]. WhatsApp
[4]. Signal
[5]. Cyberspace
[6]. Dataset
[7]. Patil
[8]. Hu
[9]. large language models (LLMs)
[10]. small language models (SLMs)
[11]. Truică
[12]. Novel Network Embedding
[13]. Lazer & et.al.
[14]. Soetekouw, L., & Angelopoulos, S.
[15]. Pichiyan, V., Muthulingam, S., Sathar, G., Nalajala, S., Ch, A., & Das, M. N.
[16]. Makkar, K., Kumar, P., Poriye, M., & Aggarwal, S.
[17]. Stemming
[18]. Lemmatization
[19]. Chai
[20]. Stop word removal
[21]. Tokenization
[22]. Tokens
[23]. Maheswari & Sudha
[24]. Das & Alphonse
[25]. Feature extraction
[26]. Document-term matrix
[27]. Vector Space Model (VSM)
[28]. Term Frequency-Inverse Document Frequency (TF-IDF)
[29]. Inverse Document Frequency (IDF)
[30]. Term Frequency (TF)
[31]. Binary representation
[32]. Almarashy
[33]. Random Forests (RF)
[34]. Bagging
[35]. Decision Trees
[36]. Dudeja, D., Noonia, A., Lavanya, S., Sharma, V., Kumar, V., Rehan, S., & Ramkumar, R.
[37]. Random forest regression
[38]. Ghunimat, D., Alzoubi, A. E., Alzboon, A., & Hanandeh, S.
[39]. Classification Random Forest
[40]. Gini Impurity
[41]. Xie, X., Yuan, M. J., Bai, X., Gao, W., & Zhou, Z. H.
[42]. Support Vector Machine (SVM)
[43]. Supervised Learning
[44]. Cortes and Vapnik
[45]. Hyperparameters
[46]. Hyperplane
[47]. Guido, R., Groccia, M. C., & Conforti, D.
[48]. Kernel functions
[49]. linear kernel
[50]. polynomial and radial functions
[51]. Azzeh
[52]. Naive Bayes (NB)
[53]. Multinomial Naive Bayes
[54]. Veziroglu, M., Eziroglu, E., & Bucak, I. O.
[55]. Logistic Regression (LR)
[56]. logistic Sigmoid
[57]. Cost Function
[58]. Zaidi, A., & Al Luhayb, A. S. M.
[59]. Gradient Descent
[60]. The Beta coefficients
[61]. Solomon, F. A. M., Sathianesan, G. W., & Ramesh, R.
[62]. Gradient Boosting (GB)
[63]. loss function
[64]. Emami, S., & Martínez-Muñoz, G.
[65]. Ho, L. S., & Tran, V. Q.
[66]. Kaggle
[67]. Kumar, R.
[68]. Golovin
[69]. Retweet
[70]. RapidMiner
[71]. Confusion matrix
[72]. True-Positive
[73]. False-Positives
[74]. True-Negatives
[75]. False-Negatives
[76]. Accuracy
[77]. F1-Score
[78]. The Recall and Rhe Precision
[79]. Harmonic Mean
[80]. Hybrid warfare