متابعات-ميكسي نيوز
تسريب 20 مليون عينة برمجيات…أصدرت شركات الأمن السيبراني Sophos و ResversingLabs يوم الاثنين مشتركًا بين مجموعة بيانات أبحاث البرامج الضارة على نطاق الإنتاج على نطاق الإنتاج الذي يمكن إتاحته لعامة الجمهور الذي يهدف إلى بناء دفاعات فعالة ودفع تحسينات على مستوى الصناعة في الكشف عن الأمان والاستجابة له.
“سوريل 20m“(قصيرة ل لذافوسيكررمضادلالقيمة المطلقة – 20 مEllion) ، كما يطلق عليها ، هي مجموعة بيانات تحتوي على بيانات تعريف وملصقات وميزات لـ 20 مليون ملف قابلة للتنفيذ (.PE) من Windows ، بما في ذلك 10 ملايين عينة من البرامج الضارة غير المسلحة ، بهدف وضع أساليب تعلم الآلة للحصول على إمكانات أفضل للكشف عن البرامج الضارة.
“المعرفة المفتوحة والتفاهم حول التهديدات الإلكترونية تؤدي أيضًا إلى مزيد من الأمن السيبراني التنبئي ،” Sophos AI وقالت المجموعة. “سيتمكن المدافعون من توقع ما يفعله المهاجمون ويكونون أفضل استعدادًا لحركتهم التالية.”
مصاحبة الإصدار هي مجموعة من Pytorch و LightgBMالتعلم الآلي القائم على القائمة النماذج التي تم تدريبها مسبقًا على هذه البيانات كما خطوط الأساس.
على عكس المجالات الأخرى مثل اللغة الطبيعية ومعالجة الصور ، والتي استفادت من مجموعات بيانات متاحة للجمهور مثل مثل mnistو ImageNetو CIFAR-10و مراجعات IMDBو المشاعر 140، و Wordnet، أثبت الحصول على مجموعات البيانات الموحدة المخصصة للأمن السيبراني تحديًا بسبب وجود معلومات محددة شخصيًا ، وبيانات البنية التحتية للشبكة الحساسة ، والملكية الفكرية الخاصة ، ناهيك عن خطر توفير البرامج الخبيثة لجهات ثالثة غير معروفة.
بالرغم من ember (AKA endgame malware penchmark للبحث) كان مطلق سراحه في عام 2018 ، بصفته مصنفًا مفتوح المصدر الخبيثة ، فإن حجم العينة الأصغر (1.1 مليون عينة) ووظائفها كمجموعة بيانات واحدة (حميدة/برامج ضارة) تعني “الحد (ed) نطاق التجربة التي يمكن إجراؤها معها”.
تهدف Sorel-20m إلى الالتفاف على هذه المشكلات التي تضم 20 مليون عينة من PE ، والتي تتضمن أيضًا 10 ملايين عينة من البرامج الضارة المنفصلة (لا يمكن تنفيذها) ، بالإضافة إلى الميزات المستخرجة والبيانات الوصفية لعينات حميدة إضافية.
علاوة على ذلك ، فإن النهج يعزز أ نموذج العلامات العميق القائم على التعلم تدرب على توليد أوصاف الدلالية القابلة للتفسير البشري التي تحدد سمات مهمة للعينات المعنية.
يتبع إصدار Sorel-20m مبادرات في الصناعة مماثلة في الأشهر الأخيرة ، بما في ذلك تحالف بقيادة Microsoft ، الذي أصدرت مصفوفة تهديد ML العدائية في أكتوبر لمساعدة محللي الأمن على اكتشاف ورد على هجمات الخصومة والاستجابة لها ضد أنظمة التعلم الآلي.
وقال باحثون في Reversinglabs: “إن فكرة تبادل ذكاء التهديد في الأمن ليست جديدة ولكنها أكثر أهمية من أي وقت مضى بالنظر إلى الابتكار التي أظهرها الممثلون على مدى السنوات القليلة الماضية”.
“لقد أصبح التعلم الآلي و AI أساسيين في هذه الجهود مما يسمح لصيادين التهديدات وفرق SOC بالتجاوز التوقيعات والاستدلال وتصبح أكثر نشاطًا في اكتشاف البرامج الضارة الجديدة أو المستهدفة.”