זיוף קבצים נותר אחת הטכניקות היעילות ביותר שתוקפים משתמשים בהן כדי לעקוף בקרות אבטחה מסורתיות. בשנה שעברה, OPSWAT הציג מנוע זיהוי סוגי קבצים משופר באמצעות בינה מלאכותית כדי לסגור את הפערים שנוצרו על ידי כלים מדור קודם. השנה, עם מודל זיהוי סוגי קבצים גרסה 3, קידמנו את היכולת הזו על ידי התמקדות בסוגי הקבצים שבהם הדיוק חשוב ביותר, ובהם מערכות מסורתיות מבוססות לוגיקה נכשלות באופן עקבי.
OPSWAT מודל זיהוי סוגי קבצים גרסה 3 נועד להתמודד עם אתגר ספציפי של סיווג אמין של קבצים דו-משמעיים ולא מובנים, במיוחד פורמטים מבוססי טקסט כגון סקריפטים, קבצי תצורה וקוד מקור. בניגוד למסווגים כלליים, מודל זה נבנה במיוחד עבור מקרי שימוש בתחום אבטחת הסייבר, שבהם סיווג שגוי של סקריפט מעטפת או אי-זיהוי מסמך המכיל פקודות מאקרו מוטמעות, כגון קובץ Word עם קוד VBA, עלולים להכניס סיכון אבטחה משמעותי.
מדוע זיהוי אמיתי של סוגי קבצים הוא קריטי
רוב מערכות הגילוי מסתמכות על שלוש גישות נפוצות:
- סיומת קובץ: שיטה זו בודקת את שם הקובץ כדי לקבוע את סוגו בהתבסס על הסיומת, כגון .doc או .exe. היא מהירה ותואמת באופן נרחב לפלטפורמות שונות. עם זאת, היא ניתנת למניפולציה בקלות. ניתן לשנות את שמו של קובץ זדוני באמצעות סיומת שנראית בטוחה, וחלק מהמערכות מתעלמות לחלוטין מהסיומות, מה שהופך גישה זו ללא אמינה.
- בתים קסומים: אלו הם רצפים קבועים הנמצאים בתחילת קבצים מובנים רבים, כגון קבצי PDF או תמונות. שיטה זו משפרת את הדיוק בהשוואה לסיומות קבצים על ידי בחינת תוכן הקובץ בפועל. החיסרון הוא שלא לכל סוגי הקבצים יש דפוסי בתים מוגדרים היטב. בתים קסומים יכולים גם להיות מזויפים, ותקנים לא עקביים בכלים שונים עלולים להוביל לבלבול.
- ניתוח התפלגות תווים: שיטה זו מנתחת את התוכן בפועל של קובץ כדי להסיק את סוגו. היא מועילה במיוחד לזיהוי פורמטים מבוססי טקסט בעלי מבנה רופף, כגון סקריפטים או קבצי תצורה. למרות שהיא מספקת תובנות עמוקות יותר, היא מגיעה עם עלויות עיבוד גבוהות יותר ועשויה לייצר תוצאות חיוביות שגויות עם תוכן יוצא דופן. היא גם פחות יעילה עבור קבצים בינאריים חסרי דפוסי תווים קריאים.
שיטות אלו פועלות היטב עבור פורמטים מובנים אך הופכות לבלתי אמינות כאשר הן מיושמות על קבצים לא מובנים או מבוססי טקסט. לדוגמה, סקריפט מעטפת עם פקודות מינימליות יכול להידמות לקובץ טקסט רגיל. לרבים מהקבצים הללו חסרות כותרות חזקות או סמנים עקביים, מה שהופך סיווג המבוסס על דפוסי בתים או סיומות ללא מספיק. תוקפים מנצלים עמימות זו כדי להסוות סקריפטים זדוניים כמסמכים או יומני רישום לא מזיקים.
כלים מדור קודם כמו TrID ו-LibMagic לא תוכננו לרמת ניואנסים זו. למרות שהם יעילים לסיווג קבצים כללי, הם עברו אופטימיזציה לרוחב ומהירות, ולא לזיהוי מיוחד תחת אילוצי אבטחה.
כיצד פועל מודל זיהוי סוגי קבצים גרסה 3
תהליך האימון של מודל זיהוי סוגי הקבצים v3 מורכב משני שלבים. בשלב הראשון, מתבצע אימון מקדים אדפטיבי לתחום באמצעות Masked Language Modeling (MLM), המאפשר למודל ללמוד תחביר ודפוסי מבנה ספציפיים לתחום. בשלב השני, המודל עובר כוונון עדין על גבי מערך נתונים מפוקח שבו כל קובץ מסומן במפורש בסוג הקובץ האמיתי שלו.
מערך הנתונים מורכב משילוב מאורגן של קבצים רגילים ודגימות איומים, המבטיח איזון חזק בין דיוק לעולם האמיתי ורלוונטיות אבטחה. OPSWAT שומר על שליטה על נתוני האימון, ומאפשר חידוד מתמיד עבור פורמטים החשובים ביותר לפעולות אבטחה.
רכיב הבינה המלאכותית מיושם בדיוק, לא באופן רחב. מודל זיהוי סוגי קבצים גרסה 3 מתמקד בסוגי קבצים מעורפלים ולא מובנים ששיטות זיהוי מסורתיות אינן יכולות לטפל בהן ביעילות, כגון סקריפטים, יומני רישום וטקסט מעוצב באופן רופף שבו המבנה אינו עקבי או חסר. זמן ההסקה הממוצע נשאר מתחת ל-50 מילישניות, מה שהופך אותו ליעיל עבור זרימות עבודה בזמן אמת על פני העלאות קבצים מאובטחות, אכיפת נקודות קצה וצנרת אוטומציה.
תוצאות מדד
ערכנו השוואה בין OPSWAT מנוע זיהוי סוגי קבצים מול כלי זיהוי סוגי קבצים מובילים באמצעות מערך נתונים גדול ומגוון. ההשוואה כללה ציוני F1 על פני 248,000 קבצים וכ-100 סוגי קבצים.

ה OPSWAT מנוע זיהוי סוגי קבצים משלב טכניקות מרובות, כולל TrID, LibMagic ו- OPSWAT טכנולוגיות משלה כגון מנתחים מתקדמים ומודל זיהוי סוגי קבצים גרסה 3. גישה משולבת זו מספקת סיווג חזק ואמין יותר הן בפורמטים מובנים והן בפורמטים לא מובנים.
בבדיקות ביצועים, המנוע השיג דיוק כולל גבוה יותר מכל כלי בודד בנפרד. בעוד ש-TrID, LibMagic ו-Magika v3 מציגים ביצועים טובים בתחומים מסוימים, הדיוק שלהם יורד כאשר כותרות קבצים חסרות, או שהתוכן אינו חד משמעי. על ידי שילוב של זיהוי מסורתי עם ניתוח תוכן מעמיק, OPSWAT שומר על ביצועים עקביים גם כאשר המבנה חלש או מטעה במכוון.
קבצי טקסט וסקריפט
פורמטים מבוססי טקסט וסקריפט מעורבים לעיתים קרובות באיומים שמקורם בקבצים ובתנועה רוחבית. ערכנו בדיקה ממוקדת על 169,000 קבצים בפורמטים כגון .sh, .py, .ps1, ו .conf.

TrID ו-LibMagic הראו מגבלות בזיהוי קבצים לא מובנים אלה. ביצועיהם ירדו במהירות כאשר תוכן הקובץ סטה מדפוסי הבייטים הצפויים.
דגם זיהוי סוג קובץ v3 לעומת Magika v3
הערכנו OPSWAT מודל זיהוי סוגי קבצים גרסה 3 מול Magika גרסה 3, מסווג הבינה המלאכותית בקוד פתוח של גוגל, על פני 30 סוגי קבצי טקסט וסקריפט באמצעות אותו מערך נתונים של 500,000 קבצים.

תצפיות מרכזיות:
- מודל זיהוי סוגי קבצים גרסה 3 השתווה או עלה על ביצועי Magika כמעט בכל הפורמטים.
- העליות החזקות ביותר נצפו בפורמטים מוגדרים באופן רופף כגון
.bat, .perl, .html,ו-.xml. - בניגוד ל-Magika, שנועד לזיהוי למטרות כלליות, File Type Detection Model v3 מותאם במיוחד לפורמטים בסיכון גבוה שבהם סיווג שגוי טומן בחובו השלכות אבטחה חמורות.
מקרי שימוש מובילים
Secure העלאות, הורדות והעברות של קבצים
מנע כניסת קבצים מוסווים או זדוניים לסביבה שלך דרך פורטלי אינטרנט, קבצים מצורפים לדוא"ל או מערכות העברת קבצים. זיהוי משופר באמצעות בינה מלאכותית חורג מעבר להרחבות וכותרות MIME כדי לזהות סקריפטים, פקודות מאקרו או קבצי הרצה מוטמעים בתוך קבצים ששמם שונה.
צינורות DevSecOps
עצרו חפצים לא בטוחים לפני שהם מזהמים את סביבות הבנייה או הפריסה של התוכנה שלכם. על ידי אימות סוג הקובץ האמיתי על סמך התוכן בפועל, MetaDefender Core מבטיח שרק פורמטים מאושרים עוברים דרך צינורות CI/CD, מה שמפחית את הסיכון להתקפות בשרשרת האספקה ושומר על תאימות עם נהלי פיתוח מאובטחים.
אכיפת ציות
זיהוי מדויק של סוגי קבצים חיוני לעמידה בדרישות רגולטוריות כמו HIPAA, PCI DSS, GDPR ו-NIST 800-53, הדורשות בקרה קפדנית על שלמות הנתונים ואבטחת המערכת. זיהוי וחסימה של סוגי קבצים מזויפים או לא מורשים מסייעים באכיפת מדיניות המונעת חשיפת נתונים רגישים, שומרת על מוכנות לביקורת ומונעת קנסות יקרים.
מחשבות אחרונות
סיווגי קבצים למטרות כלליות כמו Magika שימושיים לסיווג תוכן רחב. אבל באבטחת סייבר, דיוק חשוב יותר מכיסוי. סקריפט יחיד המסווג בצורה שגויה או מאקרו עם תווית שגויה יכולים להיות ההבדל בין בלימה לפגיעה.
ה OPSWAT מנוע זיהוי סוגי קבצים מספק את הדיוק הזה. על ידי שילוב של ניתוח סוגי קבצים משופר על ידי בינה מלאכותית עם שיטות זיהוי מוכחות, הוא מספק שכבת סיווג אמינה במקומות בהם כלים מסורתיים נכשלים, במיוחד בפורמטים מעורפלים או לא מובנים. לא מדובר בהחלפת הכל; מדובר בחיזוק נקודות התורפה הקריטיות במחסנית האבטחה שלכם באמצעות זיהוי בזמן אמת ותוך מודעות להקשר.
