קבצי PDF משורשרים: טריק פשוט שמבלבל בין מנועי אנטי-וירוס ומערכות בינה מלאכותית

עַל יְדֵי וין לאם, מנהל תוכנית טכנית בכיר

1 באפריל, 2026 עודכן לאחרונה: 2 באפריל, 2026

שתף את הפוסט הזה

הסכנה החבויה בתוך פורמט קובץ מהימן

קובצי PDF הם מהפורמטים האמינים והנפוצים ביותר בסביבות ארגוניות. הם מועברים מדי יום באמצעות דואר אלקטרוני, פלטפורמות לשיתוף קבצים וכלי שיתוף פעולה. דווקא בשל האמון הזה, הם הפכו לאחד האמצעים הנפוצים ביותר לניצול לרעה בקמפיינים של פישינג, הפצת תוכנות זדוניות ותקיפות הנדסה חברתית.

על פי Check Point Research, 22% מהתקפות הסייבר המבוססות על קבצים משתמשות בקבצי PDF כמנגנון הפצה, ו-68% מכלל התקפות הסייבר מקורן בתיבת הדואר הנכנס. מה שפחות ידוע הוא שקבצי PDF אינם רק מאגרים לתוכן גלוי. מדובר במסמכים מובנים בעלי ארכיטקטורה פנימית מוגדרת, והאופן שבו ארכיטקטורה זו מפורשת משתנה בין תוכנות קריאה, כלי אבטחה ומערכות בינה מלאכותית.

השונות הזו אינה באג. זוהי תכונה מובנית, וגורמי איום מתוחכמים למדו לנצל אותה בדרכים שאינן מצריכות פגיעות, ערכת ניצול או כלים מתקדמים.

הבנת מבנה קובץ PDF

כדי להבין כיצד פועלת מתקפת שרשור, יש להבין תחילה כיצד מפרשי PDF קוראים מסמך.

כאשר תוכנת קריאת PDF פותחת קובץ, היא פועלת לפי רצף פעולות מוגדר: היא מאתרת את סימן סוף הקובץ האחרון, קוראת את מצביע ה-startxref, משתמשת בו כדי לאתר את טבלת ההפניות (xref) ואת החלק הסופי, ואז משחזרת את המסמך על ידי חישוב מיקומם של האובייקטים. תכנון זה מכוון, ומאפשר לתוכנות הקריאה לאתר באופן מיידי אובייקטים במסמכים גדולים מבלי לסרוק את הקובץ כולו.

איור 1 — מבנה מסמך PDF סטנדרטי: כותרת עליונה, גוף הטקסט, טבלת הפניות וכותרת תחתונה

מפרט ה-PDF מגדיר גם מנגנון המכונה "עדכונים מצטברים", המאפשר לשנות מסמכים מבלי לכתוב מחדש את הקובץ כולו. השינויים מתווספים לסוף המסמך, וכל עדכון מוסיף אובייקטים חדשים, טבלת הפניות חיצוניות חדשה, סיומת חדשה וסימן סיום קובץ חדש.

איור 2 — עדכונים מצטברים ב-PDF: כל גרסה מוסיפה את קטע ה-xref, את החלק הסופי ואת סימן ה-EOF שלה

בשל מבנה זה, קובץ PDF תקין עשוי להכיל באופן לגיטימי מספר טבלאות xref, מספר סיומים ומספר סימני סיום קובץ. מרבית המנתחים המודרניים מטפלים במבנה זה כהלכה. אך אותה גמישות מבנית עצמה יוצרת גם הזדמנות משמעותית למניפולציה.

טכניקת הצמדה

במהלך מחקר בתחום האבטחה הפנימית, OPSWAT כי צירוף שני קבצי PDF נפרדים לחלוטין לקובץ אחד יוצר מסמך שמפרשים שונים מפרשים בדרכים שונות בתכלית. מה שהתחיל כסקרנות מבנית חשף טכניקת התחמקות משמעותית וניתנת לשחזור, שנותרה ברובה בלתי נחקרת. הקובץ שנוצר מכיל שתי מבני מסמך עצמאיים, שלכל אחד מהם כותרת, טבלת הפניות, סיום וסימן סיום קובץ משלו.

מבחינה רעיונית, הדבר דומה לטכניקות ניצול פרסר שנצפו כבר בקבצי ארכיון, שבהן נעשה שימוש בעמימות מבנית כדי להסתיר תוכן זדוני מפני כלי אבטחה. במקרה של קבצי PDF, ההשלכות מרחיקות לכת עוד יותר: לא רק שסורקי האבטחה אינם תמימי דעים לגבי תוכנו של הקובץ, אלא שהגרסה שהמשתמשים רואים בסופו של דבר בתוכנת הקריאה שלהם עשויה להיות שונה לחלוטין מהגרסה שנבדקה.

מכיוון שתוכנות שונות לקריאת קבצי PDF משתמשות באסטרטגיות ניתוח שונות, אותו קובץ מחובר עשוי להציג תוכן שונה לחלוטין, בהתאם לתוכנה שפותחת אותו.

יישומים שונים, תוכן שונה

נוצר הוכחת היתכנות באמצעות שני קטעים בקובץ PDF: הראשון הורה לצייר מלבן, והשני הורה לצייר עיגול.

תוכנות קריאת PDF נפוצות, כגון Adobe Reader, Foxit Reader, Chrome ו-Microsoft Edge, מאתרות את מצביע ה-startxref האחרון בקובץ, המפנה למבנה המסמך המצורף (השני). הן מציגות את הוראת המעגל.

איור 4 — Adobe Reader מציג את תוכן המסמך השני (המצורף)

Microsoft Word ו-Teams Preview מיישמים אסטרטגיית ניתוח שונה ומפרשים את מבנה המסמך הראשוני. הם מציגים את ההוראה המלבנית, שהמשתמש אינו יכול לראות ב-Adobe Reader.

איור 5 — תצוגה מקדימה ב-Microsoft Word וב-Teams מציגה את תוכן המסמך הראשון (המוסתר)

השפעה נמדדת על זיהוי תוכנות אנטי-וירוס

ההשלכות הביטחוניות של עמימות מבנית זו אומתו באמצעות בדיקות ישירות שנערכו באמצעות פלטפורמת OPSWAT , המרכזת תוצאות ממספר מנועי אנטי-וירוס.

שלב 1: קובץ PDF מקורי של פישינג

קובץ PDF שהכיל תוכן פישינג וקישורים זדוניים נשלח ל-34 מנועי אנטי-וירוס. שמונה מנועים זיהו נכונה את התוכן הזדוני.

איור 6 — קובץ PDF מקורי של פישינג: 8 מתוך 34 מנועי אנטי-וירוס זיהו תוכן זדוני

שלב 2: קובץ PDF מאוחד עם מסמך נקי המוצמד בתחילתו

קובץ PDF ריק ונקי הוצמד בתחילת קובץ ה-PDF של הדיוג כדי ליצור מסמך משולב. הקובץ המשולב נשלח לאותם 34 מנועים.

איור 7 — קובץ PDF מחובר: שיעור הזיהוי ירד ל-5 מתוך 34 מנועים. שלושה מנועים לא זיהו את הקובץ הודות למניפולציה מבנית.

שיעור הזיהוי ירד ל-5 מתוך 34 מנועים. שלושה מנועי אנטי-וירוס כבר לא זיהו את האיום. ההסבר הסביר ביותר הוא שמנועים אלה עיבדו רק את מבנה המסמך הראשון בקובץ, שהכיל את קובץ ה-PDF הנקי, ולא עברו למבנה השני שבו נמצא התוכן הזדוני.

אולם, מנקודת מבטו של המשתמש, הסיכון נותר ללא שינוי. כאשר הקובץ המורכב נפתח ב-Adobe Reader, דף הדיוג הוצג בדיוק כפי שהתוקף התכוון.

איור 8 — Adobe Reader מציג את דף הדיוג מתוך קובץ ה-PDF המורכב. המשתמש חשוף לאותה סכנה, ללא תלות במנועי האבטחה שבוחנים את הקובץ.

כיצד מערכות בינה מלאכותית מפרשות מסמכים מחוברים

ככל שעיבוד מסמכים מבוסס בינה מלאכותית הופך לחלק בלתי נפרד מתהליכי העבודה בארגונים, אי-בהירות מבנית זו יוצרת סוג סיכון ייחודי, החורג מהפצת תוכנות זדוניות מסורתית. ארגונים מסתמכים יותר ויותר על מודלים לשוניים גדולים לניתוח מסמכים, לחילוץ מידע ולתמיכה בקבלת החלטות. אם מערכות אלה מפרשות גרסה שונה של מסמך מזו שרואה המשתמש האנושי, ההשלכות חורגות בהרבה מהתעלמות מקישור פישינג.

בדיקות שבוצעו עם אותו קובץ PDF מחובר הראו כי פלטפורמות בינה מלאכותית מרכזיות מפרשות את הקובץ בהתאם לאותה לוגיקה התלויה במנתח תחבירי, כפי שנצפתה ביישומי קריאה מסורתיים.

GPT: מפרש את החלק הראשון

GPT זיהה את מבנה המסמך הראשון בקובץ וחילץ את התוכן מהקטע המוסתר המופיע בתחילתו. הוא קרא את הוראת המלבן ופעל לפיה, אך תוכן זה אינו נראה למשתמש הפותח את הקובץ ב-Adobe Reader.

איור 9 — GPT מפרש את מבנה המסמך הראשון (הנסתר) ומוציא תוכן שאינו נראה למשתמשים ב-Adobe Reader

ג'מיני וקלאוד: פרשנות לחלק השני (הגלוי)

גם Gemini וגם Claude פיענחו את מבנה המסמך השני וחילצו את התוכן בהתאם למה שהמשתמשים רואים ב-Adobe Reader. אמנם זו ההתנהגות הצפויה מנקודת מבט של חוויית המשתמש, אך הדבר ממחיש שמערכות בינה מלאכותית נתונות לאותן הבדלים בפיענוח המבני כמו תוכנות קריאה קונבנציונליות.

איור 10 — Gemini מזהה כהלכה את מבנה המסמך השני (הגלוי)

איור 11 — קלוד קורא גם את מבנה המסמך השני (הגלוי), בהתאם למה שהמשתמשים רואים

לפער זה יש השלכות ישירות על מספר תרחישי סיכון בעלי עדיפות גבוהה:

הזרקת פקודות: תוקף משלב הוראות סמויות בחלק הראשון והנסתר של קובץ PDF המורכב ממספר קבצים. המשתמש רואה מסמך רגיל. מערכת בינה מלאכותית המנתחת את המבנה הראשון מקבלת פקודות העוקפות את התנהגותה המיועדת, ללא כל סימן גלוי לעין המשתמש או הבודק.
זיהום נתוני אימון: מסמכים המשמשים לכיול או להרחבה של מודלי בינה מלאכותית עשויים להכיל קטע נסתר המכניס תוכן עוין למאגר האימון מבלי לעורר זיהוי.
כשלים בתחום הציות והביקורת: מערכות בינה מלאכותית המשמשות לבדיקת מסמכים, ניתוח חוזים או דיווח רגולטורי עלולות לעבד גרסה של מסמך השונה באופן מהותי מהגרסה שנבדקה על ידי יועץ משפטי אנושי או צוות ציות, ובכך ליצור פער בלתי נראה בתחום הממשל התאגידי.

עבור יועצים משפטיים ותאגידיים, אחראי פרטיות וצוותי ציות, התרחיש שבו מערכת בינה מלאכותית פועלת על בסיס תוכן שלא נבדק על ידי אדם ואף כלי אבטחה לא סימן אותו, אינו תיאורטי. טכניקת השרשור הופכת זאת למשימה קלה לביצוע.

כיצד OPSWAT מתקפת ה-PDF המורכבת

טכנולוגיית Deep CDR™: ניקוי קבצים המונע את האיום עוד בטרם התממש

טכנולוגייתOPSWAT CDR™ מתייחסת לכל קובץ כאל קובץ שעלול להיות זדוני. במקום לנסות לאתר דפוסים זדוניים ספציפיים, טכנולוגיית Deep CDR™ מפרקת כל קובץ למרכיביו, מאמתת את המבנה הפנימי שלו מול מפרטי הפורמט הרשמיים, מסירה את כל האלמנטים שאינם תואמים או שאינם עומדים במדיניות שהוגדרה, ויוצרת מחדש קובץ נקי וראוי לשימוש. גישה זו מטפלת בהתקפת ה-PDF המורכב מהתחלה, בשורש המבני שלה.

טכנולוגיית Deep CDR™ מונעת טכניקת תקיפה זו באמצעות יכולת אימות מבנה הקובץ שלה. בעת עיבוד קובץ PDF מחובר, טכנולוגיית Deep CDR™ מזהה את החריגה המבנית: נוכחות של מספר מבני מסמכים עצמאיים, מספר טבלאות xref, מספר סיומים ומספר סמני סיום קובץ בתצורה שאינה תואמת למסמך PDF יחיד תקין. לאחר מכן, היא מסירה את האלמנטים הסותרים ומשחזרת את המסמך אך ורק משכבת התוכן המאומתת והבטוחה.

מה טכנולוגיית Deep CDR™ באמת מסירה

צילום המסך הבאMetaDefender את תוצאות הניתוח של טכנולוגיית Deep CDR™ עבור קובץ ה-PDF המשולב ששימש לדיוג. לאחר שהוגדרה ויושמה טכנולוגיית Deep CDR™, זיהתה המערכת כל רכיב שהפר את מבנה הקובץ הצפוי או את מדיניות האבטחה, ונקטה פעולה בהתאם.

איור 12 — תוצאות הניתוח של טכנולוגיית Deep CDR™: 2 קישורים הוסרו, תמונה אחת עברה ניקוי, 3 אובייקטים שאינם בשימוש הוסרו מהקובץ ה-PDF המורכב

כפי שניתן לראות, טכנולוגיית Deep CDR™ ביצעה את הפעולות הבאות על קובץ ה-PDF המורכב:

הוסרו 2 קישורים: הקישורים הזדוניים לדפי פישינג שהוטמעו במסמך הוסרו לפני שהקובץ הגיע למשתמש.
תמונה 1 שטוהרה: התמונה המוטמעת, ששימשה כפיתיון חזותי בהודעת הדיוג, טוהרה.
הוסרו 3 אובייקטים שאינם בשימוש: האובייקטים היתומים ממבנה המסמך הראשון המוסתר, שכבר לא השתייכו לשום שכבת מסמך תקפה, זוהו והוסרו.

התוצאה הסופית היא קובץ PDF בעל מבנה נקי, השומר על התוכן הרלוונטי לעסק ועובר את בדיקות תאימות מפרט פורמט הקובץ. חשוב לציין כי מה שהמשתמש מקבל, מה שמנועי האנטי-וירוס סורקים ומה שמעבדת כל מערכת בינה מלאכותית בהמשך התהליך – הכל זהה: מסמך יחיד ומאומת, ללא מבנה נסתר, ללא קישורים זדוניים וללא אובייקטים המנוגדים למדיניות.

מצב חיטוי גמיש

בסביבות שבהן יש לשמור על השימושיות לצד האבטחה, טכנולוגיית Deep CDR™ פועלת במצב "טיהור גמיש". המערכת אינה חוסמת את הקובץ. במקום זאת, היא מבצעת שחזור מבני: חלקי המסמך הסותרים מוסרים, כל האובייקטים הפעילים והעלולים להיות זדוניים מנוקים, וקובץ PDF נקי התואם למדיניות נוצר מחדש ונמסר למשתמש. חוויית המשתמש נשמרת, בעוד שטח החשיפה להתקפות מבוטל.

דוח פרטים על החיטוי

כל קובץ שעובר עיבוד באמצעות טכנולוגיית Deep CDR™ מייצר דוח טיהור פורנזי המתעד אילו אובייקטים זוהו, איזו פעולה ננקטה ומדוע. כפי שמוצג באיור 11, דוח זה מספק תיעוד ביקורת מלא של כל חריגה מבנית והפרת מדיניות שטופלו. עבור אחראי תאימות, אחראי פרטיות ויועצים משפטיים, דוח זה מהווה הוכחה מתועדת לכך שהקבצים שנכנסו לסביבה עובדו בהתאם למדיניות אבטחה עקבית וניתנת לאימות, וכי כל סטייה ממבנה הקובץ הצפוי תועדה וטופלה.

SandboxAdaptive : ניתוח המודע למבנה, שאינו מותיר נקודות מתות

בעוד שטכנולוגיית Deep CDR™ מפחיתה את הסיכון באמצעות ניקוי ובנייה מחדש של המסמך, OPSWAT Adaptive Sandbox Aether) ניגש לבעיה מזווית שונה בתכלית: הוא מבצע ניתוח התנהגותי מעמיק של כל מבנה מסמך אפשרי בתוך הקובץ. בעוד שטכנולוגיית Deep CDR™ מסירה את האיום לפני שהקובץ מגיע למשתמש,Sandbox Adaptive Sandbox את הקובץ בסביבה מבוקרת ומתבונן בדיוק במה שהוא נועד לעשות.

במקרה של קבצי PDF מחוברים, Adaptive Sandbox מסתמך על פרשנות של מפרש יחיד. במקום זאת, הוא מבצע ניתוח המודע למבנה כדי לזהות שהקובץ מכיל למעשה מספר מסמכי PDF תקפים שצורפו יחד. הדבר מונע באופן ישיר מתוקפים להסתיר תוכן זדוני מאחורי חוסר עקביות במפרש. הניתוח מתבצע בשלושה שלבים:

1.חילוץ: כל מסמך PDF משובץ מחולץ בנפרד מהמבנה המורכב. אף שכבת מסמך אינה נחשבת כקובעת. כל קטע המופיע בזרם הבינארי מזוהה ומופרד לצורך בדיקה עצמאית.

2.ניתוח: כל מסמך שחולץ מנותח באופן עצמאי בסביבה מדומה ומבוקרת.Sandbox Adaptive Sandbox את התוכן, עוקב אחר התנהגותו בזמן ריצה, ומזהה כל פעילות זדונית, לרבות קריאות חוזרות לרשת, הרצת סקריפטים, הטמנת מטענים זדוניים וניסיונות לנצל את יישום התצוגה, ללא תלות בשכבת המסמך שממנה נובעת ההתנהגות.

קורלציה: תוצאות כל ניתוח עצמאי מקושרות חזרה לקובץ המקורי, וכך מתקבל ממצא מאוחד המשקף את הכוונה ההתנהגותית האמיתית של המסמך המלא המורכב. אינדיקטורים לפריצה (IoC) המופקים מכל שכבה מאוחדים לדוח פורנזי יחיד, התומך במודיעין איומים, בתגובה לאירועים ובתהליכי העבודה של מרכז הבקרה (SOC).

איור 13 — ניתוח מעמיק של קובץ PDF מחובר באמצעות Adaptive Sandbox

התוצאה היא תמונה אנליטית מלאה, ללא נקודות מתות. כל מסמך משובץ נבחן. כל שרשרת אובייקטים נבדקת. אין מקום לתכסיסים של מפרש. תוקף אינו יכול להסתמך על כך שיישום אחד יראה שכבה "נקייה" בעוד ששכבה זדונית תישאר בלתי נבדקת, שכן Adaptive Sandbox מבחין בין השתיים. הוא בודק הכל.

זיהוי רב-שכבתי להגנה מקיפה

טכנולוגיית Deep CDR™ Adaptive Sandbox איום ה-PDF המורכב משני כיוונים מנוגדים, ויחד הן לא מותירות כל נתיב תקיפה אפשרי. טכנולוגיית Deep CDR™ מסירה את האיום לפני שהקובץ מועבר: המשתמש מקבל מסמך נקי מבחינה מבנית, ללא חלקים נסתרים, ללא קישורים זדוניים וללא אובייקטים החורגים מהמדיניות. Adaptive Sandbox את כוונת האיום לפני או במקביל להעברה: כל שכבת מסמך מבוצעת, כל התנהגות נצפית וכל אינדיקטור לפריצה (ICO) מופק ונרשם.

עבור ארגונים הפועלים בסביבות בסיכון גבוה, שילוב זה הוא בעל עוצמה רבה במיוחד. טכנולוגיית Deep CDR™ מבטיחה כי מסמכים המגיעים למשתמשים לא יוכלו להפעיל לוגיקה נסתרת.Sandbox Adaptive Sandbox כי הכוונה ההתנהגותית של כל מסמך, כולל כל שכבה בקובץ מורכב, תובן כהלכה. אף אחת מהטכנולוגיות אינה דורשת ידע מוקדם על טכניקת התקיפה הספציפית כדי להיות יעילה. שתיהן פועלות על בסיס מבנה הקובץ והתנהגות תוכנו, ולא על בסיס חתימות ידועות או עדכוני מודיעין איומים.

מחשבות סיכום

טכניקת התקיפה באמצעות קבצי PDF מחוברים מדגימה סוג של איום שאמצעי האבטחה המבוססים על זיהוי לא תוכננו להתמודד עמו. אין כאן חתימת תוכנה זדונית שניתן לאתר. אין כאן פרצת אבטחה שניתן לזהות. יש כאן רק סידור מבני של פורמט קובץ לגיטימי, הגורם למערכות שונות לראות דברים שונים.

עבור מנהלי ומנהלי מערכות מידע, ההשלכה התפעולית ברורה: ייתכן שכלי הסריקה הפועלים כיום בוחנים גרסה שונה של המסמך מזו שהמשתמשים פותחים.

עבור מנהלי ציות וסיכונים, המשמעות היא פער בממשל התאגידי: ייתכן שרשומת הביקורת בנושא אבטחת הקבצים אינה משקפת את התוכן שהועבר בפועל.

עבור מנהלים בכירים, החשיפה הפיננסית היא משמעותית: העלות הממוצעת של תקרית פישינג מוצלחת עולה כיום על 4.88 מיליון דולר, והתקפות שמצליחות לעקוף את אמצעי הבקרה הסטנדרטיים נחשבות ליקרות ביותר לתיקון.

עבור יועצים משפטיים ותאגידיים ומנהלי אבטחת מידע, מערכות בינה מלאכותית הפועלות על בסיס תוכן מסמכים נסתר, ללא בדיקה אנושית או נראות אבטחתית, מהוות סיכון מתהווה ומשמעותי.

טכנולוגיית OPSWAT CDR™ Adaptive Sandbox פער זה משני הכיוונים. טכנולוגיית Deep CDR™ מבטלת את התנאים המבניים המאפשרים לאיומים מסוג זה להתקיים, באמצעות אימות מבנה הקובץ, הסרת כל הקטעים הנסתרים והסותרים במסמך, ויצירת פלט נקי ומאומת מחדש; כך היא מבטיחה שכל קובץ הנכנס לסביבה מכיל בדיוק את התוכן שנבדק. Adaptive Sandbox ששום דבר לא יישאר ללא בדיקה: על ידי ביצוע ניתוח המודע למבנה בכל שכבת מסמך מוטמעת, ביצוע כל אחת מהן באופן עצמאי, וקישור התוצאות לקובץ המקורי, היא חושפת את כוונת ההתנהגות של איומים שאף טריק של מפרש לא יכול להסתיר. יחד, טכנולוגיות אלה מבטיחות שהמשתמשים מקבלים תוכן בטוח, ושכוונת התוקפים בעיצוב הקובץ מובנת במלואה.