AI hələ də güclü əlyazma rəqəmləri tanımır (və bunu necə düzəltmək olar)

Dərin öyrənmə, özünü idarə edən avtomobildən qlobal iqlimə qədər hər şeyi həll etdiyi üçün yüksək qiymətləndirilmişdir. Yenə də, dərin sinir şəbəkələri (dərin öyrənmənin atı) ən dünyəvi tapşırıqları belə qənaətbəxş şəkildə həll edə bilməz: möhkəm əlyazma rəqəmsal tanınma. Aşağıdakı nümunələri nəzərdən keçirin:

Hər rəqəmin altındakı rəqəm şəbəkənin proqnozunu göstərir. Bu nümunələrin hamısı düzgün təsnif edilmişdir. Bəs problem nədir? Aşağıdakı şəkillərə baxın:

... Kiçik dəyişikliklər şəbəkə qərarlarını tamamilə sıradan çıxara bilər.

Görüntüləri yalnız bir az dəyişdirdik, amma indi sinir şəbəkəsi hamısını səhv sinifləndirir. Bu tip "müxalif" giriş uzun illərdir bilinir. Əsasən obyekt tanıma, semantik görüntü seqmentasiyası, nitq tanıma və spam süzgəcindən hər bir dərin öyrənmə tətbiqini təsir edirlər. Hal hazırda tətbiq olunan demək olar ki, hər bir sinir şəbəkəsi təsirlənir və hücuma məruz qalır (məsələn, Siri və ya Amazon Echo).

Ancaq daha da pisləşir: aşağıdakı şəkillərə baxın:

Bu şəkillər, bir sinir şəbəkəsi tərəfindən yüksək bir qətilik dərəcəsi olan

Əlyazma sayının işarəsini belə tanıya bilirsinizmi? Yox? Sinir şəbəkəsi bunların hamısının sıfır olduğuna inanır. Bu tanınmayan şəkillər deyilənlər, bugünkü sinir şəbəkələrinin daha bir problemini daha da aydınlaşdırır: Girişlər "normal" məlumatlardan (bu halda rəqəm əvəzinə səs-küy) çox uzaq olduqda tamamilə gözlənilməz davranırlar.

Bu möhkəmlik problemi çoxları tərəfindən dərin öyrənmənin qəbul edilməsində ən vacib maneələrdən biri kimi qəbul edilmişdir. Yalnız təhlükəsizlik səbəbindən deyil, həm də bu səhvlərin sinir şəbəkələrinin əslində necə işlədiyini və təsnifat üçün hansı görüntü xüsusiyyətlərindən istifadə etdikləri barədə heç bir fikrimiz olmadığını göstərdiyimizə görədir. Bu problemi həll etməyə çalışan əsərlərin sayı son iki ildə kəskin şəkildə artdı, lakin bu günə qədər heç bir nəticə əldə edilmədi. Əslində yuxarıdakı əlyazma rəqəmləri təsnif etdiyimiz sinir şəbəkəsi hazırda ən güclü model hesab olunur (Madry və s.). Bu həqiqət möhkəm tanıma modellərindən nə qədər uzaq olduğumuzu göstərir - hətta sadə əlyazma rəqəmlər üçün.

Bu yaxınlarda dərc olunan məqaləmizdə şəkilləri möhkəm təsnif etmək üçün yeni bir konsepsiya təqdim edirik. Fikir çox sadədir: bir şəkil yeddi kimi təsnif edilirsə, bir ucunda toxunan təxminən iki sətir - biri daha qısa, biri daha uzun olmalıdır. Bu, insanlar üçün kifayət qədər təbii olan rəqəmlər haqqında düşüncənin generativ bir düşüncə tərzidir və siqnalları (xətləri) çox səs-küy və müdaxilə ilə də asanlıqla müəyyənləşdirməyə imkan verir. Belə bir modellə yuxarıda sadalanan bir-birinə zidd olan nümunələri düzgün sinfə qoymaq asan olmalıdır. Yaratıcı rəqəmli modelin (məsələn, sıfırların) öyrənilməsi olduqca sadədir (dəyişən avtomatik kodlayıcı ilə) və bir sözlə, belə işləyir: Biz pozucu dəyişənlərin gizli yerini düşünürük (məsələn, rəqəmin qalınlığını və ya meylini tuturuq). bilər) və məlumatlardan öyrənilir) və sinir şəbəkəsindən istifadə edərək görüntü yaradır. Daha sonra əlyazma sıfır nümunələrini göstəririk və şəbəkəni oxşar sıfırlar yaratmağa öyrədirik. Təlimin sonunda şəbəkə əlyazma sıfırların təbii dəyişikliklərini bildi:

Sıfırların generative modeli əlyazma rəqəmlərin tipik dəyişikliklərini öyrənir (sağ tərəf).

Hər rəqəm üçün belə bir generativ modeli öyrənirik. Yeni bir giriş alındıqda, hansı rəqəmin yeni girişə ən yaxşı şəkildə yaxınlaşdığını yoxlayırıq. Bu texnikaya ümumiyyətlə sintezlə analiz deyilir, çünki şəklin məzmununu ən yaxşı sintez edən modelə görə təhlil edirik. Digər tərəfdən, standart ötürücü şəbəkələrdə giriş görüntüsünün həqiqətən əldə olunan sinfə bənzədiyini yoxlamaq üçün əks əlaqə mexanizmləri yoxdur:

Feedforward şəbəkələri birbaşa şəkildən sinifə keçir və təsnifatın mənalı olduğunu yoxlaya bilmir. Sintez-analiz modelimiz hansı görüntü xüsusiyyətlərinin mövcud olduğunu yoxlayır və hansı sinifin ən mənalı olduğunu təsnif edir.

Bu, həqiqətən, əsas fərqdir: Feedforward şəbəkələrinin proqnozlarını təsdiqləmək üçün bir yolu yoxdur. Onlara etibar etmək lazımdır. Digər tərəfdən analiz-sintez modelimiz nəticə çıxarmazdan əvvəl müəyyən görüntü xüsusiyyətlərinin girişdə mövcud olub olmadığını yoxlayır.

Bu metodun işləməsi üçün mükəmməl bir generativ modelə ehtiyacımız yoxdur. Əlyazma rəqəmlər modelimiz əlbəttə ki, mükəmməl deyil: qeyri-səlis kənarlara baxın. Yenə də modelimiz əlyazma rəqəmləri yüksək dəqiqliklə (99.0%) təsnif edə bilər və qərarları insanlar üçün çox mənalıdır. Məsələn, model əvvəllər görülən rəqəmlərə bənzəmədiyi üçün həmişə səs-küy şəkillərinə inamın aşağı səviyyəsini göstərir. Səs-küyə ən yaxın olan və analiz-sintez modelinin hələ də yüksək dərəcədə bir qətiliyə sahib rəqəm olaraq təsnif etdiyi görüntülər insanlar üçün çox faydalıdır:

Hələ də yüksək səviyyəli bir sıfır olaraq təsnif edilən tanınmayan şəkilləri analiz-sintez modelimizlə sintez etməyə çalışdıq. Əldə etdiyimiz ən yaxşısı budur.

Madry və s. Tərəfindən hazırkı sənət səviyyəsində. Təmiz rəqəmlərdən minimal müdaxilənin modelin təsnifatını pozmaq üçün tez-tez kifayət etdiyini gördük. Sintez-analiz modelimiz üçün eyni şeyi edirsinizsə, nəticələr təəccüblü şəkildə fərqlənir:

Sintez modeli ilə təhlilin ziddiyyətli nümunələri. Orijinal nömrənin nə olduğunu təsəvvür edirsiniz?

Diqqət yetirin ki, iğtişaşlar insanlar üçün çox məna kəsb edir və şəkli hansı sinifə qoyacağınıza qərar vermək bəzən çətindir. Sağlam bir təsnifat modeli üçün gözlədiyimiz tam budur.

Modelimizin daha bir neçə diqqətəlayiq xüsusiyyəti var. Məsələn, analiz-sintez modelinin qərarlarını şərh etmək daha asandır, çünki modelin müəyyən bir qərara hansı xüsusiyyətləri təsir etdiyini birbaşa görə bilərik. Bundan əlavə, möhkəmliyinin bəzi aşağı hədlərini də çıxara bilərik.

Sintez-analiz modeli hələ insan qavrayışı ilə tam uyğun deyil və hələ çox yol var (əlyazmamızdakı tam təhlilə baxın). Bununla birlikdə, bu nəticələrin son dərəcə ürəkaçan olduğuna inanırıq və ümid edirik ki, işimiz dəqiq, möhkəm və şərh edilə bilən yeni bir təsnifat modeli üçün yol açacaqdır. Hələ də bu yeni modellər haqqında çox şey öyrənməliyik, ən azından mülahizələri daha səmərəli etmək və daha mürəkkəb məlumat dəstlərinə (CIFAR və ya ImageNet kimi) necə genişləndirmək barədə. Bu sualları cavablandırmaq üçün çox çalışırıq və gələcəkdə sizinlə daha çox nəticələr bölüşməyi gözləyirik.

MNIST-də ilk elastik sinir şəbəkəsi modelinə gedərkən

Lukas Schott, Jonas Rauber, Mattias Bethge və Wieland Brendel arXiv: 1805.09190