成人免费黄色视频,欧美偷窥清纯综合图区

<ul id="aigeu"></ul>

<strike id="aigeu"></strike>

當(dāng)前位置： OFweek 人工智能網(wǎng) > 其他 > 正文

OpenAI提出Image GPT實現(xiàn)高質(zhì)量圖像補(bǔ)全和樣本生成

2020-07-17 10:13

將門創(chuàng)投

關(guān)注

實現(xiàn)方法

研究人員分別在ImageNet上訓(xùn)練了大中小三個GPT－transformer模型，分別包含了1．4B，455M，76M的參數(shù)。同時還利用ImageNet和網(wǎng)絡(luò)數(shù)據(jù)共同訓(xùn)練了包含6．8B參數(shù)的iGPT－XL，由于長序列訓(xùn)練需要消耗非常大的計算資源，所有的訓(xùn)練都在較低的圖像分辨率上進(jìn)行（32x32，48x48，64x64）。

雖然研究人員嘗試在更低的分辨率上繼續(xù)減小計算資源的消耗，但先前研究認(rèn)為人眼的識別分類能力會隨圖像尺寸的減小而迅速變?nèi)�。在先前顯示模型研究的啟發(fā)下，構(gòu)建了9－bits的顏色表示模式，可以用較為真實的編碼顏色同時代替RGB三個通道。

實驗結(jié)果

研究人員使用了兩種方法來評測模型的分類性能。第一種類似一個線性探測器，利用訓(xùn)練好的模型從圖像中抽取特征進(jìn)行分類，隨后用邏輯回歸擬合圖像的標(biāo)簽。另一種方式是在下游任務(wù)數(shù)據(jù)上對整個模型進(jìn)行調(diào)優(yōu)。為了抽取特征，在某些層的輸入添加了layernorm注意力模塊，并在序列維度上使用了平均池化。為了調(diào)優(yōu)模型，研究人員使用了layernorm transformer的輸出，并在序列維度上進(jìn)行平均池化來作為分類部分的輸入。

由于針對序列中下一個像素的預(yù)測與圖像分類并沒有明顯的關(guān)系，最后層的特征對于目標(biāo)分類并不是最好的。從結(jié)果中可以看出一開始特征質(zhì)量在迅速提升，而后隨著深度的增加緩慢減小。這一現(xiàn)象表明transformer生成模型在運行中有兩個顯著的階段，在第一階段每個位置從它周圍的上下文中獲取信息以構(gòu)建出有效的的圖像特征；而后在第二階段上下文特征被用于解決下一個像素的條件生成問題。在這種線性探測器下觀測到的兩階段現(xiàn)象很容易讓人聯(lián)想到具有約束結(jié)構(gòu)（bottleneck）的自編碼器，其中間層就是手動設(shè)置用于特征抽取的結(jié)構(gòu)。

特征質(zhì)量與層深度具有明顯的相關(guān)性，與監(jiān)督模型不同，生成模型特征質(zhì)量最高的位置來自于模型網(wǎng)絡(luò)的中間部分。

隨后的實驗結(jié)果還顯示了生成模型性能和特征質(zhì)量之間的關(guān)系，研究發(fā)現(xiàn)隨著模型規(guī)模的訓(xùn)練迭代的增加，生成模型的性能也會逐步增加，并直接反映在更好的特征質(zhì)量（分類精度）上。

圖中每條線都代表了不同的生成預(yù)訓(xùn)練模型在不同迭代下的結(jié)果。正的斜率表明生成模型的特征質(zhì)量隨著訓(xùn)練次數(shù)的增加而不斷提高，更大的模型也顯示出了更好的結(jié)果。

當(dāng)研究人員在CIFAR－10， CIFAR－100， STL－10數(shù)據(jù)集上測評模型性能時，可以看到提出的方法超過了所有的監(jiān)督和非監(jiān)督遷移算法，同時也超過了完全調(diào)優(yōu)情況下的結(jié)果。

線性探測器和調(diào)優(yōu)方法的精度比較，這些方法使用了監(jiān)督或非監(jiān)督的ImageNet遷移。結(jié)果中也包含了CIFAR上最好的端到端模型AutoAugment方法。

在不同的設(shè)置下，與不同的監(jiān)督、非監(jiān)督方法進(jìn)行了比較。訓(xùn)練的圖像分辨率為48x48，iGPT－L的特征維度為1536，實現(xiàn)了65．2％的top－1精度，已經(jīng)超越了AlexNet的性能。

典型的特征維度一般都是8192維度，但訓(xùn)練如此龐大特征的iGPT模型非常耗時，所以研究人員將最后基層的特征疊加起來作為8192維的近似。但由于iGPT中的特征在不同層間存在相關(guān)性，所有需要更多的維度才能獲得更具競爭力的效果。最終的設(shè)置使用了來自5層上的15360維的特征，實現(xiàn)了72％的top1精度，超過了AMDIM， MoCo， CPC v2等算法，但和最好的SimCLR還有一定的差距。

<上一頁 1 2 3 4 下一頁> 余下全文