騰訊科技訊 CVPR 2018 圖像壓縮挑戰賽(CLIC)結果已經出爐,騰訊音視頻實驗室和武漢大學陳震中教授聯合團隊于該項挑戰賽上取得壓縮性能第一。
CVPR是世界頂級的學術會議,自1983年第一次召開至今已經有30多年歷史,在國際學術圈有很強的影響力,每年的CVPR都是計算機視覺領域的盛宴,全世界相關領域的頂尖學者、研究人員和企業都會積極參與。今年,CVPR新增了圖像壓縮workshop和挑戰賽議程,這場挑戰賽由Google、Twitter、Amazon等公司聯合贊助,是第一個由計算機視覺領域的會議發起的圖像壓縮挑戰賽,旨在將神經網絡、深度學習等一些新的方式引入到圖像壓縮領域。
據大會官方介紹,此次挑戰賽分別從PSNR和主觀評價兩個方面去評估參賽團隊的表現。騰訊音視頻實驗室和武漢大學陳震中教授聯合團隊iipTiramisu 在 PSNR(Peak Signal-to-Noise Ratio,峰值信噪比)指標上占據領先優勢,在決賽數據集上比第二名高了0.13 dB,位列第一。在其他指標上,iipTiramisu 也位居前列。
峰值信噪比(PSNR)衡量的是壓縮前后兩張圖逐像素統計所產生的誤差,峰值信噪比越高,代表兩張圖誤差越小,也就意味著壓縮后的圖與原圖越接近、圖片質量損失越小。
iipTiramisu在峰值信噪比上有顯著的優勢,與業界最優秀的開源圖像壓縮算法之一BPG相比:
Fig.1 The Rate-PSNR curve of different encoders. (bit-rate range 0.05-0.35 bpp)
信噪比不變的情況下,在性能優先模式下iipTiramisu比BPG節省30.8%的碼率,速度優先模式下比BPG節省27.9%的碼率;
在碼率都為0.14 bpp的情況下,iipTiramisu的峰值信噪比比BPG高1.58 dB,質量損失率明顯減少。
據陳震中教授介紹,iipTiramisu團隊使用了基于傳統混合框架(hybrid image coder)融入深度學習的編碼模塊CNNMC以及CNN in-loop filter,以及基于不確定性的資源分配策略,最終可以在數據集壓縮性能上比BPG提升30%以上。
iipTiramisu由騰訊音視頻實驗室硅谷研發中心和武漢大學陳震中教授團隊聯合組成。 陳震中教授是武漢大學教授、博導,青年千人,主要從事計算機視覺、圖像視頻處理、人機交互、數據挖掘等方向的研究,近年來發表國際期刊會議論文120多篇,擁有50余項國際國內標準(H.265/HEVC/AVS)提案、10余項國際國內專利申請或授權。騰訊音視頻實驗室和陳震中教授團隊在圖像視頻處理、人工智能等領域展開了深入的合作。
圖像壓縮技術對于互聯網信息傳輸有至關重要的意義。一張未經壓縮的 1200 萬像素的圖片就會占用 36MB 的存儲空間,而目前網絡上每天圖片傳輸、存儲數量數以億萬計,為了節省帶寬資源、存儲資源,減少服務器的壓力,高效的圖像壓縮算法必不可少。
騰訊音視頻實驗室在圖像壓縮領域有很深的積累,去年5月,該實驗室推出了一種基于AVS的自研圖片格式TPG,其壓縮效率也顯著領先于JPG/JPEG、PNG、GIF、WEBP等主流的圖片格式,處于世界領先水平。今年5月,TPG還因為在AVS標準制定和推廣中做出的突出貢獻,獲得了AVS工作組頒發的年度AVS產業技術創新獎。此次獲得CVPR 2018圖像壓縮挑戰賽壓縮效率第一,意味著騰訊音視頻實驗室在圖像壓縮領域又取得了一個長足的進步。