量子化機械学習の汎化性能および学習ダイナミクスの統計力学的解析
産業数理統計セミナー
開催期間
2026.2.19(木)
15:00 ~ 16:00
15:00 ~ 16:00
場所
W1-C-502 大講義室
講演者
柏村 周平 (東京大学 大学院理学系研究科)
概要
アブストラクト:画像生成,自然言語処理,強化学習など様々な分野において深層学習が活用されているが,その性能は大量のデータと大量のパラメータに依存しており,演算量及びメモリ消費量が膨大となっている.また,大規模言語モデルに代表されるように, データやモデルの大規模化が一層進んでいる.そこで,有効なアプローチとして,量子化が注目されている.量子化では,32ビット演算や64ビット演算で行うプロセスを8ビットや4ビットといった低ビットで代替し,演算量及びメモリ消費を削減することができる.量子化によってモデル性能が大きく損なわれないような成功例や,効率的な量子化手法の開発などが多く報告されている.一方で,量子化が学習モデルに与える影響の理論的な理解は未発達である.本発表では,統計力学の手法を用いて,(1)回帰モデル (2) アテンションモデル (3) 学習ダイナミクスの三つの現象に量子化が与える影響を解析する.解析結果として,データ数,パラメータ数,量子化のハイパーパラメータなどが汎化性能に与える影響を等式評価し,その挙動を議論する.