ESC
キーワードを入力してください

C4 (Colossal Clean Crawled Corpus)

dataset
提唱/開発 Google DeepMind
登場日 2019年10月
表示形式

Google が T5 のために構築した Common Crawl ベースのクリーンな英語データセット。

約 750GB。