C4 (Colossal Clean Crawled Corpus)
dataset
提唱/開発
Google DeepMind
登場日
2019年10月
表示形式
Google が T5 のために構築した Common Crawl ベースのクリーンな英語データセット。
約 750GB。
🔗 外部リンク
次に進む
目的に合わせて、学ぶ・比較する・相談するの3つの導線から選べます。
Google が T5 のために構築した Common Crawl ベースのクリーンな英語データセット。
約 750GB。
目的に合わせて、学ぶ・比較する・相談するの3つの導線から選べます。