由 雷文武 在 8 天 之前添加. 更新于 8 天 之前.
0%
描述
· 火山侧每天采集约 120w 条公域数据
· 模型实际成功打标的数据量仅 10w+
· 假设模型本身无问题,则:
o 至少 80% 为噪音/广告/业务无关内容
o 需从采集入口与数据清洗环节减少无效数据,降低模型GPU使用资源
导出 Atom PDF