后端 #16984
公域数据降噪与增量优化
描述
· 火山侧每天采集约 120w 条公域数据
· 模型实际成功打标的数据量仅 10w+
· 假设模型本身无问题,则:
o 至少 80% 为噪音/广告/业务无关内容
o 需从采集入口与数据清洗环节减少无效数据,降低模型GPU使用资源
描述
· 火山侧每天采集约 120w 条公域数据
· 模型实际成功打标的数据量仅 10w+
· 假设模型本身无问题,则:
o 至少 80% 为噪音/广告/业务无关内容
o 需从采集入口与数据清洗环节减少无效数据,降低模型GPU使用资源