首页 > 社交 > 科普中国

HugeCTR

常驻编辑 科普中国 2022-06-16 33详细信息   稠密   生成器   模型   性能   参数   版本   文档   文件   数据
HUj拜客生活常识网


HUj拜客生活常识网

b. HashMap 后端:并行和单线程的 hashmap 实现已被新的统一实现取代。这个新的实现使用了一种新的基于内存池的分配方法,它极大地提高了插入性能,而不会降低召回性能。与之前的实现相比,大批量插入操作的速度提高了 4 倍。HUj拜客生活常识网


HUj拜客生活常识网

c. 压缩的日志:用户可以在 Triton 服务启动时配置多级日志输出,从而提高在线推理的吞吐量。HUj拜客生活常识网


HUj拜客生活常识网

d. 简化配置: HugeCTR 后端将推理参数服务器相关配置(ps.json)和 Triton 配置(config.pbtxt)完全解耦,避免了 Triton 中的重复配置。HUj拜客生活常识网


HUj拜客生活常识网

e. Embedding 更新的冻结功能: HugeCTR 后端已经支持通过 Triton 的模型控制接口只更新模型的密集部分,从而避免 Embedding 的在重复在线更新。HUj拜客生活常识网


HUj拜客生活常识网

3. 离线推理可用性的增强:HUj拜客生活常识网

线程池的大小现在可以配置了,这对于研究异步更新场景中的 Embedding Cache 性能十分有用。更多信息,请参阅分层参数服务器配置HUj拜客生活常识网

https://nvidia-merlin.github.io/HugeCTR/master/hugectr_parameter_server.html#configuration。HUj拜客生活常识网


HUj拜客生活常识网

4. 数据生成器性能提升:HUj拜客生活常识网

现在可以指定 `num_threads` 参数以并行化 `Norm` 数据集生成。HUj拜客生活常识网


HUj拜客生活常识网

5. 评估指标改进:HUj拜客生活常识网

a. 多节点环境中的 AverageLoss 性能提升HUj拜客生活常识网

b. AUC 性能优化和更安全的内存管理HUj拜客生活常识网

c. NDCG 和 SMAPEHUj拜客生活常识网


HUj拜客生活常识网

6. 使用 Parquet 数据集的 Embedding Training Cache(ETC) 演示:HUj拜客生活常识网

现在我们提供了一个 keyset 提取脚本以生成 Parquet 数据集的 keyset文件。并且为用户提供了一个使用 ETC 模式训练 Parquet 数据集的端到端演示: https://github.com/NVIDIA-Merlin/HugeCTR/blob/master/notebooks/embedding_training_cache_example.ipynb 。HUj拜客生活常识网


HUj拜客生活常识网

7. 文档更新:HUj拜客生活常识网

HugeCTR 分层参数服务器数据库后端 https://nvidia-merlin.github.io/HugeCTR/master/hugectr_parameter_server.html 的文档详细信息已更新,以保持一致性和清晰性。HUj拜客生活常识网


HUj拜客生活常识网

8. 修复的问题:HUj拜客生活常识网

a. 在使用 Parquet 数据类型时,如果指定了 `slot_size_array`,则不再需要指定 `workspace_size_per_gpu_in_mb` 了。HUj拜客生活常识网


HUj拜客生活常识网

b. 如果您从头开始构建和安装 HugeCTR,您可以指定 `CMAKE_INSTALL_PREFIX` 变量来指定 HugeCTR 的安装目录。HUj拜客生活常识网


HUj拜客生活常识网

c. 解决了使用大量 GPU 进行 SOK 训练时 sok.init()的挂起问题:HUj拜客生活常识网

https://github.com/NVIDIA-Merlin/HugeCTR/issues/261HUj拜客生活常识网

https://github.com/NVIDIA-Merlin/HugeCTR/issues/302。HUj拜客生活常识网


HUj拜客生活常识网

已知问题HUj拜客生活常识网


HUj拜客生活常识网

以下是目前 HugeCTR 存在的已知问题,我们将在之后的版本中尽快修复。HUj拜客生活常识网

  • HugeCTR 使用 NCCL 在 rank 之间共享数据,并且 NCCL 可能需要共享系统内存用于 IPC 和固定(页面锁定)系统内存资源。在容器内使用 NCCL 时,建议您通过发出以下命令来增加这些资源 `-shm-size=1g -ulimit memlock=-1`
  • 另见 NCCL 的 已知问题 https://docs.nvidia.com/deeplearning/nccl/user-guide/docs/troubleshooting.html#sharing-data。还有 GitHub 问题 https://github.com/NVIDIA-Merlin/HugeCTR/issues/243 。
  • 目前即使目标 Kafka broker 无响应, KafkaProducers 启动也会成功。为了避免与来自 Kafka 的流模型更新相关的数据丢失,您必须确保有足够数量的 Kafka brokers 启动、正常工作并且可以从运行 HugeCTR 的节点访问。
  • 文件列表中的数据文件数量应不小于数据读取器的数量。否则,不同的 data reader worker 将被映射到同一个文件,导致数据加载不会按预期进行。
    文章来自互联网,如有侵权请点此提交删除
    文章来自互联网,如有侵权请点此提交删除

相关阅读:

  • 手机NFC是“鸡肋”配置?这3个实用功能不会用,浪费一笔冤
  • Livemap推出智能摩托车头盔
  • 瑞虎8
  • 你的移动皮革小电站
  • 百达翡丽序列号指南
  • “体质调护”—因人制宜
  • 全国第一个开学的省份为什么能这么牛?光看这“天”就知
  • 为什么乞丐的头发基本都是浓密不秃顶?
  • 乘船入户十里芳菲,西溪湿地一房一景秋色如画
  • 如何取标题(标题生成器app)
  • 文章来自互联网,如有侵权请点此提交删除
    文章来自互联网,如有侵权请点此提交删除
    • 网站地图 |联系我们
    • 声明:登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不做权威认证,如若验证其真实性,请咨询相关权威专业人士。