跳到内容
平台
平台
Domino企业MLOps平台
平台组件
系统的记录
集成模型工厂
自助服务基础设施门户网站
平台
解决方案
按角色
数据科学领袖
数据科学家
它的领导人
由工业
金融服务
保险
媒体 & 技术
健康 & 生命科学
制造业
零售、电子商务 & 消费产品
用例
自助服务数据科学
开放数据科学
风险管理模型
云数据科学
解决方案
客户
资源
指南,视频 & 更多的
企业现场指导
企业MLOps指南
速度模型的评估
新
播客
学习
社区
文档
数据科学博客
合作伙伴
合作伙伴
工具 & Data
基础设施
解决方案
实现 & 咨询
成为合作伙伴
特色
英伟达
AWS
Azure
埃森哲咨询公司
雪花
合作伙伴
公司
关于
职业生涯
BB电竞正在招聘
新闻 & 新闻
企业博客
事件
联系
观看演示
现在试一试
产品
Domino企业MLOps平台
系统的记录
集成模型工厂
自助服务基础设施门户网站
自助服务数据科学
开放数据科学
风险管理模型
云数据科学
解决方案
数据科学领袖
它的科学
数据科学家
金融服务
保险
媒体 & 技术
健康 & 生命科学
制造业
零售、电子商务 & 消费产品
客户
资源
指南,视频 & 更多的
企业现场指导
企业MLOps指南
速度模型的评估
播客
学习
社区
文档
数据科学博客
合作伙伴
工具 & Data
基础设施
解决方案
实现 & 咨询
成为合作伙伴
公司
关于
职业生涯
BB电竞正在招聘
新闻 & 新闻
企业博客
事件
联系
观看演示
现在试一试
字典
水蟒
水蟒是一个用于数据科学的Python和R编程语言的开源发行版,旨在简化包的管理和部署. 水蟒中的包版本由包管理系统管理, conda, 它在执行安装之前分析当前环境,以避免干扰其他框架和包.
Apache火花
Apache火花是一个开源软件, 分布式计算框架和实时库集, 大规模数据处理. Spark于2009年在加州大学伯克利分校创建,旨在解决Apache Hadoop的许多缺点, 而且在分析工作负载方面比Hadoop快得多,因为它在内存(RAM)中存储数据,而不是在磁盘上.
人工智能
人工智能(AI)是一类能够执行通常需要人类智能才能完成的任务的解决方案. 如果你用手机上的Siri说话, 和电脑玩一场竞技游戏, 或者乘坐自动驾驶汽车, 你是在和人工智能互动.
Dask
Dask于2018年发布,旨在创建一个强大的并行计算框架,对Python用户非常有用, 并且可以在单个笔记本电脑或集群上运行良好. 与Apache火花相比,Dask重量更轻,更容易集成到现有的代码和硬件中.
数据科学
数据科学是一门在复杂的数据集中寻找模式,以构建预测未来可能发生的事情和/或解释系统的模型的学科. 数据科学结合了领域专业知识, 编程技能, 以及数学和统计学知识,从数据中提取有意义的见解.
Density-Based集群
基于密度的聚类是指在数据中识别不同的聚类的无监督机器学习方法, 基于数据空间中的聚类/组是一个点密度较高的连续区域的思想, 通过稀疏的区域与其他集群分开. 在分离的稀疏区域中的数据点通常被认为是噪声/离群值.
dplyr
Dplyr(发音为“deep -ply-er”)是在R中处理数据的卓越工具. 学习和使用dplyr有助于数据科学家使数据准备和管理过程更快、更容易理解. 数据科学家通常使用dplyr将现有的数据集转换成更适合某些特定类型的分析或数据可视化的格式.
因子分析
因子分析是一种统计方法,用于描述变化的观察, 相关变量是指可能较少的未观察到的变量称为因子. 例如, 有可能六个观测变量的变化主要反映了两个未观测(潜在)变量的变化.
工程特性
特征工程指的是添加操作, 删除, 结合, 突变-你的数据集,以提高机器学习模型训练, 导致更好的性能和更大的准确性. 有效的特征工程是基于对业务问题的充分了解和可用的数据源.
叶形
叶形是一个功能强大的Python库,可以帮助您创建几种类型的Leaflet地图. 默认情况下,叶形在一个单独的HTML文件中创建一个映射. 由于叶形的结果是交互式的,这个库对于仪表盘的构建非常有用. 你也可以在叶形中创建内联木星地图.
GenomicRanges
genomic ranges包是Bioconductor项目中代表基因组位置的基础. 这个R包通过引入三个类(GRanges, gpo, 和GRangesList), 哪些是用来表示基因组范围的, 基因位置, 以及基因组范围的分组.
ggmap
ggmap是一个R包,可以很容易地从流行的在线地图服务,如谷歌地图和雄蕊地图检索光栅地图瓷砖, 并使用ggplot2框架绘制它们. 结果很简单, 一致的和模块化的框架空间图形与几个工具的空间数据分析.
ggplot
ggplot2是一个用于统计编程语言R的数据可视化包. ggplot2是Leland Wilkinson's Grammar of graphics的实现,这是一种数据可视化方案,它将图形分解为语义组件(如尺度和层). ggplot2是R中基本图形的替代品,包含许多默认绘图.
GPU
图形处理单元(GPU)是一种专门的电路,设计用来快速操作和改变内存,以加速计算机图形和图像处理. 对于并行处理大数据块的算法,现代gpu的高度并行结构使其比中央处理器(cpu)更高效.
哈希表
哈希表是一种数据结构类型,其中数据元素的地址/索引值是由哈希函数生成的. 这使得索引值可以作为数据值的键来进行非常快速的数据访问.
可解释性
可解释的机器学习意味着人类可以从一个模型中获取相关知识,这个模型要么包含在数据中,要么包含在模型中. 机器学习算法历来都是“黑匣子”,, 这让BB电竞无法了解它们的内部过程, 这使得向监管机构和利益相关者解释由此产生的见解变得困难.
Kubernetes
Kubernetes是一个用于自动化应用程序部署的开源容器编排系统, 扩展, 和管理. Kubernetes(又名K8s)是为了管理多个容器的复杂架构而开发的.g.Docker)和运行在生产环境中的主机. 随着IT部门转向容器化应用程序和微服务,k8正迅速成为IT部门的关键.
机器学习
机器学习(ML)是通过经验自动改进的计算机算法的应用. 机器学习算法基于样本数据建立模型, 称为“训练数据”,为了在没有明确编程的情况下做出预测或决定.
模型评价
模型评估是使用不同的评估指标来理解机器学习模型的性能的过程, 以及它的优点和缺点. 在研究初期,模型评估对于评估模型的有效性非常重要, 它还可以用于模型监测.
模型的监控
模型监控是机器学习生命周期中的一个操作阶段,在模型部署之后. 它需要监视ML模型的更改,例如模型降级, 数据漂移, 和概念漂移, 并确保您的模型保持一个可接受的性能水平.
PySpark
PySpark是Apache火花的Python API, 一个开源的, 分布式计算框架 和一套实时库, 大规模数据处理. 如果您已经熟悉Python和像Pandas这样的库, 那么PySpark是一个很好的语言来学习创建更多可伸缩的分析和管道.
PyTorch
PyTorch是一个开源的机器学习库,由Facebook的人工智能研究实验室于2016年发布. 它可以在一系列任务中使用, 但它特别侧重于深度学习任务的训练和推理, 比如计算机视觉和自然语言处理.
闪亮的(R)
Shiny是一个R包,它支持构建能够在后端执行R代码的交互式web应用程序. 与闪亮的, 你可以在网页上托管独立的应用程序, 在R Markdown文档中嵌入交互式图表, 或者构建仪表盘. 您还可以使用CSS主题、HTML小部件和JavaScript操作来扩展Shiny应用程序.
sklearn
Scikit-learn, 也被称为sklearn, 是一个开源, Python机器学习和数据建模库. 它具有多种分类, 回归和聚类算法,包括支持向量机, 随机森林, 梯度增加, k - means和DBSCAN, 并被设计用于与Python库互操作, NumPy和SciPy.
宽大的
space是免费的, 开源Python库,提供了对大量文本进行高速自然语言处理(NLP)的高级功能. 它帮助您构建可以支持文档分析的模型和生产应用程序, 聊天机器人功能, 以及其他形式的文本分析.
TensorFlow
TensorFlow是一个用于机器学习的开源框架. 它有一个全面的工具生态系统, 库, 以及社区资源,开发人员可以轻松地构建和部署基于ml的应用程序, 研究人员对ML进行了创新. 它可以在一系列任务中使用, 但它特别侧重于深度神经网络的训练和推理.
XGBoost
XGBoost是一个开源软件, 集成机器学习算法,利用梯度增强决策树的高性能实现. 底层的c++代码库加上顶部的Python接口使得XGBoost非常快速, 可伸缩的, 以及高度可用的库.
MLOps
机器学习操作(MLOps)是一套简化管理的技术和最佳实践, 发展, 部署, 以及在不同企业中大规模监测数据科学模型.
回到指数