CY Blog

Thinking will not overcome fear but action will.

Spark:Cluster Computing With Working Sets 这篇论文是Spark系列论文的开篇之作,主要介绍了当时解决大规模数据的分布式框架存在的局限性,并针对这些问题提出了Spark的解决方案。 简介 目前大规模数据解决方案(主要指MapReduce)是用来处理acyclic data flow的,对于有时候我们想要在一个数据集上执行多次操作( reuse a...

简介 MapReduce是一个处理和生成超大数据集的编程模型和相关实现。基于MapReduce,用户只需通过Map和Reduce函数描述自己的计算问题,而不用关心计算在哪个机器上进行、相互之间如何通信、机器故障如何处理等复杂的问题。 MapReduce is a programming model and an associated implementation for proce...

Multimodal Machine Learning: A Survey and Taxonomy阅读笔记 旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习 多模态可以划分为以下五个研究方向: 多模态表示学习 Multimodal Representation:学习如何利用多种模态的互补性(compl...

强化学习入门学习

打开强化学习的大门

The Machine Learning Practitioner’s Guide to Reinforcement Learning: Overview of the RL Universe Refer to doc LIST Why Reinforcement Learning? Why Not Supervised Learning? Opti...

强化学习在推荐系统的应用

论文笔记Deep Reinforcement Learning based Recommendation with Explicit User-Item Interactions Modeling

Deep Reinforcement Learning based Recommendation with Explicit User-Item Interactions Modeling Abstract 目前大多数推荐算法(协同过滤、矩阵因子分解、逻辑回归、因子分解机、神经网络、多臂赌博机等等)存在两个limitation: 将推荐视为静态程序,忽略用户与推荐系统之间的动态交...

隐私计算与联邦学习

关于当下隐私计算与联邦学习的理论和时间研究

隐私计算与联邦学习 近年来,为强化个人隐私信息保护,国家相继颁布了《网络安全法》、《数据安全法》等法律法规,规范数据的管理和使用。在约束和规范市场的同时,也在某种程度上加剧了企业对于数据流通的合法合规性担忧,数据孤岛愈演愈烈,各个行业对用户隐私和数据安全的关注度显著提高。为此,研究如何在保护隐私和安全的前提下,解决数据孤岛问题实现数据共享需求越来越突出,隐私计算受到极大重视,联邦学习应运而...

DQN代码详解

Deep Q-Learning PyTorch详细实现

关于莫烦老师的DQN强化学习的学习解读 莫烦用了强化学习非常直观和简单的Demo——平衡小车游戏,导入了物理引擎库gym。DQN用神经网络解决了Q-Learning的两个痛点: 状态过多,计算机直接存储Q值不现实。直接将状态s和动作a输入到神经网络得到Q值更合理方便; 利用神经网络输出状态s下所有动作a的reward,以此进行决策选择 DQN伪代码 Playing Ata...

联邦学习方法FedAvg实现(PyTorch)

联邦学习经典算法FedAvg的PyTorch详细实现

联邦学习方法FedAvg实现(PyTorch) 通俗来讲,联邦学习(Federated Learning)结构由Server和若干Client组成,在联邦学习方法过程中,没有任何用户数据被发送到Server端,通过这种方式保护了用户的数据隐私。另外,通信中传输的参数是特定于改进当前模型的,因此一旦应用了他们,Server就没有理由存储它们,这进一步提高了安全性。 联邦学习的整体思路是”数...

简易搜索引擎(四)

Python简易搜索引擎原理及实现(四)利用布尔模型和向量模型计算权值

Python简易搜索引擎原理及实现(四)利用布尔模型和向量模型计算权值 我们在倒排索引的基础上,引入了B+树索引和轮排索引,以支持通配符的模糊查询方式。 本篇主要是掌握和测试布尔模型和向量模型在信息检索中应用的基本方法,计算出一些参数值,辅助搜索引擎去对最终各查询结果计算权值,排序。 首先介绍几个概念: df(document frequency):总文档中包含每个 t...

简易搜索引擎(三)

Python简易搜索引擎原理及实现(三)通配符查询

Python简易搜索引擎原理及实现(三)通配符查询 在上一篇中,我们引入了AND、OR、ANDNOT操作符,支持三种查询方式。 这篇文章中,我们将在倒排索引的基础上,改进我们的字典结构,使用B+树索引来加快检索速度;同时引入轮排索引(Permuterm Index),以支持通配符的模糊查询方式。 之前我们采用的是哈希表实现的查询功能。 实现dictionary的方法主要有哈希表和搜索...