实现网

强化学习研究员 远程兼职

一般月薪10000元
项目类型:不用选择
每月工作: 6天
工作方式:
TensorFlow
Python
强化学习经验(PPO、DDQN)

职位详情

职位详情

预算:10000 RMB(固定价格) | 截止日期:6天

项目概述

将一个现有的、完整可运行的深度强化学习(DRL)加密货币交易系统改造为仅买入的模拟交易系统,并接入 Alpaca 进行模拟交易。做空/卖出侧必须完全禁用。现有代码库完整且可运行——这是一个改造项目,不是从零开始。

该系统使用 PPO(近端策略优化)算法,包含3个集成模块:
• TraderNet — 主DRL智能体,使用"Round-Trip Strategy"奖励函数
• N-Consecutive — 基于规则的安全过滤器,防止不确定的交易执行
• Smurfing — 更保守的第二智能体,用于避免高风险交易时段

您的任务是将其转换为仅买入系统,在 BTC、ETH 和 XRP 上重新训练,并接入 Alpaca 进行实时模拟交易。

我们提供

• BTC、ETH 和 XRP 的历史小时级 OHLCV CSV 数据
• Alpaca 模拟交易 API key 和 secret
• 学术论文 PDF

技术栈(仓库中已有)

• Python 3.6+、TensorFlow / TF-Agents、Gym
• TA 库(12个技术指标)、PyTrends、scikit-learn
• 如果 Google Trends 数据获取不稳定,可以禁用该特征——请自行判断

交付内容

里程碑 1 — 买入侧回测,显示正收益

将系统转换为仅买入并在提供的数据上重新训练。完成后我们期望看到:

• BTC、ETH 和 XRP 的训练完成的仅买入模型
• 在留出测试数据上的回测结果,证明系统盈利
• 绩效指标:累计PNL、夏普比率、索提诺比率、最大回撤、投资风险
• 清晰的对比,展示仅买入系统可以正常工作

里程碑 2 — Alpaca 实时模拟交易

将训练好的系统接入 Alpaca,实现自动交易。完成后我们期望看到:

• 系统每小时运行,获取实时加密货币数据并在 Alpaca 上执行真实的模拟交易
• 所有交易记录包含时间戳、价格、指标值和运行中的PNL
• 持仓管理正常运作(入场、持有、退出)
• 完整管道运行:Smurf → TraderNet → N-Consecutive → Alpaca 执行

技能要求

• Python + TensorFlow / TF-Agents,强化学习经验(PPO、DDQN)
• REST API 集成(Alpaca 或类似平台)
• 能阅读英文学术论文和代码

补充说明

• 模型很小(Conv1D + Dense 层),在 CPU 上几小时即可完成训练,无需GPU。
• 表现优秀者有后续付费工作机会。
• 本系统仅用于研究和模拟交易目的。

已有2人投递
Small ac171d0a6348fd7ef6e1f1afb416dec6
Small 99384b76ce975aab1d3e64831e8de11a
C90d332c41485c9f429bf25fd37947ce
昵称登录后显示 4 天前
公司地址 United States
团队人数未填写
融资情况未透露
产品介绍

暂无介绍

团队介绍

暂无介绍