强化学习研究员远程兼职

一般月薪16000元

项目类型：不用选择

每月工作： 10天

工作方式：

PyTorch

强化学习

深度学习

Python

英语

职位详情

预算：16000 RMB（固定价格） | 截止日期：10天

项目概述

将一个学术论文中的深度强化学习（DRL）加密货币投资组合管理系统改造为仅买入的模拟交易系统，并接入 Alpaca 进行模拟交易。原模型中的做空/杠杆操作必须完全禁用。

该系统使用自定义 Transformer 编码器-解码器架构，包含以下创新模块：
• Sequential Attention — 上下文感知注意力层，捕捉价格序列的局部模式
• Relation Attention — 跨资产注意力层，捕捉资产间的相关性
• Leverage Decision Layer — 多头 softmax 决策层（需禁用，改为单头 softmax 仅买入）

您的任务是：修复代码使其在现代 Python 环境中运行，移除做空/杠杆机制（转为仅买入），在加密货币数据上训练，并接入 Alpaca 进行实时模拟交易，每30分钟自动调仓。

论文 PDF、源代码仓库链接将在筛选通过后提供给合格候选人。

重要说明：代码需要现代化

原始代码存在以下已知的弃用和兼容性问题，需要修复：
• 使用了已弃用的 pd.Panel
• 全代码硬编码 .cuda()
• 使用了已弃用的 PyTorch 初始化 API
• 使用了已弃用的 pandas API

具体的技术解决方案由您决定。

我们提供

• 学术论文（PDF）
• 源代码仓库
• Alpaca 模拟交易 API key 和 secret
• 目标加密货币列表

技术栈

• Python、PyTorch
• Alpaca Market Data API（30分钟 OHLCV 数据）
• alpaca-py SDK（下单执行）
• Docker（最终交付必须包含 Dockerfile，确保环境可复现）

交付内容

只有所有里程碑均达标，项目才视为成功完成。

里程碑 1 — 代码现代化 + 仅买入回测

修复代码并将模型转为仅买入。完成后我们期望看到：

• 代码在现代 Python 环境中正常运行
• 所有弃用依赖已修复
• 杠杆决策层已移除，改为单头 softmax（仅买入）
• 损失函数中的做空相关计算已移除
• 在加密货币数据上训练完成的模型
• 回测结果包含：累计投资组合价值（APV）、夏普比率（SR）、卡尔玛比率（CR）
• 回测结果需与论文中报告的性能水平一致或合理接近

里程碑 2 — Alpaca 实时模拟交易

将训练好的系统接入 Alpaca，实现自动投资组合调仓。完成后我们期望看到：

• 系统每30分钟运行，获取最新价格数据并在 Alpaca 上执行模拟交易
• 完整管道运行：获取K线窗口 → 模型推理 → 输出投资组合权重 → 计算权重差异 → 下单
• 现金仓位正确处理
• 多资产调仓逻辑正常运作
• 所有交易记录包含时间戳、权重变化和运行中的投资组合价值
• 模拟交易结果须表现出模型的核心优势，产出合理且稳健的交易表现。不接受以"市场环境不同"为由解释表现不佳。

里程碑 3 — Docker 化、文档和交付

• Dockerfile：完整的容器化部署，确保即使未来 Python 版本或依赖发生变化，系统仍可复现运行
• 清晰的文档：从零安装、重新训练、启停系统
• 代码整洁、有注释

技能要求

• PyTorch 深度学习（必须熟悉 Transformer 架构、自定义注意力机制）
• 强化学习（策略梯度、投资组合优化）
• Python 数据处理（pandas、numpy、3D 数组操作）
• REST API 集成（Alpaca 或类似交易平台）
• Docker
• 能阅读英文学术论文和代码

补充说明

• 模型训练需要 GPU（Transformer 架构，80K步，batch size 128）。如果您没有 GPU，可使用 Google Colab 或类似服务。
• 原始代码为单文件约900行，建议在修复过程中适当模块化。
• 表现优秀者有后续付费工作机会。
• 本系统仅用于研究和模拟交易目的。

已有1人投递

强化学习研究员远程兼职

职位详情

产品介绍

团队介绍

强化学习研究员 远程兼职

职位详情

产品介绍

团队介绍

强化学习研究员远程兼职