研究生学历,毕业于山东大学计算机系,信息安全专业
熟练使用 PyQt6 开发跨平台桌面应用程序
熟练使用 QWebEngineView(Chrome 内核)实现嵌入式浏览器自动化
熟悉爬虫开发与反爬虫策略
熟悉网页自动化与浏览器控制
具备分布式任务处理(客户端-服务器协作)经验
工作项目:
1、聚智汇app程序开发
聚智汇 - 淘宝电商数据自动化采集桌面工具
开发了一个基于 PyQt6 的跨平台桌面应用程序,实现淘宝平台商品数据的自动化采集、管理的全流程工具。应用支持多账户批量操作,结合浏览器自动化和服务器通信,适用于电商数据分析、竞品监控等场景。
主要功能与模块:
账户管理:支持添加/编辑多个淘宝账户(UUID 唯一标识),使用 Pandas 管理 Excel 账户列表(账户列表.xlsx),实现备注、cookies 长度、爬取统计等字段维护。
自动化登录与 Cookies 获取:嵌入 QWebEngineView(Chrome 内核)实现浏览器自动化登录淘宝,获取并持久化 cookies,支持多线程并发登录。
数据爬取:批量爬取淘宝商品信息,支持失败重试机制(爬取失败次数 >10 自动重试更新 cookies)。
数据上传与任务同步:通过 RESTful API(requests)上传采集数据至服务器;使用 WebSocket 长连接实时监听服务器下发任务并执行。
个人统计仪表盘:调用服务器 API 查询用户最近 30 天爬取完成量/失败量统计,并在“我的”页面以表格形式展示。
日志与配置:完整日志系统(logging + RotatingFileHandler),支持界面实时查看 + 文件持久化;多页面导航(StackedWidget)包括账号管理、日志、配置、爬取等。
技术栈:
GUI框架 → PyQt6(QMainWindow、QStackedWidget、QWebEngineView、QThread 多线程)
数据处理 → Pandas(Excel 读写)、JSON(token/用户数据持久化)
网络通信 → Requests(API 调用)、WebSocket(实时任务)
并发与异步 → Threading、QThread、asyncio
其他 → UUID 生成、路径兼容(打包 exe 支持)、自定义信号槽机制
项目亮点与收获:
实现了从前端 GUI 到后端自动化爬取、数据上传的全栈闭环,处理了浏览器自动化、多线程并发、WebSocket 长连接等实际工程问题。
优化了日志系统,确保界面与文件同步更新,提升了调试与运维效率。
项目支持 PyInstaller 打包成独立 exe,兼容开发与生产环境。
通过该项目深入掌握了桌面应用开发、网页自动化以及分布式任务处理,具备独立开发复杂 GUI 工具的能力。
2、爬虫开发
独立设计开发淘宝平台自动化商品爬虫系统,基于 Python 与 Playwright 技术栈,实现关键词搜索、商品列表爬取、详情数据提取全流程自动化,核心目标为精准获取商品 ID、标题、价格、库存、店铺信息等核心数据。
核心功能开发:设计并实现关键词搜索模块,支持自定义搜索词(如 “手机”)与爬取页数配置,通过 Playwright 模拟 Chrome 浏览器操作,完成淘宝首页搜索框定位、关键词填充、搜索按钮触发等自动化流程,兼容多版本页面结构的选择器适配;
反爬与稳定性优化:构建 Cookie 自动管理机制,实现每日 Cookie 复用、自动更新与本地持久化存储,降低重复登录成本;通过禁用浏览器自动化检测、随机请求间隔、多页面元素选择器备份等策略,规避淘宝风控拦截;针对页面超时、跳转异常等问题,设计手动验证兜底方案,保障爬取流程连续性;
数据处理与解析:基于正则表达式与 JSON 解析,从商品详情页 HTML 中提取结构化数据,实现商品信息去重与标准化输出;优化商品 ID 提取逻辑,支持从多类型商品链接中精准解析,确保数据唯一性;
问题排查与迭代:定位并解决浏览器自动关闭、URL 匹配超时、页面结构变更兼容等核心问题,通过参数透传与资源释放机制优化,保障爬虫运行稳定性,最终实现单关键词爬取成功率达 90%+,支持多场景商品数据采集需求。
可兼职时间
可兼职地点
0条评论 雇主评价