[智能方案]
GPU硬件故障自动检测&故障后显卡自动恢复项目
任务编号:518824
悬赏任务30000元
悬赏任务 : 按雇主需求进行任务后提交稿件,被采纳后即获得佣金。
GPU硬件故障自动检测&故障后显卡自动恢复项目
距截止:
任务已圆满完成
雇主已托管赏金:30000 元
雇主发布需求
雇主托管佣金
服务商投稿
雇主开始选稿
任务完成
任务大厅共需1个合格投稿 | 每稿将获得30000 元 | 每人交稿次数不限 可多次任务
投诉举报
联系Ta
我来承接
已有1 个投稿 | 已采纳1 稿 | 拒绝0 稿 | 目前中标名额已满
任务需求:
一、解决显卡故障类问题
1. 使用显卡时,出现了显卡SDMA TIMEOUT,GFX TIMEOUT等故障类问题,需要技术提供方定位问题级别。定位的故障环境信息由我司提供。
2. Android使用OpenGLES时出现渲染异常,需要提供解决办法或者规避办法。需要技术提供方定位问题级别,根据问题级别,选择投入人力定位解决。定位的故障环境信息由我司提供。
3. 使用显卡的开源驱动,导致主机crash异常等故障,需要提供解决办法或者规避棒法,需要技术提供方定位问题级别。定位的故障环境信息由我司提供。
4. 通过PATCH合入,现网观察1个月,此类问题不再复现视为验收通过,否则验收不通过。
二、GPU硬件故障自动检测&故障后显卡自动恢复
要求:
1. 如果显卡出现硬件故障,需要在系统日志打印日志,并提供是否可恢复的接口提供给驱动软件识别和调用。
2. 故障检测需要检测并定位是硬件功能故障还是软件引起的故障,能够区分到进程级别。
3. 对于不可恢复的故障,提供告警和监控通道,方便及时更换和复位硬件(告警接口与告警系统要易于对接)。对于可恢复的故障,自动恢复硬件和复位驱动,并有机制或者日志通知给上层应用,方便恢复业务,达到商业交付。
4. 自动恢复需要做到进程级恢复,也即是哪个进程造成了GPU故障,只需要重启那个进程即可恢复,GPU卡上的其他进程不受影响;
5. 不能影响当前整机云手机密度。
6. 所有的设计文档需要联合review。
7. 提供测试用例设计文档。
8. GPU hang故障场景说明:通过GPU的内核驱动和用户态mesa驱动配合,实现GPU hang的自动恢复故障,标识出引起故障的进程,并拒绝执行从该进程提交的GPU指令,故障进程重启即可正常使用GPU;GPU上非引起故障的其他进程,则不受影响;如果是因为固件(Firmware)死机引起的GPU hang,则不要求恢复回来,上报告警相关告警即可。乙方给出推荐的固件版本,或者以甲方目前使用的版本为准;
|
|
|
|
|