Frequently Asked Questions
1. Timeout error
원인
동작 중 LPU가 답을 주지 못한 상태로 작업 중 리소스 충돌 등으로 데드락에 걸린 상태일 가능성이 높다
해결
hyperdex-reset
실행- 지속적일 경우 서버 리부트 및
host-memory-access
후 재시도
예시 에러 로그:
...
Processed prompts: 0%| | 0/1 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s2025-07-31 13:19:18,798 - [ ERROR ] : Timeout occurred while waiting for the LPU to generate tokens.
2025-07-31 13:19:18,798 - [ ERROR ] : Timeout occurred while waiting for the LPU to generate tokens.
2025-07-31 13:19:18,803 - [ CRITICAL ] : Soft Reset Triggered! It takes about 3 seconds in multi LPU config...
2. Multi-batch
원인
입력 프롬프트를 다중 배치로 구성
해결
입력 배치를 1로 변경합니다.
예시 에러 로그:
...
[rank0]: input_tokens = torch.tensor(input_tokens,
[rank0]: ValueError: expected sequence of length 6 at dim 1 (got 8)
Processed prompts: 0%|
Troubleshooting
XRT
Components | Status |
---|---|
XOCL & XCLMGMT Kernel Driver | ❌ Failed |
XRT USERSPACE | ✅ Success |
MPD/MSD | ✅ Success |
오류: XOCL & XCLMGMT Kernel Driver Failed
원인
Os linux-image
버전과 linux-headers
간의 버전 불일치
해결
두 버전을 동일한 버전으로 맞춰줍니다.
오류: [XRT] ERROR: Kernel arg axi00_ptr0
is not set
원인
서버 재부팅 시 host memory 활성화가 되지 않아 발생
해결
host memory enable 스크립트 실행 (sudo
권한 필요)
오류: [XRT] ERROR: unable to sync BO: Input/output error
원인
Ctrl+C 등 의도치 않은 시그널이 디바이스로 전달됨
해결
hyperdex-toolchain
패키지 환경에서 reset 실행
오류: Model compile Complete! 이후 아무런 출력 없음
원인
Deadlock 발생
해결
hyperdex-toolchain
패키지 환경에서 reset 실행
CUDA
오류: Failed to initialize NVML : Driver/library version mismatch
원인
커널에 로드된 드라이버 버전과 /usr/lib/
내 NVML 라이브러리와의 버전 충돌
해결
nvidia 모듈 언로드 후 재로드
(사용 중인 프로세스는 kill 후 진행)
Conda
오류: OSError: lib/libstdc++.so.6: version GLIBCXX_3.4.30
not found
원인
시스템에 설치된 GCC 버전이 낮음
해결
hyperdex-toolchain
환경에서 gcc 업그레이드
Package
오류: AttributeError: 'memory_mapper' object has no attribute 'lib'
원인
Torch 버전 mismatch (필수: 2.4.0)
해결
torch 2.4.0 재설치
pip install torch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 -i https://download.pytorch.org/whl/cpu
오류: RuntimeError: Failed to make network connection table
원인
네트워크 테이블 생성 실패
해결
- network table 파일 확인
- QSFP cabling 상태 확인 후 재생성
예시 출력:
-rw-r--r-- 1 user user 423 5월 8 01:37 table_bdf.json
-rw-r--r-- 1 user user 0 5월 13 14:25 table_bdf.json.lock
→ 파일이 없을 경우 재생성 필요
vLLM
오류: KeyError: 'text'
원인
기본 8000
번 포트로 전송된 경우
해결
실행 중인 vLLM 프로세스 포트 확인
오류: requests.exceptions.ConnectionError: HTTPConnectionPool(host='localhost', port=4000)
원인
실행 중인 vLLM과 다른 포트로 요청이 전송됨
해결
실행 프로세스 포트 확인