Skip to content

Frequently Asked Questions

1. Timeout error

원인

동작 중 LPU가 답을 주지 못한 상태로 작업 중 리소스 충돌 등으로 데드락에 걸린 상태일 가능성이 높다

해결

  • hyperdex-reset 실행
  • 지속적일 경우 서버 리부트 및 host-memory-access 후 재시도

예시 에러 로그:

...
Processed prompts:   0%|                      | 0/1 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s2025-07-31 13:19:18,798 - [ ERROR ] : Timeout occurred while waiting for the LPU to generate tokens.
2025-07-31 13:19:18,798 - [ ERROR ] : Timeout occurred while waiting for the LPU to generate tokens.
2025-07-31 13:19:18,803 - [ CRITICAL ] : Soft Reset Triggered! It takes about 3 seconds in multi LPU config...


2. Multi-batch

원인

입력 프롬프트를 다중 배치로 구성

해결

입력 배치를 1로 변경합니다.

예시 에러 로그:

...
[rank0]:     input_tokens = torch.tensor(input_tokens,
[rank0]: ValueError: expected sequence of length 6 at dim 1 (got 8)
Processed prompts:   0%|  


Troubleshooting

XRT

Components Status
XOCL & XCLMGMT Kernel Driver ❌ Failed
XRT USERSPACE ✅ Success
MPD/MSD ✅ Success

오류: XOCL & XCLMGMT Kernel Driver Failed

원인

Os linux-image 버전과 linux-headers 간의 버전 불일치

해결

두 버전을 동일한 버전으로 맞춰줍니다.

uname -r   # linux-image 버전 확인
apt list --installed | grep -i linux-headers  # linux-headers 버전 확인

오류: [XRT] ERROR: Kernel arg axi00_ptr0 is not set

원인

서버 재부팅 시 host memory 활성화가 되지 않아 발생

해결

host memory enable 스크립트 실행 (sudo 권한 필요)

host-memory-access

오류: [XRT] ERROR: unable to sync BO: Input/output error

원인

Ctrl+C 등 의도치 않은 시그널이 디바이스로 전달됨

해결

hyperdex-toolchain 패키지 환경에서 reset 실행

hyperdex-reset

오류: Model compile Complete! 이후 아무런 출력 없음

원인

Deadlock 발생

해결

hyperdex-toolchain 패키지 환경에서 reset 실행

hyperdex-reset

CUDA

오류: Failed to initialize NVML : Driver/library version mismatch

원인

커널에 로드된 드라이버 버전과 /usr/lib/ 내 NVML 라이브러리와의 버전 충돌

해결

nvidia 모듈 언로드 후 재로드
(사용 중인 프로세스는 kill 후 진행)

rmmod nvidia_uvm
rmmod nvidia_drm
rmmod nvidia_modeset
rmmod nvidia
modprobe nvidia

nvidia-smi

Conda

오류: OSError: lib/libstdc++.so.6: version GLIBCXX_3.4.30 not found

원인

시스템에 설치된 GCC 버전이 낮음

해결

hyperdex-toolchain 환경에서 gcc 업그레이드

conda install -c conda-forge gcc=12.1.0

Package

오류: AttributeError: 'memory_mapper' object has no attribute 'lib'

원인

Torch 버전 mismatch (필수: 2.4.0)

해결

torch 2.4.0 재설치

pip install torch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 -i https://download.pytorch.org/whl/cpu

오류: RuntimeError: Failed to make network connection table

원인

네트워크 테이블 생성 실패

해결

  • network table 파일 확인
  • QSFP cabling 상태 확인 후 재생성
ls -al /home/user/env/envs/poc-env/lib/python<python_version>/site-packages/hyperdex/xclbin

예시 출력:

-rw-r--r-- 1 user user      423  5월  8 01:37 table_bdf.json
-rw-r--r-- 1 user user        0  5월 13 14:25 table_bdf.json.lock

→ 파일이 없을 경우 재생성 필요


vLLM

오류: KeyError: 'text'

원인

기본 8000번 포트로 전송된 경우

해결

실행 중인 vLLM 프로세스 포트 확인

ps -ef | grep -i vllm

오류: requests.exceptions.ConnectionError: HTTPConnectionPool(host='localhost', port=4000)

원인

실행 중인 vLLM과 다른 포트로 요청이 전송됨

해결

실행 프로세스 포트 확인

ps -ef | grep -i vllm