RAG에 등록하는 문서로 DOC이나 PDF에서 이미지를 추출할때 문서와 함께 이미지를 추출하는것이 어렵습니다. Multimodal LLM에서 DOC나 PPT의 내용을 같이 분석할 수 있도록 DOC과 PPT문서를 PDF로 변환하고자 합니다.
LibreOffice를 이용하여 /tmp에서 문서를 변환합니다. Lambda layer 또는 docker image로 활용할 수 있습니다.
RAG에 등록하는 문서로 DOC이나 PDF에서 이미지를 추출할때 문서와 함께 이미지를 추출하는것이 어렵습니다. Multimodal LLM에서 DOC나 PPT의 내용을 같이 분석할 수 있도록 DOC과 PPT문서를 PDF로 변환하고자 합니다.
LibreOffice를 이용하여 /tmp에서 문서를 변환합니다. Lambda layer 또는 docker image로 활용할 수 있습니다.