본문 바로가기

AI

(30)

AI 로 인터넷 서핑 자동화 하기 (feat. qwen3 - 로컬AI) 뭔가 불필요한 일들을 AI로 자동화 하는데 관심이 많아졌다. 그중에 요즘은 대부분의 서비스들이 웹브라우저에서 가능하기 때문에 가장 중요한 웹브라우저 기반 자동화 방법을 찾아봤다. 특히 클로드나 chatpgt를 쓰면 비용이 많이 나오기 때문에 Local PC 에서 돌아가는 모델로 구현해 봤다. 내가 가장 애용하는 Qwen 모델. 이번에 나온 모델들은 Qwen3 부터 reasoning 이 강조되서 스스로 생각하고 실행하는 기능이 강화가 됐다. 거기에 더해 MCP Tool 같은 Action 들을 미리 로딩을 해서 필요할 때 알아서 기능을 활용하게 되어있어서 자동화 기능에 더 잘 맞는 것 같다. 말이 길었는데 바로 테스트 해본 결과를 보자. 심지어 내가 시킨 일들을 캡쳐 해서 어떻게 실행 했는지 설명까지..

오픈소스 한국어 TTS : fish-speech / openaudio-s1-mini 이것 저것 찾아 헤매다 우선 이 모델로 정착 해야 겠다 싶었다. 속도를 빠르게 하는 옵션도 있고 레퍼런스 오디오를 넣고 비슷한 목소리와 톤을 만들어 줄 수도 있었다. 코드는 여기를 참고 하지만https://github.com/fishaudio/fish-speech GitHub - fishaudio/fish-speech: SOTA Open Source TTSSOTA Open Source TTS. Contribute to fishaudio/fish-speech development by creating an account on GitHub.github.com 환경 설정은 이 곳https://github.com/fishaudio/fish-speech/blob/main/docs/ko/install.md..

AI 키스 동영상 만들기 (feat. veo) 동료가 유행이라고 해서 구글 veo로 어느정도로 가능한시 실험해봤다. 사용할 이미지는 드라마 소개 이미지 손석구님과 김혜자님께서 아주 특별한 컨셉의 내용으로 드라마를 찍으심 아름다운 장면 이걸 Google AI Studio에서 영상을 만들어 봤다. Google AI Studio 에 가서 Generate Media 를 클릭하고 Veo 를 선택한다. 입력창이 나타나면 이미지를 넣고 프롬프트를 입력해 준다. 그냥 단순하게 kiss together 라고 입력해봤다. 우측 셋팅 창에서 8초로 선택하고 Run 아래는 실행 결과이다. 너무나도 자연스러운 결과물어제 발표된 Veo3로 하면 파도소리 같은 것도 동시에 생성이 된다는...

나도 AI 팟 캐스트 만들어 봄 (손에 잡히는 경제?!) 요즘 노트북LM 이 핫하다고 하여 나도 한번 만들어 봄 요기로 들어가시면 됩니다. https://notebooklm.google.com/ 로그인 - Google 계정이메일 또는 휴대전화accounts.google.com 위 링크로 들어가서 팟캐스트를 만들고 싶은 내용의 Txt 파일을 하나 만들어서 첨부 합니다. 제가 만들어 본 파일은 한화 그룹의 경영권 승계 와 한화에어로스페이스의 주가 방향에 관한 내용이었어요~ (아래 블로그 글 참고)https://buffpickfolio.tistory.com/2 [위런버픽-복기] 🏢한화 새 시대 개막, 경제에 어떤 바람이 불까?4월 한화 그룹의 경영 승계가 완료되면서 나타날 경제적 변화와 그 영향에 대해 다양한 각도로 살펴볼 필요가 있어 보이네. 회장님 어디가세..

ComfyUI 로 동영상 만들기 (Hunyuan gguf) 오픈소스 AI video에서 큰 관심을 끌고 있는 tencent의 HunyuanVideo 라고 하여 바로 따라해봤습니다. 우선 작업 중이라서 기록 https://comfyanonymous.github.io/ComfyUI_examples/hunyuan_video/ ComfyUI 와 GGUF 커스텀 노드 전부 업데이트 해야 함아래 Youtube 참고 https://www.youtube.com/watch?v=CZKZIPGef6s https://www.cognibuild.ai/hunyuan-gguf-necessary-models 시키는데로 잘 하면 동영상 생성 성공~!!

가성비 AI 컴퓨터 조립 사양 (GPU 16G - ollama, comfyui 용 컴퓨터) 얼마전 PC 가 상태가 좋지 않아 컴퓨터를 알아보기 시작 했다. Flux, StableDiffusion 등의 모델을 돌려보려면 최소 GPU 메모리가 16기가는 되어야 겠다고 생각 해서 이것 저것 알아보기 시작 했다. 그러나 역시 부족한 자금 사정사양은 높여야 겠고 예산은 한정되어 있으니 요래 저래 알아봐서 구매한 내용을 공유(본의 아니게 부품째 와서 직접 설치 까지ㅠㅠ) 내가 구매한 이력이다. PC견적 29871534CPU: AMD 라이젠5-4세대 7500F (정품) (멀티팩)208,460원 (1개)-거래완료PC견적 29871535쿨러/튜닝: JONSBO CR-1000 EVO AUTO RGB (블랙)25,530원 (1개)-거래완료PC견적 29871536메인보드: ASRock B650M PG Light..

Perplexity SKT 무료 (ChatGPT, Flux 무료) 유료로 사용하던 ChatGPT를 무료로 사용하는 방법이 생겼다. SKT 고객만 가능, 1년 동안 무료!! 진짜 좋다. 아래 링크 통해서 가입하고 사용해 본다. ChatGPT 구독은 바로 해지 했다. https://perplexity.sktadotevent.com/ SKT 에이닷 & Perplexity오직 SKT 고객만 누릴 수 있는 AI 혜택! Perplexity Pro를 1년간 무료로 이용하세요.perplexity.sktadotevent.com 설정에서 GPT-4o 를 고를 수가 있다. 그리고 요즘 이미지 생성 진짜 잘하는 Flux 도 무료로 사용이 가능하다. 요즘은 Flux 로 이미지 만들어서 회의자료에도 사용 한다. 이미지 생성은 영어로 만들어야 좀 더 잘 됨~ 검색 말고 텍스트 생성..

Qwen2-VL 맥북에서 써보기 (M1 max) 맥북에서 Qwen2-VL 이미지 읽는 AI 를 사용해 봄이미지만 보여주고 생성한 Text 인데 2B 모델인데도 생각보다 잘 됐다. 모바일에 넣는 방법도 알아봐야겠다. import torchfrom transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessorfrom qwen_vl_utils import process_vision_infofrom PIL import Imagefrom pathlib import Pathimport sys# Toggle to switch between full response and extracted descriptionOUTPUT_FULL_RESPONSE = False# Ensure ..

한글 젤 잘 보는 이미지 모델 Qwen2-VL 며칠전 MS 의 phi-3.5-vision 을 써보고 이걸 개선 해야 겠다 싶었는데... 어마무시한 놈이 등장https://qwen2.org/vl/https://qwenlm.github.io/blog/qwen2-vl/ Qwen2-VL: To See the World More ClearlyDEMO GITHUB HUGGING FACE MODELSCOPE API DISCORD After a year’s relentless efforts, today we are thrilled to release Qwen2-VL! Qwen2-VL is the latest version of the vision language models based on Qwen2 in the Qwen model familities. Compa..

그림 제일 잘 그리는 AI - Flux 윈도우에 설치 요즘 가장 핫한 그림 그리는 AI 는 Flux 라고 하여 내 사양 낮은 컴터에서도 돌아가는지 설치~ 우선 ComfyUI 라는 Tool 설치 https://github.com/comfyanonymous/ComfyUI GitHub - comfyanonymous/ComfyUI: The most powerful and modular diffusion model GUI, api and backend with a graph/nodes interfaceThe most powerful and modular diffusion model GUI, api and backend with a graph/nodes interface. - comfyanonymous/ComfyUIgithub.com windows에 Direct L..

이전 1 2 3 다음

티스토리툴바