[8/12 - 8/18] GitHub Weekly Digest

August 18, 2024

📌 hacksider/Deep-Live-Cam

Description: real time face swap and one-click video deepfake with only a single image
🌐 Python|⭐️ 24,889

簡介

  • Deep-Live-Cam 是一個 AI 驅動的軟體,專為製作替換臉部影片而設計。
  • 該軟體能夠將一個人的臉部替換到另一個人的臉部,或替換到影片或圖片中。
  • 軟體內建檢查機制,防止處理不適當的媒體,例如裸露、暴力內容或戰爭影像。
  • 開發人員致力於以負責任和合乎道德的方式發展這個軟體。
  • 使用者需要了解並遵守相關法律,並在使用真實人物的臉部時,需取得當事人的同意。

主要功能

  • 將一個人的臉部替換到另一個人的臉部。
  • 將一個人的臉部替換到影片或圖片中。
  • 支援多種執行環境,包括 CPU、GPU、Apple Silicon、Windows 和 Intel。
  • 提供多種框架處理器,例如 face_swapper 和 face_enhancer。
  • 支援調整輸出影片的幀率、音訊和臨時框架。
  • 支援處理多個臉部。

如何使用

  • 安裝 Python 3.10、pip、git、ffmpeg 和 Visual Studio 2022 執行時期(Windows)。
  • 從 GitHub 複製儲存庫:https://github.com/hacksider/Deep-Live-Cam.git
  • 下載 GFPGANv1.4 和 inswapper_128_fp16.onnx 模型,並將其放在 "models" 資料夾。
  • 安裝相依套件:pip install -r requirements.txt
  • 根據您的硬體環境,選擇對應的執行環境並安裝相依套件。
  • 執行 python run.py 命令。
  • 選擇要替換的臉部圖片和目標圖片/影片,並點選 "Start"。
  • 在選定的輸出目錄中,會建立一個名為 <video_title> 的資料夾,其中包含即時替換的框架。
  • 完成處理後,會生成輸出檔案。
  • 對於使用網路攝影機模式,只需按照螢幕截圖上的點選操作即可。
  • 選擇臉部圖片並點選 "Live"。
  • 等待幾秒鐘,預覽就會顯示出來(通常需要 10 到 30 秒)。
  • 使用您最喜歡的螢幕擷取軟體進行串流,例如 OBS。
  • 若要更改臉部,只需選擇另一張圖片,預覽模式會重新啟動(因此請等待片刻)。
  • 您可以使用以下命令列引數來調整軟體的行為。
    • -s SOURCE_PATH:選擇來源圖片。
    • -t TARGET_PATH:選擇目標圖片或影片。
    • -o OUTPUT_PATH:選擇輸出檔案或目錄。
    • --frame-processor:選擇框架處理器。
    • --keep-fps:保留原始幀率。
    • --keep-audio:保留原始音訊。
    • --keep-frames:保留臨時框架。
    • --many-faces:處理所有臉部。
    • --vi:開啟虛擬相機。

📌 lllyasviel/stable-diffusion-webui-forge

Description:
🌐 Python|⭐️ 6,285

簡介

  • Stable Diffusion WebUI Forge 是建立在 Stable Diffusion WebUI (基於 Gradio) 之上的平臺,旨在簡化開發、最佳化資源管理、加速推論並研究實驗性功能。
  • Forge 的命名靈感來自「Minecraft Forge」,目標是成為 SD WebUI 的 Forge。
  • Forge 目前基於 SD-WebUI 1.10.1 版本。
  • Forge 每 90 天或在出現重要修復時會與原始 WebUI 同步。

主要功能

  • 提供原生 Flux BNB NF4 / GGUF Q8/Q5/Q4 支援,包含 GPU 權重滑桿、佇列/非同步交換開關和交換位置開關。
  • 提供所有 Flux BNB NF4 / GGUF Q8/Q5/Q4 的原生 LoRA 支援。
  • 提供一個點選安裝套件,包含 Git 和 Python。
  • 支援多個 CUDA/Torch 版本。
  • 包含一個 UnetPatcher 程式碼,用於實作 FreeU V2。

如何使用

  • 若您熟悉 Git 並想將 Forge 作為 SD-WebUI 的另一個分支安裝,請參閱 這裡
  • 您也可以使用與 SD-WebUI 相同的方式安裝 Forge (安裝 Git、Python、從 Github 克隆 Forge 儲存庫,然後執行 webui-user.bat)。
  • 您可以使用單點選安裝套件進行安裝,該套件包含 Git 和 Python。
  • 下載安裝套件後,解壓縮並執行 update.bat 更新,然後執行 run.bat 啟動。
  • 建議執行 update.bat,否則可能會使用舊版本,其中可能存在未修復的錯誤。
  • 您可以在 這裡 下載舊版本。
  • 使用 Forge 時,請注意「Forge Status」欄位,並根據欄位中顯示的資訊進行操作。
  • 若遇到問題,請在 Github 上提交問題。
  • 若您沒有遇到問題,請重新安裝 Forge。

📌 comfyanonymous/ComfyUI

Description: The most powerful and modular diffusion model GUI, api and backend with a graph/nodes interface.
🌐 Python|⭐️ 47,016

簡介

ComfyUI 是一款強大的 Stable Diffusion 影象生成工具,以圖形介面為基礎,支援 SD1.x, SD2.x, SDXL, Stable Video Diffusion, Stable Cascade, SD3 和 Stable Audio。

主要功能

  • 圖形介面,支援建立複雜的 Stable Diffusion 工作流程。
  • 支援多種 Stable Diffusion 模型,例如 SD1.x, SD2.x, SDXL, Stable Video Diffusion, Stable Cascade, SD3 和 Stable Audio。
  • Asynchronous Queue system。
  • 記憶體管理最佳化,可在低記憶體環境下執行。
  • 支援 CPU 執行 (速度較慢)。
  • 支援載入 ckpt, safetensors 和 diffusers 模型/檢查點。
  • 支援獨立 VAEs 和 CLIP 模型。
  • 支援 Embeddings/Textual inversion。
  • 支援 Loras (regular, locon 和 loha)。
  • 支援 Hypernetworks。
  • 支援從 PNG, WebP 和 FLAC 檔案載入完整工作流程 (含 seed)。
  • 支援將工作流程儲存為 Json 檔案。
  • 支援建立複雜工作流程,例如 Hires fix。
  • 支援 Area Composition。
  • 支援使用普通模型和 Inpainting 模型進行 Inpainting。
  • 支援 ControlNet 和 T2I-Adapter。
  • 支援 Upscale 模型 (ESRGAN, ESRGAN 變體, SwinIR, Swin2SR, etc...)。
  • 支援 unCLIP 模型。
  • 支援 GLIGEN。
  • 支援模型合併。
  • 支援 LCM 模型和 Loras。
  • 支援 SDXL Turbo。
  • 支援 AuraFlow。
  • 支援 HunyuanDiT。
  • 支援 Latent 預覽 (TAESD)。
  • 啟動速度快。
  • 支援離線工作。
  • 支援自訂模型路徑。

如何使用

  • 透過圖形介面建立工作流程。
  • 執行工作流程並生成影象。
  • 載入或儲存工作流程。
  • 使用快捷鍵控制 ComfyUI。
  • 使用 python main.py 執行 ComfyUI。
  • 使用 --cpu 選項在 CPU 上執行 ComfyUI。
  • 使用 --directml 選項在 DirectML 上執行 ComfyUI。
  • 使用 HSA_OVERRIDE_GFX_VERSION 環境變數解決 AMD 顯示卡支援問題。
  • 使用 (), {}\ 控制提示字元。
  • 使用拖放的方式載入已生成的影象,並獲得其對應的 seed 和工作流程。

📌 OpenBMB/MiniCPM-V

Description: MiniCPM-V 2.6: A GPT-4V Level MLLM for Single Image, Multi Image and Video on Your Phone
🌐 Python|⭐️ 10,667

簡介

  • MiniCPM-V 是一系列針對視覺語言理解而設計的端側多模態大型語言模型 (MLLM)。
  • 模型接受影象、影片和文字作為輸入,並提供高品質的文字輸出。
  • 自 2024 年 2 月以來,我們已經發布了 5 個版本的模型,旨在實現強大的效能和高效的部署。
  • 目前該系列中最引人注目的模型包括 MiniCPM-V 2.6 和 MiniCPM-Llama3-V 2.5。

主要功能

  • MiniCPM-V 2.6:
    • 是 MiniCPM-V 系列中最新的也是功能最強大的模型。
    • 包含 80 億個引數,在單一影象、多影象和影片理解方面超越了 GPT-4V。
    • 在單一影象理解方面優於 GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet。
    • 提升了 MiniCPM-Llama3-V 2.5 的功能,例如強大的 OCR 能力、可靠的行為、多語言支援和端側部署。
    • 憑藉其優異的 token 密度,MiniCPM-V 2.6 可以首次在 iPad 等端側裝置上支援實時影片理解。
  • MiniCPM-Llama3-V 2.5:
    • 是 MiniCPM-V 系列的最新模型。
    • 具有強大的 OCR 能力,在 OCRBench 上得分超過 700 分,超過了 GPT-4o、GPT-4V-0409、Qwen-VL-Max 和 Gemini Pro 等專有模型。
    • 展現出更值得信賴的行為,在 Object HalBench 上的幻覺率低於 GPT-4V-1106 (13.6%),在開源社群中取得最佳效能。
    • 支援 30 多種語言,包括德語、法語、西班牙語、義大利語、韓語等。
  • MiniCPM-V 2.0:
    • 是 MiniCPM-V 系列中最輕量級的模型。
    • 包含 20 億個引數,在整體效能方面超越了 Yi-VL 34B、CogVLM-Chat 17B 和 Qwen-VL-Chat 10B 等較大的模型。
    • 可以接受任何縱橫比和最高 180 萬畫素的影象輸入(例如 1344x1344),在理解場景文字方面與 Gemini Pro 的效能相當,在低幻覺率方面與 GPT-4V 相匹配。

如何使用

  • 安裝:
    • 克隆此倉庫並導航到原始檔夾。
    • 建立 conda 環境。
    • 安裝依賴項。
  • 模型庫:
    • 可用於 CPU 和 GPU 裝置,並提供不同大小的模型下載。
  • 推理:
    • 支援多回合對話、多影象聊天、上下文少樣本學習和影片聊天。
    • 支援使用 llama.cpp、ollama 和 vLLM 等框架進行推理。
  • 微調:
    • 支援使用 LoRA 和 SWIFT 等框架進行微調。
  • 部署:
    • 支援在 Mac、移動裝置和多個 GPU 上進行部署。
    • 提供線上和本地的 WebUI демонстрации。

📌 twbs/bootstrap

Description: The most popular HTML, CSS, and JavaScript framework for developing responsive, mobile first projects on the web.
🌐 JavaScript|⭐️ 169,728

簡介

Bootstrap 是一個快速且易於使用的前端框架,提供美觀、直觀且功能強大的工具,用於加速網頁開發。

主要功能

  • 提供預先設計的 CSS 和 JavaScript 元件,例如按鈕、導航、卡片、模態視窗等。
  • 提供響應式設計功能,確保網站能適應各種螢幕尺寸。
  • 提供網格系統,用於輕鬆佈局網頁內容。
  • 提供豐富的工具函式,例如顏色、字型、間距等。

如何使用

  • 下載最新版本。
  • 使用 git clone 命令複製儲存庫:git clone https://github.com/twbs/bootstrap.git
  • 使用 npm 安裝:npm install bootstrap@v5.3.3
  • 使用 yarn 安裝:yarn add bootstrap@v5.3.3
  • 使用 Composer 安裝:composer require twbs/bootstrap:5.3.3
  • 使用 NuGet 安裝:CSS:Install-Package bootstrap Sass:Install-Package bootstrap.sass
  • 參閱「入門」頁面,瞭解框架內容、範本、範例等資訊。
  • 閱讀檔案,瞭解如何使用 Bootstrap。
  • 參與社群,獲取更新並與開發者交流。