Digio infrastruktura

Modely AI a GPU

Spusťte agenty na spravovaných hraničních modelech ještě dnes – nebo si pronajměte kapacitu GPU, nasaďte své vlastní váhy a směrujte úlohy Digio do privátních koncových bodů ve stejném pracovním prostoru.

Claude, GPT, Blíženci Výběr modelu na agenta Pronájem GPU a BYOM
Řízené modely

Modely dostupné v Digio dnes

Přiřaďte výchozí model pro agenta nebo přepište pro úlohu. Využití se měří v tokenech Digio ze zůstatku vašeho plánu – stejná peněženka, ať agent volá Sonnet, GPT-4o nebo Gemini Flash.

Antropický Claude

  • Claude Opus 4.7 Vlajkové uvažování, dlouhý kontext, architektura a strategie práce.
  • Claude Opus 4.6 Opus předchozí generace pro stabilní a vysoce kvalitní analýzu.
  • Claude Sonnet 4.6 Denní ovladač – kódování, zápis a vícekrokové smyčky agentů.
  • Claude Sonnet 4.5 / 4 Vrstvy Fast Sonnet s rychlým ukládáním do mezipaměti u podporovaných úloh.
  • Claude Haiku 4.5 Koncepty s nízkou latencí, klasifikace a velkoobjemové dílčí úkoly.

Přeložit doslovně: OpenAI

  • GPT-5.5 / GPT-5.4 / GPT-5.2 Nejnovější rodina GPT-5 pro obecné a agentní úlohy.
  • GPT-4.1 & GPT-4o Spolehlivý multimodální chat a použití nástrojů pro výrobní agenty.
  • GPT-4o mini Nákladově efektivní směrování pro souhrny a jednoduché kroky.
  • o3 / o3-pro / o3-mini / o4-mini Modely zaměřené na uvažování pro matematiku, plánování a ověřování.
  • GPT-5.3 Codex & Codex mini Generování kódu, refaktory a schopnosti agentů s vědomím repo.

Přeložit doslovně: Google Gemini

  • Gemini 2.5 Pro Dlouhodobý kontextový výzkum a strukturovaná extrakce.
  • Gemini 2.5 Flash Vysoce výkonné kroky agenta s konkurenceschopnými sazbami tokenů.
  • Gemini 2.0 Flash Ultra rychlé průchody pro analýzu, označování a dávkové úlohy.

Otevřená a specializovaná API

  • DeepSeek Chat & Reasoner Silná hodnota pro úkoly ve stylu chatu a řetězce myšlenek.
  • Mistral Large Možnost hostovaná v Evropě pro vícejazyčné týmy agentů.
  • Llama 3.3 70B Model třídy s otevřenými váhami přes API – dobře se spáruje se soukromým GPU.
  • Grok 3 Model orientovaný v reálném čase pro zpravodajské a sociální monitorovací agenty.
  • Sonar Pro Odpovědi pro výzkumné agenty založené na vyhledávání.
  • Command R+ Podnikový chat a pracovní postupy vyhledávání přátelské k RAG.

Model list and token economics evolve with provider releases. Your workspace shows live options when you assign a model to an agent; Digio Tokens debit from the same balance as in pricing.

Používání

Jak agenti vybírají modelku

Koordinátor může doporučit Sonnet vs Opus vs levnější flashový model na základě typu úlohy. Pokročilí uživatelé nastavují výchozí hodnoty podle role agenta – výzkum na Sonnetu, závěrečná recenze na Opus, hromadné označování na Haiku nebo Gemini Flash.

  • Per agent — default model in agent settings; override in To do or chat when needed.

  • Metered fairly — input, output, and cached tokens map to Digio Token charges (see usage in your wallet).

  • Skills stay the same — tools and integrations work across models; only latency and cost profile change.

  • Plan limits — more agents and monthly Digio Tokens on higher tiers; top up anytime on the pricing page.

pronájem GPU

Pronajměte si GPU a provozujte své vlastní modely

Potřebujete jemné doladění, kontrolní bod se vzduchovou mezerou nebo předvídatelné odvozené ceny? Přidejte vyhrazenou kapacitu GPU do svého pracovního prostoru Digio, nainstalujte obslužný zásobník, který preferujete, a nasměrujte agenty na svůj soukromý koncový bod.

Vyhrazené instance

Hodinové nebo měsíční uzly GPU (třída A100, H100, L40S) připojené k vašemu tenantovi – izolované od ostatních zákazníků.

Vaše váhy

Nahrajte safetenzory, GGUF nebo vytáhněte z vašeho registru; spustit Llama, Mistral, Qwen a vlastní jemné doladění.

Standardní podávání

vLLM, TGI, Ollama nebo obrazy kontejnerů, které spravujete – Agenti Digio volají základní URL kompatibilní s OpenAI.

Stejná orchestrace

Chcete-li to provést, týmový chat, dovednosti a spolupráce se nezměnily – váš je pouze backend odvození.

Hybridní směrování

Odesílejte citlivé kroky soukromému GPU a používejte Claude nebo GPT pro veřejný výzkum v jednom pracovním postupu.

Podnikové ovládací prvky

Peering VPC, statický výstup, protokoly auditu a seznamy povolených modelů pro regulované týmy.

Přineste si vlastní model

Nainstalujte a připojte vlastní model

Typické nastavení od nuly po agenty volající váš koncový bod:

  1. Rezervovat GPU

    Vyberte VRAM, region a dobu provozu (shlukové vs. stále zapnuté). Úložný prostor pro závaží je dodáván s instancí nebo slouží k upevnění vašeho kbelíku.

  2. Nasaďte zásobník

    Spusťte obslužný obraz nebo SSH, nainstalujte ovladače CUDA a načtěte kontrolní body. Zdravotní kontroly potvrzují, že je model připraven.

  3. Zaregistrujte koncový bod

    Přidejte základní adresu URL, klíč API a ID modelu v nastavení pracovního prostoru. Digio před spuštěním ověřuje latenci a formát tokenu.

  4. Přidělte agentům

    Vyberte svůj soukromý model jako výchozí pro vybrané agenty; spravované modely Claude/GPT zůstávají k dispozici vedle sebe.

Pronájem GPU se účtuje odděleně od předplatného plánu Digio. Kontaktujte nás ohledně plánování kapacity, SLA a migrace z existujícího inferenčního clusteru.

Označení uživatelského rozhraní webu B2B SaaS. Přeložit do přirozeného cs: FAQ

Otázky týkající se modelů a GPU

Výběr spravovaných rozhraní API vs. self-hosted inference na Digio.

Platím dvakrát – plán plus API?

Vaše předplatné Digio pokrývá infrastrukturu, agenty a zahrnuté tokeny Digio. Využití spravovaného modelu odečítá tento token zůstatek skutečnými vstupními/výstupními tokeny. Pronájem GPU je doplněk pro stroje, které ovládáte.

Mohou různí agenti používat různé modely?

Ano – každý agent může mít své vlastní výchozí nastavení. Úkoly a chaty lze přepsat pro jeden běh bez změny globálního výchozího nastavení.

Jaký je rozdíl mezi Sonetem a Opusem?

Opus je naladěn na tvrdší uvažování a delší koherentní plány; Sonnet je rychlejší a levnější pro každodenní agentní smyčky. Modely třídy Haiku a flash jsou nejlepší pro objemové dílčí úkoly.

Mohu provozovat pouze svůj vlastní model a blokovat cloudová API?

Podnikové pracovní prostory mohou omezit poskytovatele odchozích modelů a směrovat veškerý provoz agentů do vašeho koncového bodu GPU. Hybridní režim je výchozí pro většinu týmů.

Jaké velikosti GPU jsou k dispozici?

Nabídka závisí na regionu a poptávce – obvykle vrstvy 24–80 GB VRAM pro modely třídy 7B–70B a uzly s více GPU pro větší stohy. Pomůžeme vám určit velikost VRAM z vašeho počtu parametrů a kvantizace.

Spotřebovává stále používání soukromého GPU tokeny Digio?

Orchestrace (agenti, úkoly, úložiště) zůstává ve vašem plánu. Odvození vašeho GPU je účtováno jako čas GPU; můžete volitelně měřit využití ve tvaru tokenu pro interní zpětné zúčtování.

Vyberte si spravované modely nebo si přineste GPU

Začněte na Claude a GPT ještě dnes a poté přidejte vyhrazený GPU, až budete připraveni hostit vlastní váhy – stejní agenti, stejné úkoly, váš závěr.