Flora | I tuoi Dati. La tua AI. La tua Infrastruttura.

Operativo in pochi minuti

Il deployment di base e distribuito come stack componibile con confini di servizio chiari. Inizia con Docker Compose per la validazione locale, poi passa a Kubernetes con Helm quando hai bisogno di controlli di produzione.

Panoramica architetturale

Un ambiente Flora tipico si basa su servizi indipendenti che possono scalare separatamente in base al carico.

Doctor gestisce ingestione ed estrazione normalizzata dalle sorgenti documentali aziendali.
TEI genera embeddings in locale e alimenta le collezioni vettoriali in Qdrant.
Qdrant applica vincoli in fase di retrieval con metadati e filtri basati sul ruolo.
vLLM fornisce generazione a bassa latenza con PagedAttention per un uso efficiente della GPU.

Installazione

Usa uno dei comandi seguenti per avviare Flora in un ambiente controllato. Sostituisci image tag e values file in base alla tua policy di rilascio.

Pipeline di Ingestione

I connettori Doctor possono essere configurati per i sistemi di knowledge interni, cosi parsing e normalizzazione restano completamente nel tuo perimetro di rete.

Formati supportati

Di default, Flora supporta PDF, DOCX, TXT e allegati metadata strutturati per un'ingestione tracciabile.

Embeddings

Distribuisci TEI vicino al layer API per ridurre la latenza di embedding e mantenere interno tutto il traffico di vettorizzazione.

Selezione modello

Scegli modelli multilingua o specializzati per dominio in base a target di recall, budget memoria e requisiti di throughput.

Vector Storage

Definisci strategia di shard e replica in Qdrant in funzione della dimensione delle collezioni, degli SLA e degli obiettivi di tolleranza ai guasti.

Filtri RBAC

Associa metadati di ruolo in fase di ingestione e applica payload filter durante il retrieval, cosi i chunk non autorizzati non arrivano alla generazione.

Inferenza

Ottimizza lunghezza massima del modello, batch size e concorrenza richieste per stabilizzare la latenza sotto picco.

PagedAttention

PagedAttention ottimizza il paging della memoria per la gestione della KV cache, consentendo serving ad alto throughput con utilizzo GPU prevedibile.

Riferimento API

La superficie API di Flora include endpoint per ingestione, ricerca, generazione risposte e amministrazione. Usa questa sezione per integrare servizi e automatizzare i workflow platform.

Introduzione a Flora