[PYTHON:TODAY]

😱

HunyuanOCR — это не обычный OCR, который путает буквы и плачет от плохого качества.

Распознаёт текст на фото, сканах и даже кривых телефонных снимках с точностью, что ставит Google Vision в неловкое положение.

Что умеет:

📸

Считывает текст на любых изображениях — документы, фото, меню, вывески, рукописные заметки.

🧠

Мощная модель от Tencent — понимает структуру, расположение блоков, выделяет зоны текста.

🌚

Работает даже на плохих фото — шум, тени, наклон, бликующий экран — распознаёт всё.

😰

Есть Python-интерфейс — можно встроить в бота, сервис или свою автоматизацию.

🗂

Разбирает сложные макеты — таблицы, колонки, многостраничные файлы.

🆓

Полностью бесплатно и open-source.

Где будет полезно:
🟢делай сервис распознавания чеков и документов;
🟢автоматизируй ввод данных для бизнеса;
🟢продавай обработку сканов на фрилансе;
🟢собирай «умного» Telegram-бота для OCR;
🟢создавай SaaS под маркетплейсы и бухгалтерию.

Пример использования:

from vllm import LLM, SamplingParams
from PIL import Image
from transformers import AutoProcessor

def clean_repeated_substrings(text):
    """Clean repeated substrings in text"""
    n = len(text)
    if n<8000:
        return text
    for length in range(2, n // 10 + 1):
        candidate = text[-length:] 
        count = 0
        i = n - length
        
        while i >= 0 and text[i:i + length] == candidate:
            count += 1
            i -= length

        if count >= 10:
            return text[:n - length * (count - 1)]  

    return text

model_path = "tencent/HunyuanOCR"
llm = LLM(model=model_path, trust_remote_code=True)
processor = AutoProcessor.from_pretrained(model_path)
sampling_params = SamplingParams(temperature=0, max_tokens=16384)

img_path = "/path/to/image.jpg"
img = Image.open(img_path)
messages = [
    {"role": "system", "content": ""},
    {"role": "user", "content": [
        {"type": "image", "image": img_path},
        {"type": "text", "text": "检测并识别图片中的文字，将文本坐标格式化输出。"}
    ]}
]
prompt = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = {"prompt": prompt, "multi_modal_data": {"image": [img]}}
output = llm.generate([inputs], sampling_params)[0]
print(clean_repeated_substrings(output.outputs[0].text))

♎️

GitHub/Инструкция

#python #soft #github

Please open Telegram to view this post

VIEW IN TELEGRAM

👍48🔥30❤3

13.6K views15:42

[PYTHON:TODAY]

Forwarded from 404

😮

ИМБА! Nano Banana Pro теперь в полном безлимите — и бесплатно!

Лучшую фотонейросеть завезли на LMarena, и пользоваться ей можно даже без 3БУКВЫ и без регистрации.

🥇 Модель генерирует любые сцены, стили, лица и композиции — быстро, детально и без «каши». Лимиты есть, но такие щедрые, что для обычного пользователя это фактически полный безлимит.

Самое время клепать крутые фотки и арты!

➡️

Сохраняем и пробуем ТУТ

#нейросеть #soft

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥35👍13❤4🤯3

13.3K views09:33

About

Blog

Apps

Platform