Kodduu Python

Использование spaCy для разметки текста — это мощный способ для извлечения информации из текста с помощью различных техник, таких как токенизация, разбор зависимостей, извлечение сущностей и многое другое. Эта разметка может существенно улучшить возможности вашего AI-агента, например, в контексте извлечения данных из текста для последующего анализа, генерации или выполнения операций.

Давайте рассмотрим, как можно использовать spaCy для разметки текста и как она может помочь:

Шаги:
1. Токенизация — Разделение текста на отдельные слова или токены.
2. Часть речи (POS) — Определение частей речи (существительное, глагол и т.д.).
3. Зависимости — Определение связей между словами в предложении.
4. Извлечение сущностей — Выделение именованных сущностей (например, людей, организаций, дат).

Установка spaCy:


pip install spacy
python -m spacy download ru_core_news_sm

Пример кода:


import spacy

# Загружаем модель для русского языка
nlp = spacy.load("ru_core_news_sm")

# Пример текста
text = """
Привет, меня зовут Александр. Я работаю в компании Оккципитал, и сегодня 10 марта 2025 года мы проводим встречу по задачам.
"""

# Применяем модель spaCy к тексту
doc = nlp(text)

# 1. Токенизация (разбиение текста на токены)
print("Токены:")
for token in doc:
    print(token.text)

# 2. Определение частей речи (POS)
print("\nЧасти речи:")
for token in doc:
    print(f"{token.text}: {token.pos_}")

# 3. Разбор зависимостей
print("\nЗависимости:")
for token in doc:
    print(f"{token.text} -> {token.dep_} ({token.head.text})")

# 4. Извлечение именованных сущностей (NER)
print("\nСущности:")
for ent in doc.ents:
    print(f"{ent.text}: {ent.label_}")

Объяснение:

1. Токенизация: В процессе токенизации текст разбивается на отдельные слова и знаки препинания. Это позволяет работать с каждым элементом текста отдельно.

2. Части речи: Каждое слово получает метку части речи. Например, существительные, глаголы, прилагательные и т. д. Это полезно для анализа синтаксической структуры текста.

3. Зависимости: Зависимости помогают понять, как слова связаны друг с другом в предложении. Это позволяет глубже понять структуру предложений и их смысл.

4. Извлечение сущностей: С помощью NER (Named Entity Recognition) можно извлекать важную информацию, такую как имена людей, названия компаний, даты и другие ключевые данные.

Подпишись 👉🏻 @KodduuPython 🤖

⚡3

311 views07:11