Страница 1 из 2 12 ПоследняяПоследняя
Показано с 1 по 10 из 12

Тема: Как работает stemming python stem и как это использовать в реальных проектах?

  1. Как работает stemming python stem и как это использовать в реальных проектах?

    Ребята, привет! Столкнулся с такой штукой, как stemming в python, и особо не понимаю, как оно работать. Кто-то может объяснить, почему это важно и в каких задачах реально используют? Может быть, выделите какие-то библиотеки и киньте пример кода? Было бы круто понять, как это внедрить в настоящий проект, а не просто в песочнице поиграться!



  2. Ждём вас в нашем чате в Телеграмм ==>> @pythoneer_chat

    А ТАКЖЕ: Канал о Python, статьи и книги ==>>
    @pythoneer_ru

  3. Stemming в Python - это короче процесс, когда убираем окончания слов, чтоб свести их к одной основе. Например, 'running' и 'ran' приводим к 'run'. Это важно для поисковых систем, анализа текстов и т.д.

    В Python часто юзают библиотеку nltk. Вот короткий пример:

    Программный код:
    import nltk 
    from nltk
    .stem import PorterStemmer
      
    nltk
    .download('punkt'
    ps PorterStemmer()
      
    words = ['pythoning''pythonic''pythonista''pythonista']
    for 
    w in words
        print(
    ps.stem(w)) 
    Так можно привести все словоформы к одной основе, чтобы дальше работать с текстом.

  4. Цитата Сообщение от Ольчик
    Stemming в Python - это короче процесс, когда убираем окончания слов, чтоб свести их к одной основе. Например, 'running' и 'ran' приводим к 'run'. Это важно для поисковых систем, анализа текстов и т.д.

    В Python часто юзают библиотеку nltk. Вот короткий пример:

    Программный код:
    import nltk 
    from nltk
    .stem import PorterStemmer
      
    nltk
    .download('punkt'
    ps PorterStemmer()
      
    words = ['pythoning''pythonic''pythonista''pythonista']
    for 
    w in words
        print(
    ps.stem(w)) 
    Так можно привести все словоформы к одной основе, чтобы дальше работать с текстом.
    Красава, четко объяснил! Только ты не забыл вроде, что есть еще SnowballStemmer? Он тоже норм, когда нужно всякие экзотические языки обработать.

  5. Ага, еще есть cool libs типа SpaCy. Там можно не только stemming, но и куча других штук сделать, типа named entity recognition (NER). Вот пример с SpaCy:

    Программный код:
    import spacy 
      
    nlp 
    spacy.load('en_core_web_sm'
    doc nlp('text processing with python is fun'
    for 
    token in doc
        print(
    token.texttoken.lemma_token.pos_
    Лемматизация в SpaCy по сути близка к stemming. Советую попробовать.

  6. Цитата Сообщение от Valentin
    Ага, еще есть cool libs типа SpaCy. Там можно не только stemming, но и куча других штук сделать, типа named entity recognition (NER). Вот пример с SpaCy:

    Программный код:
    import spacy 
      
    nlp 
    spacy.load('en_core_web_sm'
    doc nlp('text processing with python is fun'
    for 
    token in doc
        print(
    token.texttoken.lemma_token.pos_
    Лемматизация в SpaCy по сути близка к stemming. Советую попробовать.
    Хороший пример! Но кодика многовато для начинающих, мож стоит сначала на nltk сосредоточиться, а потом уже заморачиваться с SpaCy?

  7. Еще прикол в том, что stemming может быть не точным в некоторых случаях. Например, 'better' -> 'bett'. Тут можно юзать чисто для улучшения поиска или текстовой аналитики на начальных этапах, но не полагаться на это 100%.

  8. Цитата Сообщение от StealthMaster
    Еще прикол в том, что stemming может быть не точным в некоторых случаях. Например, 'better' -> 'bett'. Тут можно юзать чисто для улучшения поиска или текстовой аналитики на начальных этапах, но не полагаться на это 100%.
    Да, это true, если нужно точность, лучше крутить что-то сложное типа лемматизации или даже семантические модели. Для быстрых результатов, stemming норм.

  9. Чуваки, если вам вообще влом код писать, есть готовые инструменты типа ElasticSearch. Это тебе и быстрый поиск и stemming на лету! Чистая мощь без заморочек.

  10. Цитата Сообщение от DashParr
    Чуваки, если вам вообще влом код писать, есть готовые инструменты типа ElasticSearch. Это тебе и быстрый поиск и stemming на лету! Чистая мощь без заморочек.
    Лоу, ElasticSearch тема! Только для маленьких проектов может оверхедом оказаться. Но для Enterprise точно мега решение.

Страница 1 из 2 12 ПоследняяПоследняя