Скрыть объявление
Здравствуйте Гость! Не нашли ответа на свой вопрос? Зарегистрируйтесь на форуме, чтобы стать полноценным участником сообщества и задайте свой вопрос! Вам обязательно помогут!

Где брать текст для дорвея?

Тема в разделе "Сайтостроение, настройка и технические вопросы", создана пользователем Vasiaka, 22 сен 2017.

  1. Vasiaka

    Vasiaka Пользователь

    Сообщения:
    14.478
    Симпатии:
    0
    Существует несколько путей добычи текстового контента для дорвеев. Разберем некоторые из них.

    Текстовка из книг.

    Самый простой и доступный каждому – книги. Идем на любой торрент трекер и вбиваем в поиск «библиотека fb2». Десятки гигабайт нам не нужны, но парочку мы скачаем. Книги должны быть именно в fb2 формате, который мы сконвертируем в txt простенькой бесплатной программой FB2toAny.

    Полученные тексты объединяем в один файл и бьем на части по 100мбайт с помощью KWK Не качайте пятую верcию, она глючная.

    Контент из книг необходимо очистить от разного рода не нужного нам мусора – знаков прямой речи и аббревиатур и прочего.

    После обработки получается очищенный текстовый контент для дорвеев. Отлично лезет при мешанке случайными предложениями или стыковкой по запятым.

    Парсинг тематического контента.

    Для этой цели нам понадобится парсер контента. Я остановил свой выбор на UniParser
    Мануал по нему писать не уду, все есть на блоге автора.

    Спаршеный контент при необходимости также можно очистить упомянутым выше скриптом.

    Генераторы контента.

    Тут могу упомянуть лишь генератор zerber`а, который генерит морфологически правильный контент, а с версий выше 3.1.3 учитывает частотность слов в тексте и позволяет генерить контент любой тематики, основываясь на анализе скормленных ему текстов.
     

  2. Raptor

    Raptor Пользователь

    Сообщения:
    863
    Симпатии:
    0
    А яндекс не распознает что контент литературный, а не веб?
     
  3. Vasiaka

    Vasiaka Пользователь

    Сообщения:
    14.478
    Симпатии:
    0
    Так он очищается от всех признаков литературности. Да и не чищеный попадается часто в выдаче.

    Лезет наура. За последние два апа больше 100 тыс паг влетело.
     
  4. sw666

    sw666 Пользователь

    Сообщения:
    98
    Симпатии:
    0
    а с версий выше 3.1.3 учитывает частотность слов в тексте и позволяет генерить контент любой тематики

    Можно здесь по-подробней, не нашёл в софте, тулзу скормить?

    upd: кажется нашёл =), пшёл заводить мопед.
     
  5. Vasiaka

    Vasiaka Пользователь

    Сообщения:
    14.478
    Симпатии:
    0
    Версия с этим функционалом еще не вышла))) Будет в следующем апдейте. Вписал сразу, чтобы потом не править и не вписывать кучу но в отношение нынешнего цербера.
     
  6. sw666

    sw666 Пользователь

    Сообщения:
    98
    Симпатии:
    0
    Уж было обрадовался.
    Создал поддиректорию с txt файлами в папке zerber\Doorgen\Subjects\
    Втематика текста - данная папочка появилась, а вот в результатах не заметно чо-то
     
  7. Vasiaka

    Vasiaka Пользователь

    Сообщения:
    14.478
    Симпатии:
    0
    Обрадуешься скоро, если спартанец с обновлением не затянет
     
  8. converse

    converse Пользователь

    Сообщения:
    2.077
    Симпатии:
    0
    Ещё можно брать текст(уник) с контакта, многие парсят/парсили обсуждение, всё это фигня, есть вот такие группы там текста мама не горюй, 100500 фанфивок по сумеркам, я раньше на сателиты растягивал)
     
  9. itasw

    itasw Пользователь

    Сообщения:
    6.655
    Симпатии:
    0
    По работе скрипта следующий вопрос: прогоняю им текстовку 114M на выходе получаю 40M. Не многовато ли режет ? Может стоить снять некоторые 'галочки' при для фильтрации?
     
  10. sergeevich

    sergeevich Пользователь

    Сообщения:
    1.998
    Симпатии:
    0
    конкурент мануала по дорвеям набирает обороты.... начало 2го сезона
     
  11. asfvanasf

    asfvanasf Пользователь

    Сообщения:
    4.270
    Симпатии:
    0
    да не, этот тред ему не конкурент
     
  12. asdens

    asdens Пользователь

    Сообщения:
    2.109
    Симпатии:
    0
    В среднем на 100.000 страниц доров сколько метров текста будет достаточно? При рандомных строчках.
     
  13. asfvanasf

    asfvanasf Пользователь

    Сообщения:
    4.270
    Симпатии:
    0
    смотря сколько текста на пагу.
    если предложений 5, то пяти мегабайт будет достаточно, а если простыни на 3 экрана, то поболее требуется)
     
  14. itasw

    itasw Пользователь

    Сообщения:
    6.655
    Симпатии:
    0
    2-я часть уже не торт...

    Если хочешь примерно точных цифр, смотри выдачу.
    Выборка из 10-50-...-100500 доров даст тебе точный ответ.
     
  15. asfvanasf

    asfvanasf Пользователь

    Сообщения:
    4.270
    Симпатии:
    0
    ну а что делать? предыдущая растолстела слишком(
     
  16. itasw

    itasw Пользователь

    Сообщения:
    6.655
    Симпатии:
    0
    Да раньше и трава была зеленее, и иже с ней ... в 1-й части там все разрулили от и до.
    1-Г текстовки - да нехрен баловаться соберешь за пару часов. Хватит на долго
     
  17. misterik445

    misterik445 Пользователь

    Сообщения:
    212
    Симпатии:
    0
    народ, подскажите плз чем можно переконвертировать .doc в .txt? ну так чтобы 3200 файлов =)
     
  18. HAGEMANN

    HAGEMANN Пользователь

    Сообщения:
    467
    Симпатии:
    0
    режет конечно много, но все в пределах опций, так что никто не мешает накачать текста больше, чтобы и чищенного текста вышло тоже больше
     
  19. itasw

    itasw Пользователь

    Сообщения:
    6.655
    Симпатии:
    0
    Ну это понятно
     
  20. fandasc

    fandasc Пользователь

    Сообщения:
    4.028
    Симпатии:
    0
    Ты тест сам что ли пишешь?
    Как говорил Великий Вождь:Лучше меньше, да лучше.
     
Черновик сохранён Черновик удалён
Загрузка...