Скрыть объявление
Здравствуйте Гость! Не нашли ответа на свой вопрос? Зарегистрируйтесь на форуме, чтобы стать полноценным участником сообщества и задайте свой вопрос! Вам обязательно помогут!

С чего начать парсинг текстаь?

Тема в разделе "Раздел для новичков", создана пользователем antoha487, 9 окт 2017.

  1. antoha487

    antoha487 Пользователь

    Сообщения:
    793
    Симпатии:
    0
    Всем спасибо, кеев напасил, теперь надо текст напарсить. Помогите, с чего начать?
     

  2. fandasc

    fandasc Пользователь

    Сообщения:
    4.028
    Симпатии:
    0
    Начни с выбора тематики.
     
  3. shuba

    shuba Пользователь

    Сообщения:
    998
    Симпатии:
    0
    вводишь в гугле Книги .txt

    ВСЕ! Текст есть!
     
  4. misterik445

    misterik445 Пользователь

    Сообщения:
    212
    Симпатии:
    0
    а теперь смотри что тебе написали и объядиняй=)
    выбираешь тематику, воодишь в гугле книги txt скачиваешь по тематике книги и текст есть=)
    а еще можешь не заморачиваться с тематикой и брать книги по истории какаой-нить вымершей цивилизации
    P.S. долго же ты кеи парсил
     
  5. itasw

    itasw Пользователь

    Сообщения:
    6.655
    Симпатии:
    0
    Текст перемешиваем или оставляем как есть. При условии что текст, конечно, не уникальный.
    У кого какие наблюдения по этому поводу?
     
  6. Daneon

    Daneon Пользователь

    Сообщения:
    74
    Симпатии:
    0
    По моему мнению это зависит от совокупности факторов. Как вариант, взять уже выбранные составляющие (о них не сейчас) и добавить к ним в одну экспериментальную пачку копипаст, в другую перемешанные по точкам, в третью по запятым. То есть мы имеем какой-то уровень сайта и узнаем, текст какого вида добавляет этому уровню столько баллов, сколько хватит для того, чтобы находиться в индексе на хороших позициях. Да и копипаст разный бывает...
     
  7. Vasiaka

    Vasiaka Пользователь

    Сообщения:
    14.478
    Симпатии:
    0
    Сто раз уже обсасывалось. Качаешь архив какой-нить библиотеки с торрентов в fb2. Пары гигов за глаза. Конвертишь в txt и чистишь чистилкой текстов на пыхе, которую тут уже неоднократно выкладывали.

    Написал статейку.
     
  8. itasw

    itasw Пользователь

    Сообщения:
    6.655
    Симпатии:
    0
    Уже качаю
     
  9. antoha487

    antoha487 Пользователь

    Сообщения:
    793
    Симпатии:
    0
    Что-то одного немогу понять, если я людям предлагаю построить дом, мне же нужеа и страничка о том что я предлагаю построить дом. Зачем мне куча книг? Или как, короче запутался.
     
  10. Vasiaka

    Vasiaka Пользователь

    Сообщения:
    14.478
    Симпатии:
    0
    Буковки из книг будешь использовать как контент. А тематичность ему придать уже задача доргена - разбивка ключей на части.
     
  11. antoha487

    antoha487 Пользователь

    Сообщения:
    793
    Симпатии:
    0
    В оффлайне щас бывать чаще начал))
     
  12. antoha487

    antoha487 Пользователь

    Сообщения:
    793
    Симпатии:
    0
    Общем понял, он сам все сделает, токо нужен контент по строительству
     
  13. Vasiaka

    Vasiaka Пользователь

    Сообщения:
    14.478
    Симпатии:
    0
    Нифига ты не понял) При генерации дорген разобьет кеи на части (если умеет конечно), а то и вовсе морфологически обработает их, и вставит в текст. Таким образом текст становится тематическим. И не важно какая тематика была изначально. Разве что адалт не стоит использовать.
     
  14. antoha487

    antoha487 Пользователь

    Сообщения:
    793
    Симпатии:
    0
    Точно непонял нифига, если тематика была про выпечку булочек, как она станет про строительство хз. Ну да ладно, создам первый дор, там видно будет.
     
  15. Vasiaka

    Vasiaka Пользователь

    Сообщения:
    14.478
    Симпатии:
    0
    В тексте появятся слова из строительной тематики. Будет куча анкоров строительной тематики - это все текст. И по нему будет определятся принадлежность к той или области. Или ты думаешь яшка понимает написаное и с удовольствием полистывает классику в перерывах между маразмами?
     
  16. antoha487

    antoha487 Пользователь

    Сообщения:
    793
    Симпатии:
    0
    )) Мне тут особо думать не нужно пока что, нужно впитывать как губка, я незнаю просто, вот и всё. Поэтому и вопросы задаю, хотя за...л всех уже. Но что-то так тяжело лезет в голову капец, может я тугой, а может образ мышления перестраивается, но лезет оч. тяжело
     
  17. Vasiaka

    Vasiaka Пользователь

    Сообщения:
    14.478
    Симпатии:
    0
    Если заипешь, то отвечать перестанут. Такой вот нехитрый критерий. Так что рано ты орден мозгодера примеряешь)
     
  18. IBlackPraktik

    IBlackPraktik Пользователь

    Сообщения:
    1.131
    Симпатии:
    0
    может я тугой - не то тебе тока так кажется
     
  19. Vasiaka

    Vasiaka Пользователь

    Сообщения:
    14.478
    Симпатии:
    0
    Перекрестись, если кажется)) Ты же будущий поп, должен все фишки знать))
     
  20. antoha487

    antoha487 Пользователь

    Сообщения:
    793
    Симпатии:
    0
    Ну может когда-то дьяконом буду, если Богу угодно будет. Тады закину пару словечек за вас грешников Всевышнему
     
Черновик сохранён Черновик удалён
Загрузка...