Чи існує програмне забезпечення, яке виконує текстовий аналіз в блогах? [зачинено]


8

Моя компанія прагне створити PivotViewer візуалізацію клієнтських публікацій Wordpress 2 за останні 11 років. Для цього, однак, нам потрібно відредагувати дещо випадкові, неповні та загалом погані теги для використання як категорії сортування. Я шукаю інструмент, який аналізуватиме їх записи в блозі та здійснюватиме підрахунок слів, щоб дати зрозуміти, з чим ми маємо справу.

В ідеалі він би мав усі ці особливості:

  1. Чорний список слів (ігнорувати)
  2. Слово випливає
  3. Спеціальне злиття синоніму
  4. Підрахунок усіх цілей використання
  5. Підрахунок кількості публікацій, у яких відображається слово.

Я б міг подумати, що такий текстовий аналіз буде надзвичайно поширеним, але я не зміг знайти жодного програмного забезпечення, яке б робило подібні речі у цілих блогах. Чи доступне програмне забезпечення для цього?


3
Цікаво. Коли ви сумніваєтесь, Python отримав вашу спину.
James T Snell

Так ... Я дуже сподіваюся, що мені не доведеться прокладати свою справу на цьому.
Брайан Бауман

є щось, що це робить ... Я пам'ятаю, що друг аналізував вікіпедію ... Я завтра перевірю з ним завтра
Келтарі

Відповіді:


3

Програмне забезпечення, яке ви шукаєте, може мати безліч назв, таких як "Аналіз вмісту" , "Хмара тегів" або "Метатеги" та багато інших, таких як "аналіз тексту" та "пошук тексту".

Для цих цілей існує дуже багато програмних засобів, як безкоштовних, так і комерційних.

У мене немає особистого досвіду роботи з такими інструментами, але гарним місцем для початку є інструменти аналізу тексту, які перелічують десятки таких інструментів, як безкоштовних, так і комерційних.

Іншим таким списком є Аналіз тексту, Програми пошуку тексту та Програмне забезпечення пошуку інформації .


Я фільтрував свій шлях через перший список, але жоден із вільних варіантів не включає набагато більше, ніж мовний аналіз. Ще не переглянув другий список - я можу в кінцевому підсумку прокрутити свій власний.
Брайан Бауман

2

Погляньте на Rapidminer або Weka

Бачачи його блог клієнтів, ви, мабуть, маєте доступ до бази даних. Завантажте всі статті як простий текст і скористайтеся однією з перерахованих вище програм, щоб вирішити питання щодо обробки природних мов (1,2,3 та 5).

Кількість вживань важко по-справжньому автоматизувати, оскільки це стосується автоматичного визначення значення слів за допомогою контексту.


Підрахунок усіх цілей використання, а не користувачів. Дякую за пропозиції.
Брайан Бауман

Я неправильно читаю, мібаде. Все-таки слід замовити Rapidminer або Weka на природну обробку мови. Тобто, якщо набір даних не є величезним, тому що обидва намагаються вмістити його в пам'яті
suweller

2

одне з найбільш програмних засобів контент-аналізу - WordStat, розроблений Provalis Research

WordStat - це модуль аналізу тексту для QDA Miner або SimStat. WordStat поєднує метод аналізу контенту, використовуючи словниковий підхід та багато алгоритмів дослідження або різних методів видобутку тексту. WordStat може застосувати існуючі словники категоризації до нового текстового корпусу. Він також може бути використаний при розробці та валідації нових словників категоризації. Використовуючи спільно з кодуваннями вручну, цей модуль може надати допомогу для більш систематичного застосування правил кодування, допомогти виявити відмінності у використанні слова між підгрупами осіб та допомогти у перегляді існуючого кодування за допомогою таблиць KWIC (Ключове слово в контексті). WordStat спеціально розроблений для вивчення текстової інформації, такої як відповіді на відкриті запитання, інтерв'ю, заголовки, статті журналів, публічні виступи, електронні комунікації тощо.

http://provalisresearch.com/products/content-analysis-software/


1

Ви можете спробувати Mathematica Вольфрама . Вам доведеться виконати деяке програмування, але всі необхідні інструменти є:


0

На деякі з цих питань можна швидко та брудно відповісти за допомогою пошуку Google у вашому блозі (найпростіше, якщо у нього є власний домен).


0

Zemanta робить аналіз і може запропонувати теги та посилання. Це також плагін WordPress.

Єдина проблема: на даний момент це вимагає відкриття та вибору та збереження кожної публікації вручну.

Однак існує величезна кількість плагінів для автоматичного тегу для wordpress. Спробуйте пошукати плагін і спробувати кілька.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.