Я намагаюсь візуально порівняти, як три різні публікації новин висвітлюють різні теми (визначені за темою моделі LDA). У мене є два пов'язані з цим методи, але я отримав багато відгуків від колег, що це не дуже інтуїтивно. Я сподіваюся, що хтось там має кращу ідею для візуалізації цього.
У першому графіку я показую пропорції кожної теми у кожній публікації, наприклад:
Це досить просто та інтуїтивно зрозуміло майже для всіх, з ким я спілкувався. Однак складно помітити відмінності між публікаціями. Яка газета висвітлює, яку тему більше?
Щоб досягти цього, я зрозумів різницю між публікацією з найвищою та другою найвищою часткою тем, забарвлених публікацією з найвищою. Подобається це:
Так, величезна планка для футболу, наприклад, насправді - відстань між англійською мовою Al-Ahram та Daily News Egypt (№2 у футбольному висвітленні), і вона пофарбована у червоний колір, оскільки Аль-Ахрам - №1. Аналогічно, випробування зелені, оскільки Єгипетський незалежний має найвищу частку, а розмір смуги - відстань між Єгипетським незалежним та Daily News Egypt (знову №2).
Те, що я мушу пояснити, що все в двох абзацах є досить впевненою ознакою того, що графік не відповідає тесту на самодостатність. Важко сказати, що відбувається насправді, просто подивившись на це.
Будь-які загальні пропозиції щодо того, як візуально виділити домінуючу публікацію до кожної теми більш інтуїтивно зрозумілим способом?
Редагувати: Дані, з якими можна грати: Ось dput
вихід з R , а також файл CSV .
Редагувати 2: Ось попередня версія сюжетної крапки з діаметрами точок пропорційною пропорції теми в корпусі (саме так спочатку сортували теми). Хоча мені все-таки потрібно поправити це трохи більше, він відчуває себе набагато інтуїтивніше, ніж те, що я робив раніше. Дякую всім!