舆情云数据


数据库信息简介

全网全媒体来源各类新闻信息,包括正面,中性,负面多类型

数据库详情

序号英文字段中文字段字段类型备注
1doc_id文章ID核心字段文章ID,用url生成
2media_primary_classify媒体一级分类核心字段媒体一级分类
3media_secondary_classify媒体二级分类核心字段媒体二级分类
6title标题核心字段文章标题,微博标题用账号代替
7author作者核心字段文章作者
8content_abstract内容摘要核心字段NLP字段,内容摘要,文章是从nlp走,微博没有
9keyword关键词核心字段NLP字段,内容关键词,文章、微博都有
10content正文核心字段文章正文
12fingerprint语义指纹核心字段NLP字段,用于文章正文排重
13source_website发布来源核心字段发布来源的站点名称
14capture_website采集版权来源核心字段版权来源,从页面获取到的来源媒体,只涉及文章
15media_bag_ids新闻媒体包id集合核心字段新闻媒体包id集合,目前只有中央网信办稿源库
24copyright_originalFlag版权原创转发标志扩展字段
25copyright_unit版权单位(算法)扩展字段版权单位名称id,通过算法获取版权单位名称跟媒体单位匹配
27url原文URL核心字段原文网址
28publish_time发布时间核心字段文章或微博的发布时间
29website_id发布来源站点Id核心字段发布站点的站点ID
30channel_id发布来源频道Id核心字段发布来源的频道ID
31childsite_id发布来源子站点Id核心字段发布来源的子站点ID
32similar_channel_id相似频道ID扩展字段相似频道编码ID,6月2日新增字段,众云会用到
33similar_website_id相似子站点ID扩展字段相似子站点编码ID,6月2日新增字段,版权排重会用到
34childsite_name发布来源子站点名称核心字段发布来源的子站点名称,5月7日新增字段
35is_sensitive_website是否敏感站点延展字段新增字段,判断是否外媒的敏感站点,判断依据为website_blacklist表的filterType 字段,值为2代表敏感-屏蔽站点,3代表敏感-屏蔽领导人
36is_important_website是否重点站点延展字段新增字段,判断是否重点站点,根据站点表isEmphasis 字段,1重点 2非重点 3低价值
37channel_name频道名称核心字段新增字段
38navigation网站导航核心字段新增字段,网站导航路径,面包屑字段
39media_institution_id媒体单位ID核心字段新增字段,单位机构ID,用于媒体矩阵功能
40media_matrix_id媒体矩阵ID核心字段新增字段,多值字段,用于媒体矩阵功能,可以分属不同媒体矩阵
41media_user_id自媒体所属平台账号ID核心字段新增字段,如今日头条用户id,微博uid,微信biz
42media_user_name自媒体账号名称核心字段新增字段,自媒体账号名称
43media_regnize自媒体是否认证核心字段新增字段,标识自媒体账号是否认证
45fans_num自媒体账号粉丝量核心字段新增字段
46digg_num自媒体账号点赞总量核心字段新增字段
47image_video_flag是否含有图片、视频延展字段新增字段,用于标识文章正式是否包含图片及视频
48image_store_path图片存储地址延展字段新增字段,网页图片下载到本地后的存放路径
49image_ocr_content图片OCR识别文本内容延展字段新增字段,网页中图片OCR识别HOU 结果
50video_store_path视频存储地址延展字段新增字段,网页视频下载到本地后的存放路径
51video_ocr_content视频OCR识别文本内容延展字段新增字段,网页视频OCR文本识别后的文本内容
52media_country媒体所在国家延展字段新增字段,媒体所在国家
53language媒体语种延展字段新增字段,媒体语种
54media_icp_area媒体icp地域验证字段新增字段,媒体icp注册地地域,地域编码
55media_area_level媒体行政地域级别延展字段新增字段,媒体行政地域级别
56video_cover_url视频封面图片核心字段新增字段
58is_foreign_media是否境外验证字段是否境外媒体
59user_head自媒体头像地址核心字段用于存放自媒体头像图片地址
60image_url内容图片核心字段内容中的图片原始链接地址,如有多幅图片,则存多张图片的原始地址
61video_url内容视频核心字段新增字段,内容中的视频原始链接地址,如有多个视频,则存多个视频的原始地址
62layout_name版面名称核心字段数字报刊版面名称
63layout_code版面编号核心字段新增字段,数字报刊版面编号
64area_attr地域属性延展字段内容地域属性,文本提及地域,并在提及地域基础上逐级上溯,直至最高地域范围。如海淀区、北京市、华北地区
65content_length文章字数核心字段文章字数
66load_time入库时间核心字段文章预处理后的时间戳
67crawler_time采集时间核心字段文章采集的时间戳
68service_id采集来源核心字段采集来源,如:元搜索、自动采集等
69del_flag是否删除核心字段文档是否删除标志位
70meidia_weight(搜索新增了media_weight )媒体权重延展字段媒体权重,对应weibsite表的媒体权重字段
72first_publish是否首发媒体延展字段判断文章是否首发,通过算法计算,之前北京公安项目使用,目前只给部分数据赋值,后续计划全量赋值
73internet_content_providerICP互联网内容提供商延展字段信息源相关字段,一般用于数据下载
74content_is_negative文章内容正负面延展字段NLP字段,用于正负情感倾向性分析
75emothion_value情感分值延展字段新增字段,NLP字段,情感分值
76garbage_classify是否垃圾文章延展字段业务字段,用于判断是否垃圾文章
77garbage_classify_id垃圾分类ID延展字段NLP字段,垃圾分类id
78
79emothion_positive正面分值延展字段NLP字段,情感正面分值
80emothion_negative负面分值延展字段NLP字段,情感负面分值
81positive_words正向词延展字段NLP字段,用于保存正向情感词
82negative_words负向词延展字段NLP字段,用于保存负向情感词
83person人物延展字段NLP字段,人物姓名,靠模型计算获取
84area地区延展字段NLP字段,算法识别的地域名称,靠模型计算
85organization机构延展字段NLP字段,机构名字,靠模型计算获取
86title_fingerprint标题语义指纹验证字段NLP字段,标题生成的语义指纹,用于标题排重
87topic_area_ids主题地域延展字段NLP字段,主题地域,也称呼为确主题地域,以提及地域作为候选,筛选出主要的地域,作为返回结果。如海淀区、丰台区
88pan_topic_area_ids泛主题地域延展字段NLP字段,以确主题地域为基础,并逐级上溯,直至最高地域范围。如丰台区、海淀区、北京市、华北地区
99root_weibo_id原发微博ID核心字段微博原发博文ID
100root_weibo_url原发微博url核心字段微博原发url
101root_weibo_user_name原发博主名称核心字段微博原发博主名称
102root_uid原发微博uid核心字段博主原发博主uid,删除
103root_user_id原发微博用户id延展字段微博原发微博博uid
104root_weibo_pub_time原发微博发布时间核心字段原发微博发布时间
105gender微博主性别核心字段博主性别
106followers_count微博主粉丝数核心字段博主粉丝数量
107province_id博主地域核心字段博主地域
108statuses_count发博总数核心字段博主发博总数
109user_vip微博主认证核心字段博主认证信息
110-1:普通用户,0:黄V ,10:微博女郎,200:初级达人,220:中高级达人,400:已故V用户,1:政府,2:企业,3:媒体,4:校园,5:公益,6:应用,7:机构,8:待审企业
111
1121-8的范围值的微博认证统称为蓝V
113
120original微博是否原发(微博)延展字段微博字段,用于判断微博原发,
121share_num转发数(微博)核心字段转发数(原微博专用),后续微博、自媒体及新闻通用
122comm_num评论数(微博)核心字段评论数(原微博专用),后续微博、自媒体及新闻通用
123like_num点赞数(微博)核心字段点赞数(原微博专用),后微博、自媒体及新闻通用
124read_num阅读数(微信)核心字段阅读数,微信常用,其它媒体也可使用
125watch_num在看数(微信)核心字段在看数,微信专用
126wx_headline微信头条(微信)延展字段微信头条标志,微信专用
127play_num播放数(视频)核心字段新增字段,播放次数,视频专用,
128dataLine电头延展字段文章电头,算法提取值,预处理环节生成