舆情云数据

序号	英文字段	中文字段	字段类型	备注
1	doc_id	文章ID	核心字段	文章ID，用url生成
2	media_primary_classify	媒体一级分类	核心字段	媒体一级分类
3	media_secondary_classify	媒体二级分类	核心字段	媒体二级分类
6	title	标题	核心字段	文章标题，微博标题用账号代替
7	author	作者	核心字段	文章作者
8	content_abstract	内容摘要	核心字段	NLP字段，内容摘要，文章是从nlp走，微博没有
9	keyword	关键词	核心字段	NLP字段，内容关键词，文章、微博都有
10	content	正文	核心字段	文章正文
12	fingerprint	语义指纹	核心字段	NLP字段，用于文章正文排重
13	source_website	发布来源	核心字段	发布来源的站点名称
14	capture_website	采集版权来源	核心字段	版权来源，从页面获取到的来源媒体，只涉及文章
15	media_bag_ids	新闻媒体包id集合	核心字段	新闻媒体包id集合，目前只有中央网信办稿源库
24	copyright_originalFlag	版权原创转发标志	扩展字段
25	copyright_unit	版权单位（算法）	扩展字段	版权单位名称id，通过算法获取版权单位名称跟媒体单位匹配
27	url	原文URL	核心字段	原文网址
28	publish_time	发布时间	核心字段	文章或微博的发布时间
29	website_id	发布来源站点Id	核心字段	发布站点的站点ID
30	channel_id	发布来源频道Id	核心字段	发布来源的频道ID
31	childsite_id	发布来源子站点Id	核心字段	发布来源的子站点ID
32	similar_channel_id	相似频道ID	扩展字段	相似频道编码ID，6月2日新增字段，众云会用到
33	similar_website_id	相似子站点ID	扩展字段	相似子站点编码ID，6月2日新增字段，版权排重会用到
34	childsite_name	发布来源子站点名称	核心字段	发布来源的子站点名称，5月7日新增字段
35	is_sensitive_website	是否敏感站点	延展字段	新增字段，判断是否外媒的敏感站点，判断依据为website_blacklist表的filterType 字段，值为2代表敏感-屏蔽站点，3代表敏感-屏蔽领导人
36	is_important_website	是否重点站点	延展字段	新增字段，判断是否重点站点，根据站点表isEmphasis 字段，1重点 2非重点 3低价值
37	channel_name	频道名称	核心字段	新增字段
38	navigation	网站导航	核心字段	新增字段，网站导航路径，面包屑字段
39	media_institution_id	媒体单位ID	核心字段	新增字段，单位机构ID，用于媒体矩阵功能
40	media_matrix_id	媒体矩阵ID	核心字段	新增字段，多值字段，用于媒体矩阵功能，可以分属不同媒体矩阵
41	media_user_id	自媒体所属平台账号ID	核心字段	新增字段，如今日头条用户id，微博uid，微信biz
42	media_user_name	自媒体账号名称	核心字段	新增字段，自媒体账号名称
43	media_regnize	自媒体是否认证	核心字段	新增字段，标识自媒体账号是否认证
45	fans_num	自媒体账号粉丝量	核心字段	新增字段
46	digg_num	自媒体账号点赞总量	核心字段	新增字段
47	image_video_flag	是否含有图片、视频	延展字段	新增字段，用于标识文章正式是否包含图片及视频
48	image_store_path	图片存储地址	延展字段	新增字段，网页图片下载到本地后的存放路径
49	image_ocr_content	图片OCR识别文本内容	延展字段	新增字段，网页中图片OCR识别HOU 结果
50	video_store_path	视频存储地址	延展字段	新增字段，网页视频下载到本地后的存放路径
51	video_ocr_content	视频OCR识别文本内容	延展字段	新增字段，网页视频OCR文本识别后的文本内容
52	media_country	媒体所在国家	延展字段	新增字段，媒体所在国家
53	language	媒体语种	延展字段	新增字段，媒体语种
54	media_icp_area	媒体icp地域	验证字段	新增字段，媒体icp注册地地域，地域编码
55	media_area_level	媒体行政地域级别	延展字段	新增字段，媒体行政地域级别
56	video_cover_url	视频封面图片	核心字段	新增字段
58	is_foreign_media	是否境外	验证字段	是否境外媒体
59	user_head	自媒体头像地址	核心字段	用于存放自媒体头像图片地址
60	image_url	内容图片	核心字段	内容中的图片原始链接地址，如有多幅图片，则存多张图片的原始地址
61	video_url	内容视频	核心字段	新增字段，内容中的视频原始链接地址，如有多个视频，则存多个视频的原始地址
62	layout_name	版面名称	核心字段	数字报刊版面名称
63	layout_code	版面编号	核心字段	新增字段，数字报刊版面编号
64	area_attr	地域属性	延展字段	内容地域属性，文本提及地域，并在提及地域基础上逐级上溯，直至最高地域范围。如海淀区、北京市、华北地区
65	content_length	文章字数	核心字段	文章字数
66	load_time	入库时间	核心字段	文章预处理后的时间戳
67	crawler_time	采集时间	核心字段	文章采集的时间戳
68	service_id	采集来源	核心字段	采集来源，如：元搜索、自动采集等
69	del_flag	是否删除	核心字段	文档是否删除标志位
70	meidia_weight(搜索新增了media_weight )	媒体权重	延展字段	媒体权重，对应weibsite表的媒体权重字段
72	first_publish	是否首发媒体	延展字段	判断文章是否首发，通过算法计算，之前北京公安项目使用，目前只给部分数据赋值，后续计划全量赋值
73	internet_content_provider	ICP互联网内容提供商	延展字段	信息源相关字段，一般用于数据下载
74	content_is_negative	文章内容正负面	延展字段	NLP字段，用于正负情感倾向性分析
75	emothion_value	情感分值	延展字段	新增字段，NLP字段，情感分值
76	garbage_classify	是否垃圾文章	延展字段	业务字段，用于判断是否垃圾文章
77	garbage_classify_id	垃圾分类ID	延展字段	NLP字段，垃圾分类id
78	garbage_classify_id	垃圾分类ID	延展字段	NLP字段，垃圾分类id
79	emothion_positive	正面分值	延展字段	NLP字段，情感正面分值
80	emothion_negative	负面分值	延展字段	NLP字段，情感负面分值
81	positive_words	正向词	延展字段	NLP字段，用于保存正向情感词
82	negative_words	负向词	延展字段	NLP字段，用于保存负向情感词
83	person	人物	延展字段	NLP字段，人物姓名，靠模型计算获取
84	area	地区	延展字段	NLP字段，算法识别的地域名称，靠模型计算
85	organization	机构	延展字段	NLP字段，机构名字，靠模型计算获取
86	title_fingerprint	标题语义指纹	验证字段	NLP字段，标题生成的语义指纹，用于标题排重
87	topic_area_ids	主题地域	延展字段	NLP字段，主题地域，也称呼为确主题地域，以提及地域作为候选，筛选出主要的地域，作为返回结果。如海淀区、丰台区
88	pan_topic_area_ids	泛主题地域	延展字段	NLP字段，以确主题地域为基础，并逐级上溯，直至最高地域范围。如丰台区、海淀区、北京市、华北地区
99	root_weibo_id	原发微博ID	核心字段	微博原发博文ID
100	root_weibo_url	原发微博url	核心字段	微博原发url
101	root_weibo_user_name	原发博主名称	核心字段	微博原发博主名称
102	root_uid	原发微博uid	核心字段	博主原发博主uid，删除
103	root_user_id	原发微博用户id	延展字段	微博原发微博博uid
104	root_weibo_pub_time	原发微博发布时间	核心字段	原发微博发布时间
105	gender	微博主性别	核心字段	博主性别
106	followers_count	微博主粉丝数	核心字段	博主粉丝数量
107	province_id	博主地域	核心字段	博主地域
108	statuses_count	发博总数	核心字段	博主发博总数
109	user_vip	微博主认证	核心字段	博主认证信息
110				-1:普通用户，0:黄V ，10:微博女郎，200:初级达人，220:中高级达人，400:已故V用户，1:政府，2:企业，3:媒体，4:校园，5:公益，6:应用，7:机构，8:待审企业
111
112				1-8的范围值的微博认证统称为蓝V
113
120	original	微博是否原发（微博）	延展字段	微博字段，用于判断微博原发，
121	share_num	转发数（微博）	核心字段	转发数（原微博专用），后续微博、自媒体及新闻通用
122	comm_num	评论数（微博）	核心字段	评论数（原微博专用），后续微博、自媒体及新闻通用
123	like_num	点赞数（微博）	核心字段	点赞数（原微博专用），后微博、自媒体及新闻通用
124	read_num	阅读数（微信）	核心字段	阅读数，微信常用，其它媒体也可使用
125	watch_num	在看数（微信）	核心字段	在看数，微信专用
126	wx_headline	微信头条（微信）	延展字段	微信头条标志，微信专用
127	play_num	播放数（视频）	核心字段	新增字段，播放次数，视频专用，
128	dataLine	电头	延展字段	文章电头，算法提取值，预处理环节生成

城市数据资产(全国)运营平台

数据超市

数据资产化全过程服务

数据资产治理

数据资产化服务平台

合作案例

数据库信息简介

数据库详情